計算的商業化,何以搭上了「碳中和」的列車?
作者 | 陳彩嫻
編輯 | 岑峰
在 2020 年中國高性能計算機性能 TOP100 的排行榜中,部署在國家超算中心(無錫)的「神威 · 太湖之光」依然穩居第一,國家超算中心(廣州)的「天河二號升級系統」位列第二,而榮登榜眼的,卻是此前名不見經傳的北京超級云計算中心 A 分區。
這一排名,讓許多此前并不知道北京超級云計算中心的朋友大吃一驚:「超級云計算」是什么?北京超級云計算中心的「A 分區」究竟實力何在?
盡管大家對 A 分區的研制廠商戴爾(DELL)多有耳聞,但對 A 分區所部署的北京超級云計算中心卻幾乎一無所知,顧名思義,更容易將其與國家超算中心混淆。
這座超算中心成立于 2011 年,雖由中國科學院計算機網絡信息中心孵化、北京懷柔區政府支持成立,但卻不在國家的 8 個超算中心之列。
眾所周知,我國第一個國家超算中心成立于 2009 年,由天津濱海新區與國防科技大學合作共建,斥資 6 億。此后,國家又陸續在多個東部城市建立了超算中心:濟南、深圳、廣州、長沙、無錫、鄭州、昆山……
其「政府 + 高校」的合作模式雖與國家超算相似,但自創立之初,北京超級云計算中心的核心理念便注定了它的不同。
從 2011 年到 2020 年,北京超級云計算中心何以從一個籍籍無名的超算中心,成為躋身于中國高性能計算機 TOP100 榜單一員、并僅次于兩個國家超算中心的明星超算呢?
在中國高性能計算盛會 CCF HPC China 2021 中,我們有幸采訪了北京超級云計算中心的 CTO 郭宇,與他一同探究該中心的「成名之道」。
從建設的模式來看,北京超級云計算中心與國家超算中心有許多不同之處,其中,最大的不同便是:國家超算中心注重科研支持,而北京超級云計算中心的核心理念是超算商業化。
按照郭宇的話說,是「像設計產品一樣設計超算。」
被譽為「國之重器」的超級計算機,向來是大國之間的必爭之地。長久以來,這也形成了國家超算獨當一面、民間超算不為人知的局面。然而,任一行業的發展,必然是多方力量的融合與交匯,百花齊放,從而共同推進領域的前進。
那么,在中國的超算領域內,北京超級云計算中心的位置在哪里?優勢是什么?
1
超算市場的形成
回顧 2011 年北京超級云計算中心的成立節點,除了兩個國家超算中心(天津與濟南)的成立所帶來的信號,超算市場的爆發早在過去的五年便有了行業的鋪墊與基礎:
2005 年以前,CPU 處理器處于「單核時代」,一個 CPU 只有一個核心。如果一臺服務器上有兩個 CPU,那么,搭建一個 1024 核的 CPU 則需要 512 個節點,12 個機柜,因為一個機柜最多只能裝40個節點。而每個機柜的寬度為 60 公分,12 個機柜則是 7.2 米,相當于一個普通教室的寬度。
但從 2006 年開始,CPU 處理器開始進入了「雙核」、并逐步拓展到「多核」時代。雙核處理器的出現,基于 x86 的計算架構,英特爾與 AMD 在 CPU 服務器市場中的主導地位也就此形成:
2006 年年中,AMD 率先推出 AM2 平臺。兩個月后,英特爾發布 Conroe,性能直接提高 40%,與此同時,功耗也降低了 40%。但英特爾并不「就此罷休」,同年 11 月又直接推出全新的四核處理器 Kentsfield,直接把 CPU 推進了「多核時代」。
與單核的 CPU 相比,多核 CPU 的并行處理能力更強、計算密度也更高,并大大減少了散熱與功耗。后來,CPU 出現了 8 核、12 核、16 核……目前一個 CPU 最高已能達到 64 核。對于許多關注高性能計算的行業從事人員來說,他們認為,多核 CPU 必然會帶來計算與任務的并行化,也就是說,超算市場在未來會迎來爆發。
因此,回顧超算市場的發展歷史,在 CPU 進入「多核時代」后,北京超級云計算中心的成立,是卡在了CPU算力爆發的起點。但當時,北京超級云計算中心還未正式開始商業化的探索,前期工作也主要以維護中科院計算機網絡信息中心的超算集群,支持院內科研項目為主。
除了技術的加持,國家超算中心的陸續成立,也逐漸在國內孵化了一個算力的市場。
國家超算中心的建設模式是:科技部與地方政府各出一部分資金建設好國家超算中心后,在運營階段,超算中心的部分運營費用由地方政府的財政補貼,同時,國家部委和地方政府向部分高校科研人員開放課題申請,由高校科研人員從課題經費中支出部分資金到國家超算中心去采購計算資源。
在這樣的模式下,國內逐漸形成了一個商業循環的算力市場。隨著國家超算中心的出現,科研院所與高校逐漸縮減自建超算的規模,增加對外部超算資源的采購。如此一來,超算市場的用戶越來越多,對超算的需求也不斷增加。當市場擴大到一定的程度,必然會出現分化,分為尖端超算市場、通用超算市場與行業超算市場。
對于國家超算中心來說,服務如此分化明顯的市場并不是一件易事,且國家超算中心存在的目的主要是支持國家大課題(如航空、宇宙、氣象等)、推進科研進步。這就造成了超算市場的服務縫隙:海量需要超算資源的小課題用戶在提出需求時,并不能得到滿足。
正是看到超算市場的這一縫隙,2018 年,北京超級云計算中心開始了超算商業化的探索,希望能夠提供「隨需擴容」的計算服務,滿足尖端超算以外的大規模通用超算市場。
2
超算商業化探索
中國高性能計算機 TOP100 的榜單排名由超級計算機計算能力決定,而計算能力主要由超級計算機的單節點性能與集群規模決定。
北京超級云計算 A 分區的 Linpack 測試性能達 3.743PFlops,計算峰值性能達 7.035PFlops,CPU 核數達到 192000,幾乎是第四名往后的計算機的三倍及以上。
據郭宇介紹,A 分區從 2019 年年底開始建設,而后在 2020 年逐步擴容到 3000 節點,背后的原因并不是為了爭奪 TOP3,而是為了滿足客戶的需求。
在郭宇看來,國內的超算市場可以大致分為三類:尖端超算、通用超算與行業超算。其中,國家超算中心所服務的需求市場,便主要是尖端超算市場,滿足尖端超算需求的超級計算機,以難度高、設計性能平衡為主,要兼顧計算、訪存、通信與 I/O 等,服務對象是國家級的科研項目,重點是出成果,而不是盈利。
而北京超級云計算中心的目標市場是通用超算,主要面向萬核以下(尤其是千核以下)的應用,為需求不一的海量用戶提供租賃式超算服務。對于北京超級云計算中心來說,他們的目標是超算的商業化運營,實現超算業務的盈利,反哺到中心建設的投入中,實現自給自足、靈活外延的正循環。
「讓計算不排隊」,是北京超級云計算中心的核心理念。
從 2011 年成立至今,北京超級云計算中心經歷了兩個主要的階段:
剛成立的幾年,北京超級云計算中心以運營中科院體系內的超算為主,包括中科院計算機網絡信息中心在 2014 年推出的超級計算機「元」、2015 年的「元」二期等等。在這一階段,北京超級云計算中心的建設模式、運營模式與國家超算中心的體系有許多相同之處。
到了 2017 年,他們逐漸發現了上述所說的國家超算中心無法滿足的外溢市場需求。隨著國內科研發展的深入推進,高校教師對計算的需求越來越大,超算的用戶類型也越來越多,應用越來越復雜,用戶對計算機的服務要求也越來越高。
比方說,有些用戶做計算,并不是簡單地將一個程序放到超級計算機上就可以直接運行,而是需要在Linux 命令行窗口下將源代碼進行編譯、調優、集成甚至更復雜的適配移植,這對廣大只熟悉 Windows 操作系統的用戶來說過于復雜。
國家超算中心的主要任務是支持重量級的科研項目,取得出色的學術成果,如此一來,國家超算中心的計算資源自然會優先分配給重要的科研團隊,這就導致了許多中小用戶享受不到好的服務,出現「排隊計算」的情況。
基于這一行業需求,北京超級云計算中心便思考從商業運營的角度去解決國家超算中心的這部分外溢需求,根據這部分通用超算客戶需求設計超級計算機和超算服務產品,通過靈活的方式將計算資源提供給超算市場的中小微「散戶」。
于是,2018 年,北京超級云計算中心發布了「中國科技云 · 超算云」,開始了超算商業化的探索征程。
他們以云服務的方式輸出超算資源,注重商業化運營,遵循「隨需供應」、「按需擴容」的理念,在兩年間占領了一定的超算市場,贏取了客戶的信任,在吸引更多中小用戶的過程中對 A 分區進行了擴容與提升,最終在 2020 年贏得了中國高性能計算機 TOP100 排行榜的第三名。
郭宇表示:「贏得 TOP3 是結果,不是目的。我們打造超算,本心是為了服務客戶,獲得該榮譽是錦上添花。」
相對于聚焦 TOP3 的排名,郭宇更希望大家看到 A 分區背后的北京超級云計算中心及其獨特的建設與運營模式。
3
關于「計算」模式的新思考
郭宇提出了一個有意思的觀點:作為一種「產品」,超算的獨特之處在于,在用戶購買超算資源時,用戶需要的并不是超級計算機,而是想要解決問題。就像人們在購買電鉆時,他們想要的并不是電鉆,而是電鉆在墻上鉆出的洞。
所以,在市場上推廣計算資源時,北京超級云計算中心往往是強調「客戶服務」,而不只是中心的資源情況。
從 A 分區來看,我們不難發現,北京超級云計算中心與國家超算中心的模式多有不同:
首先是建設周期。國家超算中心由科技部或地方政府出資,超級計算機的項目申報需要經過層層審批,建設周期一般為 3-5 年,而 A 分區由北京超級云計算中心根據市場需求決定。此外,A 分區的建設主要基于市場上已有的技術設備,減少了技術攻關的時間成本。
比如,A 分區從 2019 年年底開始建設,從一個試驗性的小集群到面向用戶開放,2020 年年中擴容,只用了5周便擴容 1000 個節點,后續又逐步擴容至3000節點。
其次是分布位置。從地圖上看,我們不難發現,國家超算中心基本分布在東部城市,而北京超級云計算中心的超算則主要分布在中西部,尤其是西部。A 分區便是分布在寧夏。超算中心是「耗電大戶」,從商業運營的角度看,西部的電價明顯更低。
在建設 A 分區的時候,國家還沒有發布十四五計劃,「碳達峰」與「碳中和」的概念還未興起。郭宇談道,從北京超級云計算中心的角度來看,他們在建設 A 分區時,主要是遵循商業運營的邏輯,而今年「雙碳」熱點出現后,他們意外地發現,自己的路線竟契合了國家的「雙碳」戰略。
「西部有風力發電、光伏發電,能源豐富,而且年平均氣溫比較低,十分適合計算中心的生存,所以我們將西部作為主要的節點。而且超算業務對實時通訊的需求不高,用戶更關心的是產品的價格,至于機器是在本地、還是在幾千公里以外的西部,他們并不關心。」郭宇解釋。
北京超級云計算中心面向通用超算,用戶數量大,符合長尾效應。郭宇談道:「有這些特點的市場,是比較適合用互聯網的方式去服務的。一是降低單用戶的成本,二是貼身服務。」
所以,無論是計算選址的確定,還是「超算 + 云服務」的互聯網運營模式,都體現了北京超級云計算中心在計算供應中注重靈活與性價比的特點。
從 A 分區所搭配的 CPU 來看,也可窺見北京超級云計算中心的商業運營理念:
A 分區采用的是 AMD 在 2019 年推出的第二代 EPYC(霄龍)服務級處理器,代號羅馬(Rome),基于 7nm 工藝,搭載 64 核心 128 線程,在提升核心數量的同時也提升了時鐘速度,加速頻率可達 3.4GHz。
從計算機的角度來看,計算總共可以分為 4 種類型:計算密集型、訪存密集型、存儲密集型(I/O 密集型)與網絡通信密集型。北京超級云計算中心的主要客戶是訪存密集型的應用, A 分區用戶的特點是:計算規模不大,價格敏感。而羅馬處理器主頻適中,計算性能適中,能耗低,性價比高,顯然更有利于商業運營。
郭宇坦言,北京超級云計算中心的目標并不是打造出像「神威 · 太湖之光」或「天河二號升級系統」這樣各方面性能均衡又出色的超級計算機,而是找到自己的市場定位,為目標用戶提供適合他們的超算方案。
根據處理器的類別,北京超級云計算中心的超算分區可以劃分為四大系列:
基于 AMD 芯片的 A 分區與 M 分區,以及 A 分區的加強版「A6 分區」
基于英特爾芯片的 T 分區與 L 分區
基于國產芯片的分區
基于英偉達芯片的 AI 智算云,比如 N17、N19 區
根據不同用戶的需求,北京超級云計算中心設立了不同的分區去滿足這些需求。比如,榮登 2020 年中國高性能計算機 TOP100 榜單的 A 分區便是專門針對計算密集型與訪存密集型的用戶,存儲性能加強的 I/O 分區專門面向 I/O 密集型用戶等等。
「中國科技云 · 超算云」匯聚了國家超算中心、互聯網云計算中心等資源,可以為用戶提供定制化的計算服務。同時,他們揭開了高性能計算的「神秘面紗」,為用戶提供運行問題解答、參數配置優化、定制化腳本編寫等一系列服務,更有一對一專屬微信群、7 × 24 小時人工值守與 5 分鐘快速響應等機制。
4
自主研發離不開計算
近年來,越來越多企業高舉「自主研發」的旗幟。與此同時,產品的迭代周期加快。為了快速滿足市場的需求,研發人員會越來越多地利用數字化技術進行模擬仿真,其間產生大量數據,對計算的需求也會越來越多。
事實上,從 2010 年以來,許多企業也陸續建立了計算中心,但他們同樣面臨建設周期長、內部計算資源協調難、計算排長隊的現象。企業一般是基于項目的優先級進行計算資源的分配,但人工協調的效率較低,影響了研發項目的進展。
郭宇認為,隨著人們對云計算優勢的認識加深,云計算的市場也在不斷擴大。在新基建中,「數據中心」對應的便是云計算,云計算是數字化轉型的基礎。同時,隨著「雙碳」規劃的推進,碳排放指標也將成為自建超算中心發展的限制因素之一。而北京超級云計算中心在分布位置上的先見之明,無疑將在未來的逐鹿上優勢漸顯。
作為國內第一家成規模的、市場化運營的超算中心,北京超級云計算中心的建設模式,啟示了中國超算市場的發展現狀:除了國家超算中心,越來越多由地方政府支持、市場化資本創辦的超算中心展示了其在推進中國超算發展上的獨特優勢。
比如,在 2020 年中國高性能計算機 TOP100 的榜單排名上,除了北京超級云計算中心 A 分區獲得佳績,內蒙古和林格爾新區的內蒙古高性能計算公共服務平臺(青城之光)位居第四。
除了尖端超算與通用超算,中國的超算市場還有一股重要的力量:公有云廠商,比如阿里云、華為云與亞馬遜云(AWS)。北京超級云計算中心的另一塊重要業務——行業超算,便與這股力量有所交織與重疊。
行業超算更注重實際業務,應用規模為單核到幾千核不等,超算只是業務中的一環。比方說,在基因測序的過程中,基因測序儀產生大量數據,這時候,如果數據存儲在云上,使用云的存儲、網絡與計算資源等等服務進行基因的測序與分析,那么整個業務流程就會十分流暢。
對于這類業務流程,郭宇認為,單靠通用超算是很難滿足的。從北京超級云計算中心的角度來看,他們會考慮將通用超算與云廠商的云服務資源相結合。除了核心的計算業務,公有云廠商還提供豐富的云服務組件,能更好地解決用戶的問題。
「對用戶來說,解決問題最重要。至于計算資源來自哪里,他們并不在乎。我們就是要把各種優勢的資源組合在一起,滿足客戶的需求。」郭宇談道。
從 2018 年至今,北京超級云計算中心已服務超過 15 萬用戶, 已實現連續盈利。
比如,北京超級云計算中心曾支持中科院力學所研究中速磁浮列車的空氣動力學外形優化設計。中速磁浮列車氣動外形優化研究需要針對一系列優化外形進行數值模擬研究,對計算資源的要求較高,單工況網格量約 6000 萬左右,流場特性研究及外形優化研究中產生的計算工況上百計。
在這個項目中,北京超級云計算中心提供了可靈活拓展的大量計算節點,保證了多任務的提交計算。最終,他們確定的最優化流線外形,相對于原始外形,頭車氣動升力系數增加了 33.25%,尾車氣動升力系數減少了 1.78%,整車氣動阻力系數減小了 4.44%,大幅提升了中速磁浮列車的氣動性能。
「從用戶的角度看,建設幾千核的計算資源,先不說時間,就投資成本來講,現在的主流服務器,一個節點大概是 40 核心,如果他用的是 5000 核的計算資源,那么就需要 125 個節點,125 個節點大概需要投資1200多萬,但他們的項目時長只有兩個月。」郭宇介紹。
因此,從投入產出比來看,對一些短期的項目來說,直接采購計算資源顯然更劃算。
5
計算緊跟時代
在郭宇看來,目前國內的超算市場展示了以下三個趨勢:
趨勢一:國內的企業越發重視自主研發,計算需求增加,同時也越來越愿意接受云計算的模式。
趨勢二:國產化的推進加深。在超算體系中,芯片、操作系統、應用等等方面的國產化趨勢將越來越明顯。
趨勢三:計算體系架構正在革新。隨著人工智能、加速計算的興起,以異構計算、加速卡為引導的 GPU 力量正在崛起。
郭宇談起,他在 2019 年去美國參加全球超級計算大會(SC19)時,席間與美國高校的老師聊天,得到的訊息便是:「在現在的環境下,如果你沒有搞點 GPU 的加速計算,文章都難發。從學術的角度看,CPU 體系已經研究地差不多,下一個重點就是 GPU。」
2021 年正好是北京超級云計算中心成立的十周年。作為一家商業化運營的超算中心,郭宇介紹:「我們肯定會堅定不移地走超算商業化的道路。與此同時,他們也會與時俱進,根據國內超算市場的發展趨勢,制定新的發展方針。
緊跟學術界的研究趨勢,北京超級云計算中心也加大了在 GPU 計算領域的投入,建設基于 GPU 加速卡的計算分區。隨著人工智能計算的興起,以及異構計算模式的變化,他們也順勢建立了「AI智算云」,以滿足部分從事人工智能研究學者的需求。
相應地,針對企業的自主研發需求,北京超級云計算中心也逐步推出了一系列面向企業的計算資源,比如針對 CAD 三維設計和中小規模 CAE 仿真計算的設計仿真云,支持海量中小企業實現 " 云上研發 ",可以極低成本起步,推動中小企業高速發展,為國家中小企業發展打造堅實云上研發平臺。針對超算體系國產化的趨勢,他們也有了基于國產芯片的集群,與國產軟件廠商合作,通過云化的方式,幫助國產應用更好地觸及用戶。
在郭宇看來,「讓計算不排隊」不僅是一句口號,更是切實、堅定的實踐。