高性能計(jì)算(HPC)的可擴(kuò)展性和普遍性正在深入日常生活。現(xiàn)階段,超級(jí)計(jì)算已經(jīng)推動(dòng)了科學(xué)探索的發(fā)展,并能夠幫助解決氣候變化和慢性病治療等關(guān)鍵問(wèn)題。
而在具體應(yīng)用方面,高性能計(jì)算與產(chǎn)業(yè)的結(jié)合越發(fā)緊密。從金融到醫(yī)療,越來(lái)越多的數(shù)據(jù)分析,需要高性能計(jì)算的強(qiáng)力支撐以獲得更快更穩(wěn)定的解決方案。
前不久青云科技全新發(fā)布的QingCloud EHPC產(chǎn)品,基于青云公有云IaaS平臺(tái)、PaaS平臺(tái)的云基礎(chǔ)設(shè)施,為用戶(hù)主要提供公有云服務(wù),為有需求的用戶(hù)提供專(zhuān)屬云和混合云等多種形態(tài)的產(chǎn)品。
青云科技云平臺(tái)&服務(wù)部高級(jí)總監(jiān)陳海泉表示,青云的超算云平臺(tái)可以完美地支持大數(shù)據(jù)和人工智能融合的超算業(yè)務(wù),并且以云服務(wù)的方式提供,讓超算資源更便捷地交付給用戶(hù)。
提供多場(chǎng)景適配
據(jù)QingCloud EHPC 產(chǎn)品經(jīng)理苗慧介紹,QingCloud EHPC高性能計(jì)算平臺(tái)應(yīng)對(duì)的是生命科學(xué)、CAE仿真、海洋氣象等相關(guān)領(lǐng)域的高性能計(jì)算需求,提供豐富多樣的使用模式,適配多種應(yīng)用場(chǎng)景。通過(guò)統(tǒng)一管理的平臺(tái),使不同領(lǐng)域的工程師、研究人員可以突破本地的HPC基礎(chǔ)設(shè)施限制,快速開(kāi)始云上創(chuàng)新。
QingCloud EHPC 提供云上超算SaaS化服務(wù),方便快捷讓作業(yè)運(yùn)行起來(lái)。通過(guò)青云的彈性公網(wǎng)IP、公網(wǎng)帶寬,將數(shù)據(jù)進(jìn)行快速的上傳、下載,與本地?cái)?shù)據(jù)同步。
從客戶(hù)群來(lái)看,QingCloud EHPC覆蓋青云的終端用戶(hù),從云上計(jì)算到云下結(jié)果產(chǎn)出的一個(gè)全流程計(jì)算服務(wù)平臺(tái),青云的用戶(hù)可以在幾分鐘內(nèi),將云上工作快速運(yùn)行起來(lái),快速完成計(jì)算作業(yè)。
從服務(wù)構(gòu)架來(lái)看,QingCloud EHPC的服務(wù)架構(gòu)主要分為三層,分別是資源層、管理層和用戶(hù)端。
資源層主要包含青云的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源,以及相應(yīng)的后臺(tái)調(diào)度器、調(diào)度管理平臺(tái)以及可視化服務(wù)平臺(tái)。
管理層主要提供SaaS化的服務(wù),從開(kāi)始作業(yè)到作業(yè)運(yùn)行結(jié)束,系統(tǒng)將自動(dòng)進(jìn)行折扣信息計(jì)算、計(jì)量計(jì)費(fèi)和作業(yè)監(jiān)控服務(wù),能夠保證用戶(hù)進(jìn)來(lái)之后,對(duì)團(tuán)隊(duì)項(xiàng)目、團(tuán)隊(duì)項(xiàng)目權(quán)限等相應(yīng)的管理。
用戶(hù)端是用戶(hù)控制臺(tái),用戶(hù)可以進(jìn)行創(chuàng)建集群、管理集群、彈性伸縮、作業(yè)提交、作業(yè)編排、作業(yè)性能分析。通過(guò)用戶(hù)控制臺(tái),用戶(hù)可以很方便地操作作業(yè)。
從產(chǎn)品的構(gòu)架來(lái)看,QingCloud EHPC能夠從資源層上提供高效的資源,從管理層上提供方便快捷的管理服務(wù),從用戶(hù)端上提供交互使用體驗(yàn)優(yōu)秀的用戶(hù)控制臺(tái)。
同時(shí),QingCloud EHPC采用彈性伸縮的計(jì)算節(jié)點(diǎn):在業(yè)務(wù)運(yùn)行高峰期,青云可以將計(jì)算節(jié)點(diǎn)的數(shù)量進(jìn)行擴(kuò)容,或?qū)⒂?jì)算節(jié)點(diǎn)的配置進(jìn)行提高;在低峰期,可以根據(jù)作業(yè)量進(jìn)行縮容。這樣的安排將會(huì)大大減少資源投入的費(fèi)用,提高資源利用效率,為用戶(hù)提供更加友好的解決方案。
多技術(shù)融合 應(yīng)對(duì)新挑戰(zhàn)
苗慧透露,QingCloud EHPC 有豐富的應(yīng)用軟件。青云研究傳統(tǒng)的超算中心和現(xiàn)在的云服務(wù)廠商后,通過(guò)青云的技術(shù),將大規(guī)模開(kāi)源軟件及商用軟件放到共享軟件目錄上,用戶(hù)可以達(dá)到即來(lái)即用的情況,同時(shí)可以輔助用戶(hù)安裝與使用。青云提供的300多款軟件中,既覆蓋了像常用的MPI庫(kù)、數(shù)學(xué)軟件等資源,也覆蓋了分子生物學(xué)、新能源、新材料、大氣海洋環(huán)境、地球、物理等多行業(yè)領(lǐng)域。
事實(shí)上,從QingCloud EHPC的產(chǎn)品特性,可以看出高性能計(jì)算與云計(jì)算的融合趨勢(shì)。
高性能計(jì)算的用途廣泛,最核心的是用來(lái)模擬世界萬(wàn)物。宏觀上,可以通過(guò)衛(wèi)星圖像、遙感數(shù)據(jù)、氣象數(shù)據(jù)利用高性能計(jì)算來(lái)模擬地球、海洋和氣侯;微觀上,能模擬分子原子來(lái)了解生命的原理,使藥物的研發(fā)更快速、更精確。
在此背景下,作為前沿科技的高性能計(jì)算開(kāi)始走出高校,進(jìn)入行業(yè),實(shí)現(xiàn)了更多的場(chǎng)景應(yīng)用落地。與此同時(shí),受益于技術(shù)的演進(jìn),高性能計(jì)算與大數(shù)據(jù)人工智能和云計(jì)算的融合越發(fā)明顯。
在醫(yī)藥領(lǐng)域,新冠疫情加速了大數(shù)據(jù)在醫(yī)藥和生命科學(xué)上的應(yīng)用,促進(jìn)了核酸疫苗和核酸藥物的研發(fā)。在金融領(lǐng)域,大數(shù)據(jù)和人工智能與超算相結(jié)合,對(duì)各種層面和維度的數(shù)據(jù)進(jìn)行分析,通過(guò)深度學(xué)習(xí)技術(shù)訓(xùn)練出模型,應(yīng)用在風(fēng)控上,可以讓壞賬率降低35%。
針對(duì)大數(shù)據(jù)、人工智能與超算融合的場(chǎng)景,對(duì)超算提出了一定的挑戰(zhàn)。主要體現(xiàn)在,存儲(chǔ)容量比以前大很多,不同類(lèi)型的業(yè)務(wù)對(duì)存儲(chǔ)的要求也不一樣。因此超算中心需要對(duì)不同的業(yè)務(wù)提供合適的存儲(chǔ)類(lèi)型。
早先的超算中心圍繞計(jì)算資源建設(shè),容量有限、存儲(chǔ)類(lèi)型單一,難以支撐大數(shù)據(jù)的場(chǎng)景。而新一代的超算中心有些已經(jīng)配備了強(qiáng)大的容量,可以承接仿真建模類(lèi)大數(shù)據(jù)的業(yè)務(wù),但由于超算中心本身提供的服務(wù)比較單一,也無(wú)法承載大數(shù)據(jù)業(yè)務(wù)需求。
同時(shí),隨著人工智能應(yīng)用的爆發(fā),對(duì)超算中心又提出了新的需求:充足的GPU資源以及相應(yīng)的軟件框架。這些業(yè)務(wù)往往希望用云原生的方式來(lái)部署和運(yùn)行。因此,這對(duì)以 Slurm 調(diào)度器為主的超算中心也是一個(gè)很大的挑戰(zhàn)。
因此,青云希望將適應(yīng)了人工智能、大數(shù)據(jù)和超算的基礎(chǔ)設(shè)施,在適用不同業(yè)務(wù)的同時(shí)能夠做到盡量復(fù)用。這也是此次青云推出EHPC超算云—— QingCloud EHPC的一個(gè)初衷,可以全面地支持各種新的業(yè)務(wù)場(chǎng)景。
解決行業(yè)痛點(diǎn)
據(jù)了解,此次推出的高性能計(jì)算平臺(tái),對(duì)于超算最常見(jiàn)的仿真和建模業(yè)務(wù),青云提供了低延時(shí)、高帶寬的InfiniBand網(wǎng)絡(luò),高速并行文件存儲(chǔ)以及CPU/GPU的算力組合,不僅能支持大規(guī)模求解運(yùn)算,還能提供 GPU 桌面進(jìn)行圖形前后處理,完成一個(gè)閉環(huán)的業(yè)務(wù)場(chǎng)景。
對(duì)于大數(shù)據(jù)業(yè)務(wù),QingCloud云平臺(tái)提供的對(duì)象存儲(chǔ)容量達(dá) 245PB,跟計(jì)算節(jié)點(diǎn)結(jié)合,可以用于大規(guī)模的數(shù)據(jù)處理和分析。計(jì)算節(jié)點(diǎn)到對(duì)象存儲(chǔ)的網(wǎng)絡(luò)帶寬有1.6T,能夠保證大數(shù)據(jù)計(jì)算的超高性能。
對(duì)于人工智能訓(xùn)練業(yè)務(wù),青云提供算力達(dá)850PFlops的A100 GPU資源池和全閃并行文件存儲(chǔ),并且能夠結(jié)合容器平臺(tái),提供性能極致優(yōu)化、輕量便捷、開(kāi)源開(kāi)放的人工智能平臺(tái)。
此外,QingCloud EHPC還解決了超算中心的另一個(gè)痛點(diǎn)——使用方式。傳統(tǒng)的超算中心用戶(hù),在使用時(shí),需要提交申請(qǐng),并且有人工審批的環(huán)節(jié),用戶(hù)得到審批通過(guò)后,還需要自己安裝VPN客戶(hù)端連接超算中心提供的登錄節(jié)點(diǎn)。
超算中心的登錄節(jié)點(diǎn)往往是很多用戶(hù)共享的。共享的節(jié)點(diǎn)有兩個(gè)問(wèn)題:一是超算中心為了保證其自身安全,不提供 root 權(quán)限,給安裝軟件帶來(lái)一些麻煩。二是Linux隔一段時(shí)間就會(huì)暴露出一些系統(tǒng)漏洞,如果被用戶(hù)利用得到root權(quán)限,則能竊取平臺(tái)上其他用戶(hù)的數(shù)據(jù)。
“所以,不方便和不安全這兩個(gè)問(wèn)題,需要用云平臺(tái)與高性能計(jì)算結(jié)合解決。”陳海泉表示,青云云平臺(tái)帶來(lái)的一個(gè)最大的變化是,把傳統(tǒng)的審批制度變成用戶(hù)自服務(wù)的形式,用戶(hù)隨時(shí)可以自己到云平臺(tái)注冊(cè)賬號(hào),并且充值購(gòu)買(mǎi)他需要的計(jì)算資源。
青云保障安全的同時(shí),還能讓整個(gè)超算使用很靈活,陳海泉介紹到,青云提供了兩種不同類(lèi)型的超算集群:偏傳統(tǒng)的共享型超算集群和獨(dú)享EHPC集群。
“青云有一個(gè)愿景,希望跟超算中心合作共建算力共享的算力網(wǎng)絡(luò),為超算中心私有化部署的同時(shí),以云平臺(tái)連接全網(wǎng)算力提供外部資源支撐突發(fā)業(yè)務(wù),避免排隊(duì)。當(dāng)超算中心自己的資源空置時(shí),也可以對(duì)外出售算力增加運(yùn)營(yíng)收入。”陳海泉說(shuō)道。