對(duì)于普通大眾來(lái)說(shuō),高性能計(jì)算(HPC)給人的印象總是神秘且高深。這是因?yàn)榇饲八饕菍W(xué)術(shù)界用來(lái)推進(jìn)基礎(chǔ)科學(xué)發(fā)現(xiàn)和探索的手段,上到宏觀的宇宙大爆炸模擬、下到微觀的量子物理和分子動(dòng)力學(xué)研究。
但是新冠肺炎對(duì)我們的突然襲擊,讓很多人重新認(rèn)識(shí)了高性能計(jì)算:不論是中國(guó)還是全球,領(lǐng)先的基因與藥物研發(fā)機(jī)構(gòu),在高性能計(jì)算的支持下,少則數(shù)小時(shí),多則幾天就破解了新冠病毒的結(jié)構(gòu),并立即開(kāi)始疫苗的研制。
高性能計(jì)算與我們的工作生活越來(lái)越緊密,前不久青云QingCloud(qingcloud.com,股票代碼:688316)重磅上線EHPC高性能計(jì)算平臺(tái),基于尖端超算算力,結(jié)合公有云架構(gòu)提供彈性伸縮、按需計(jì)費(fèi)的高性價(jià)比方案。同時(shí),打通云平臺(tái)豐富的產(chǎn)品和服務(wù)種類(lèi),創(chuàng)新云化超算的服務(wù)新模式,更好賦能新科研、助力新場(chǎng)景。
高性能計(jì)算的新場(chǎng)景
前面我們說(shuō)過(guò),高性能計(jì)算在基因組學(xué)、生命科學(xué)、CAE 仿真、地理測(cè)繪、影視渲染等應(yīng)用場(chǎng)景有著廣泛的應(yīng)用。
但是隨著新技術(shù)和新應(yīng)用的發(fā)展,高性能計(jì)算的新場(chǎng)景也在不斷涌現(xiàn)。青云QingCloud云平臺(tái)&服務(wù)部高級(jí)總監(jiān)陳海泉表示,青云看到高性能計(jì)算領(lǐng)域出現(xiàn)了新的場(chǎng)景,那就是大數(shù)據(jù)、人工智能正在與超算融合。
具體而言,大數(shù)據(jù)驅(qū)動(dòng)存儲(chǔ)跟算力融合。以前建設(shè)超算中心的時(shí)候,普遍是以算力為主導(dǎo),但在存儲(chǔ)方面出現(xiàn)新的挑戰(zhàn),因?yàn)閿?shù)據(jù)量和數(shù)據(jù)類(lèi)型越來(lái)越多,這些數(shù)據(jù)都需要利用大數(shù)據(jù)技術(shù)進(jìn)行處理和分析。
陳海泉說(shuō),大數(shù)據(jù)應(yīng)用帶來(lái)兩個(gè)問(wèn)題:存儲(chǔ)容量比以前大很多;不同類(lèi)型的業(yè)務(wù)對(duì)存儲(chǔ)的要求也不一樣。所以超算中心需要對(duì)不同的業(yè)務(wù)提供合適的存儲(chǔ)類(lèi)型。
當(dāng)前人工智能應(yīng)用出現(xiàn)爆發(fā)式增長(zhǎng)。人工智能通常指的是機(jī)器學(xué),機(jī)器學(xué)最常用的技術(shù)是深度學(xué),深度學(xué)又分為訓(xùn)練和推理兩個(gè)階段,而這些要求超算中心有充足的GPU資源,并且還要提供對(duì)應(yīng)的軟件框架。
在醫(yī)藥領(lǐng)域,新冠疫情加速了大數(shù)據(jù)在醫(yī)藥和生命科學(xué)上的應(yīng)用,促進(jìn)了核酸疫苗和核酸藥物的研發(fā);在金融領(lǐng)域,通過(guò)深度學(xué)技術(shù)訓(xùn)練出模型,應(yīng)用在風(fēng)控上面,可以讓壞賬率降低35%。
青云QingCloud EHPC產(chǎn)品經(jīng)理苗慧表示,QingCloud EHPC提供靈活的使用模式,適配多種應(yīng)用場(chǎng)景。通過(guò)統(tǒng)一管理的平臺(tái),使工程師、研究人員可以突破本地的HPC基礎(chǔ)設(shè)施限制,快速開(kāi)始云上創(chuàng)新。
對(duì)于超算最常見(jiàn)的仿真和建模業(yè)務(wù),青云提供了低延時(shí)、高帶寬的InfiniBand網(wǎng)絡(luò),高速并行文件存儲(chǔ)以及CPU/GPU的算力組合,不僅能支持大規(guī)模求解運(yùn)算,還能提供GPU桌面進(jìn)行圖形前后處理,完成一個(gè)閉環(huán)的業(yè)務(wù)場(chǎng)景。
對(duì)于大數(shù)據(jù)業(yè)務(wù),QingCloud云平臺(tái)提供的對(duì)象存儲(chǔ)容量達(dá)245PB,跟計(jì)算節(jié)點(diǎn)結(jié)合,可以用于大規(guī)模的數(shù)據(jù)處理和分析。計(jì)算節(jié)點(diǎn)到對(duì)象存儲(chǔ)的網(wǎng)絡(luò)帶寬有1.6T,能夠保證大數(shù)據(jù)計(jì)算的超高性能。
對(duì)于人工智能訓(xùn)練業(yè)務(wù),青云提供算力達(dá)850PFlops的A100 GPU資源池和全閃并行文件存儲(chǔ),并且能夠結(jié)合容器平臺(tái),提供性能極致優(yōu)化、輕量便捷、開(kāi)源開(kāi)放的人工智能平臺(tái)。
依托青云云平臺(tái)的多種存儲(chǔ)服務(wù),用戶可以按照自己的業(yè)務(wù)來(lái)選擇合適的存儲(chǔ)類(lèi)型,包括冷熱類(lèi)型的對(duì)象存儲(chǔ)、全閃并行文件存儲(chǔ)或者塊存儲(chǔ)等。
此外,通過(guò)虛擬化技術(shù)的加持,青云可以快速為不同業(yè)務(wù)構(gòu)建其所需的運(yùn)行環(huán)境,隨時(shí)可以切換MPI、TensorFlow或者M(jìn)apReduce軟件平臺(tái),充分利用超算中心的硬件資源滿足各種業(yè)務(wù)場(chǎng)景的需求。
苗慧說(shuō),整體來(lái)看,QingCloud EHPC提供了快捷、彈性、安全及互通的公有云高性能計(jì)算服務(wù),具有四個(gè)優(yōu)勢(shì):彈性伸縮,按需配置;只管使用,無(wú)需運(yùn)維;資源租賃,性價(jià)比高;租戶隔離,安全可靠。
革新傳統(tǒng)超算中心使用體驗(yàn)
在陳海泉看來(lái),傳統(tǒng)超算中心存在不方便和不安全的問(wèn)題,例如傳統(tǒng)的超算中心用戶,在使用時(shí),需要提交一個(gè)申請(qǐng),并且有人工審批的環(huán)節(jié),當(dāng)他得到審批通過(guò)后,還需要自己安裝VPN客戶端連接超算中心提供的登錄節(jié)點(diǎn)。
超算中心的登錄節(jié)點(diǎn)往往是很多用戶共享的。共享的節(jié)點(diǎn)有兩個(gè)問(wèn)題:一是超算中心為了保證其自身安全,不提供root權(quán)限,給安裝軟件帶來(lái)一些麻煩。比如用戶需要安裝系統(tǒng)軟件的時(shí)候,他需要出差到超算中心,現(xiàn)場(chǎng)指導(dǎo)當(dāng)?shù)剡\(yùn)維人員安裝自己要的軟件,過(guò)程非常麻煩。二是Linux隔一段時(shí)間就會(huì)暴露出一些系統(tǒng)漏洞,如果被用戶利用得到root權(quán)限,則能竊取平臺(tái)上其他用戶的數(shù)據(jù)。
針對(duì)這樣的問(wèn)題,QingCloud EHPC融合了云服務(wù)與高性能計(jì)算,把傳統(tǒng)的審批制度變成用戶自服務(wù)的形式,并確保安全,這些舉措包括計(jì)算、網(wǎng)絡(luò)跟存儲(chǔ)的租戶隔離,管理節(jié)點(diǎn)跟計(jì)算節(jié)點(diǎn)分離;除了傳統(tǒng)的VPN接入,青云還能提供零信任客戶端,讓用戶登錄到超算中心的時(shí)候更便捷和安全。
在保障安全的同時(shí),QingCloud EHPC讓整個(gè)超算使用很靈活,提供了兩種不同類(lèi)型的超算集群:偏傳統(tǒng)的共享型超算集群和新的獨(dú)享EHPC集群。QingCloud EHPC的服務(wù)架構(gòu)分為三層,資源層提供了高效的資源,管理層提供了方便快捷的管理服務(wù),用戶端提供交互使用體驗(yàn)極佳的控制臺(tái)。
最后,QingCloud EHPC還集成了化學(xué)工程、生物醫(yī)藥、大氣海洋等多種行業(yè)軟件平臺(tái)。如工業(yè)仿真軟件,提供一站式的使用體驗(yàn):一是其求解集群能夠提供彈性的算力,可以很快地完成運(yùn)算;二是提供桌面虛擬應(yīng)用,讓用戶完成圖形的前后處理,覆蓋用戶使用工業(yè)仿真軟件的整個(gè)流程。
“EHPC集群分為四個(gè)節(jié)點(diǎn),分別是:登錄節(jié)點(diǎn)、管控節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)和GPU可視化節(jié)點(diǎn)。這四個(gè)節(jié)點(diǎn)完全掛載了青云的共享文件存儲(chǔ)以及共享軟件倉(cāng)庫(kù),這就是說(shuō)用戶所有的作業(yè)都可以使用青云的共享軟件倉(cāng)庫(kù)。”苗慧介紹到。
超算業(yè)務(wù)大多是短期、大規(guī)模的方式,比如1萬(wàn)個(gè)節(jié)點(diǎn)使用4個(gè)小時(shí),這就會(huì)導(dǎo)致兩個(gè)問(wèn)題:一是經(jīng)常出現(xiàn)突發(fā)業(yè)務(wù)導(dǎo)致計(jì)算資源不夠,其他用戶要用的時(shí)候需要長(zhǎng)時(shí)間排隊(duì);二是業(yè)務(wù)少的時(shí)候會(huì)出現(xiàn)大量資源空置,造成成本的浪費(fèi)。
針對(duì)這樣的情況,陳海泉表示,青云希望跟超算中心合作共建算力共享的算力網(wǎng)絡(luò),通過(guò)青云可以連接全網(wǎng)算力,既能以外部資源支撐突發(fā)業(yè)務(wù),避免排隊(duì);又能在資源空置時(shí),對(duì)外出售算力增加運(yùn)營(yíng)收入。
結(jié)語(yǔ)
憑借公有云的基因和專業(yè)的研發(fā)技術(shù)支持團(tuán)隊(duì),QingCloud EHPC平臺(tái)在用戶體驗(yàn)、運(yùn)維服務(wù)等方面比傳統(tǒng)超算具有更多優(yōu)勢(shì),依靠自身的超算經(jīng)驗(yàn)以及技術(shù)領(lǐng)先的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)資源,青云能夠提供更具靈活性、更好交互體驗(yàn)的高性能計(jì)算服務(wù),持續(xù)賦能行業(yè)客戶的業(yè)務(wù)發(fā)展。