2021年底,青云科技宣布入局高性能計(jì)算領(lǐng)域,聽(tīng)到這一消息,不得不說(shuō),還是有點(diǎn)意外的。
提起青云科技,許多人首先能想到的是,這是2021年剛上市的企業(yè)級(jí)云服務(wù)公司,它既有公有云,也有私有云/混合云,作為一家中立的云服務(wù)商,身上總有一股除舊布新的氣質(zhì),在技術(shù)難度較高的存儲(chǔ)以及容器技術(shù)生態(tài)上都有深入布局。
11月23日,青云科技宣布發(fā)布QingCloud EHPC,正式進(jìn)入高性能計(jì)算領(lǐng)域,那么,青云會(huì)為高性能計(jì)算領(lǐng)域帶來(lái)哪些新氣象呢?
提起高性能計(jì)算,普通人首先能想到各種抽象的模擬圖片,對(duì)于天氣預(yù)測(cè)、地質(zhì)勘測(cè)、生物基因、蛋白質(zhì)組學(xué)、化學(xué)工藝領(lǐng)域的作用也有模糊的認(rèn)識(shí),高性能計(jì)算的重要性毋庸置疑,與其相關(guān)的都是前沿領(lǐng)域的探索,但高性能計(jì)算本身的應(yīng)用在新趨勢(shì)下逐漸暴露出新問(wèn)題。
準(zhǔn)確地說(shuō),在云計(jì)算興起的大背景下,高性能計(jì)算作為一種重要資源,出現(xiàn)了一些不合時(shí)宜的現(xiàn)象。
高性能計(jì)算云化發(fā)展
高性能計(jì)算云化發(fā)展不是新話題,在云時(shí)代下,傳統(tǒng)高性能計(jì)算系統(tǒng)用戶的痛點(diǎn)越發(fā)明顯。比如,用戶總在抱怨資源不夠用。
因?yàn)椋咝阅苡?jì)算會(huì)將大規(guī)模的運(yùn)算任務(wù)拆分成很多的小任務(wù)分發(fā)到各個(gè)服務(wù)器上并行計(jì)算,再將計(jì)算結(jié)果匯總成最終的一個(gè)結(jié)果。對(duì)于使用者來(lái)說(shuō),由于需要較長(zhǎng)時(shí)間運(yùn)行一項(xiàng)工作負(fù)載,資源多一些就能減少一些等候時(shí)間。
但超算平臺(tái)運(yùn)營(yíng)者總會(huì)擔(dān)心浪費(fèi)的問(wèn)題,準(zhǔn)備的資源越多,浪費(fèi)的可能性越大,背后實(shí)際上反映的是資源彈性不足的問(wèn)題。
又比如資源使用流程繁瑣,實(shí)際上是資源調(diào)度問(wèn)題。也有一些用戶對(duì)于高性能計(jì)算資源需要申請(qǐng)的做法表達(dá)了困惑。明明是云計(jì)算時(shí)代了,明明自服務(wù)就能完成的操作,為什么還需要繁瑣的申請(qǐng)呢?
公有云最大的優(yōu)勢(shì)就是資源彈性,而且,自服務(wù)的使用模式也提供了極大便利。帶著對(duì)于云計(jì)算技術(shù)優(yōu)勢(shì)的理解,青云入局高性能計(jì)算,讓云計(jì)算的優(yōu)勢(shì)與高性能計(jì)算系統(tǒng)相結(jié)合。
這種結(jié)合對(duì)于高性能計(jì)算系統(tǒng)的運(yùn)營(yíng)者和最終算力的使用者都能帶來(lái)極大便利。
用戶可以以自服務(wù)的方式,付費(fèi)使用EHPC資源
QingCloud EHPC以彈性靈活的方式,讓用戶像使用普通公有云一樣使用高性能計(jì)算資源,既避免了資源浪費(fèi),又讓有算力需求的人以最便捷的方式獲取資源,應(yīng)對(duì)突發(fā)需求。
傳統(tǒng)超算中心對(duì)外服務(wù)能力水平普遍比較低下。除了資源獲取流程上的差異,在如何以支持多租戶的方式同時(shí)服務(wù)多個(gè)用戶,如何避免可能造成的安全問(wèn)題方面,也都是云計(jì)算所擅長(zhǎng)的領(lǐng)域。
青云QingCloud 云平臺(tái)&服務(wù)部高級(jí)總監(jiān)陳海泉表示,EHPC平臺(tái)不僅可以幫超算中心私有化部署超算云平臺(tái),讓超算中心自己運(yùn)營(yíng),還可以連接全網(wǎng)算力提供外部資源,支撐突發(fā)需求,減少或避免排隊(duì)。當(dāng)超算中心資源空置時(shí),也可以對(duì)外出售算力增加運(yùn)營(yíng)收入。
青云希望與更多的超算中心合作共建算力共享的算力網(wǎng)絡(luò),這是青云為超算帶來(lái)的新變化,但也遠(yuǎn)不止于此。
推動(dòng)超算與大數(shù)據(jù)和人工智能結(jié)合
隨著大數(shù)據(jù)和人工智能等工作負(fù)載的興起,高性能計(jì)算要承載更繁重、更多樣的計(jì)算任務(wù),需要更高的計(jì)算精度和更大的計(jì)算量,更大的數(shù)據(jù)量,更多樣的軟件運(yùn)行環(huán)境,傳統(tǒng)超算中心借助云平臺(tái)的優(yōu)勢(shì)才能更好地應(yīng)對(duì)以上挑戰(zhàn)。
現(xiàn)在越來(lái)越多的場(chǎng)景,比如核酸疫苗和核酸藥物的研發(fā)場(chǎng)景、金融風(fēng)控場(chǎng)景,都需要高性能計(jì)算與大數(shù)據(jù)以及人工智能技術(shù)相結(jié)合,這些場(chǎng)景普遍依賴于更大規(guī)模的數(shù)據(jù)集,需要更好的數(shù)據(jù)存儲(chǔ)。
然而,結(jié)合實(shí)際應(yīng)用來(lái)看,高性能計(jì)算中心的存儲(chǔ)系統(tǒng)的技術(shù)演進(jìn)步伐比較慢,許多都是以開(kāi)源的Lustre并行文件存儲(chǔ)為主,數(shù)據(jù)存儲(chǔ)方面不能滿足大數(shù)據(jù)的需求。
同時(shí),原有的計(jì)算架構(gòu)也無(wú)法很好地承載MapReduce這種純粹的大數(shù)據(jù)業(yè)務(wù)場(chǎng)景,而對(duì)于機(jī)器學(xué)習(xí)負(fù)載,特別是對(duì)于訓(xùn)練場(chǎng)景,對(duì)于在GPU方面的需求,傳統(tǒng)超算中心也無(wú)法滿足。
青云提供的EHPC超算平臺(tái)—— QingCloud EHPC讓超算支持人工智能、大數(shù)據(jù)等各種新的業(yè)務(wù)場(chǎng)景。
對(duì)于常見(jiàn)的仿真和建模場(chǎng)景,青云提供了低延時(shí)、高帶寬的InfiniBand網(wǎng)絡(luò),高速并行文件存儲(chǔ)以及CPU/GPU的算力組合,不僅能支持大規(guī)模求解運(yùn)算,還能提供GPU桌面進(jìn)行圖形前后處理,完成一個(gè)閉環(huán)的業(yè)務(wù)場(chǎng)景。
對(duì)于大數(shù)據(jù)業(yè)務(wù),QingCloud云平臺(tái)可提供容量達(dá)245PB的對(duì)象存儲(chǔ),配合計(jì)算節(jié)點(diǎn),可用于大規(guī)模數(shù)據(jù)處理和分析。同時(shí),計(jì)算節(jié)點(diǎn)到對(duì)象存儲(chǔ)還配備了1.6Tbps的網(wǎng)絡(luò)帶寬,能夠保證大數(shù)據(jù)計(jì)算所需的性能。
對(duì)于人工智能訓(xùn)練場(chǎng)景,青云可提供算力達(dá)850PFlops的A100 GPU資源池,同時(shí)還有全閃存的并行文件存儲(chǔ)系統(tǒng),結(jié)合容器技術(shù),提供性能極致優(yōu)化、輕量便捷、開(kāi)源開(kāi)放的人工智能平臺(tái)。
云平臺(tái)不僅有豐富多樣的計(jì)算類型,也有多種存儲(chǔ)服務(wù),用戶可以按照自己的業(yè)務(wù)來(lái)選擇合適的存儲(chǔ)類型,在虛擬化技術(shù)的加持下,用戶可以快速獲取所需的運(yùn)行環(huán)境,并且可以隨時(shí)切換化學(xué)工程、生物醫(yī)藥、大氣海洋等行業(yè)軟件平臺(tái),充分利用超算中心的硬件資源。
此外,青云還提供了300多款軟件,覆蓋分子生物學(xué)、新能源、新材料、大氣海洋環(huán)境、地球、物理等多領(lǐng)域,像應(yīng)用商店一樣方便安裝和使用,滿足各專業(yè)領(lǐng)域的需求。
最大可能在滿足多數(shù)用戶需求
青云作為高性能計(jì)算市場(chǎng)的新玩家,在用云技術(shù)改造超算的資源服務(wù)模式,為滿足行業(yè)用戶的需求,在技術(shù)方案層面做了許多周到的設(shè)計(jì)。
筆者注意到,青云QingCloud EHPC提供了兩種集群,一種是共享集群,共享集群照顧了用戶原有使用習(xí)慣,按照機(jī)時(shí)的方式排隊(duì)使用,用戶進(jìn)來(lái)提交作業(yè)即可,計(jì)時(shí)收費(fèi)。
另一種是獨(dú)享的自建集群,自建集群按照云的方式創(chuàng)建集群,用戶擁有較高的管理權(quán)限,用戶可以自由安裝各種軟件,可以進(jìn)行各種定制。
當(dāng)用戶使用QingCloud EHPC時(shí),可以在五分鐘之內(nèi)創(chuàng)建完成集群。集群創(chuàng)建完成后,用戶可以提交作業(yè)相關(guān)的資料,當(dāng)用戶數(shù)據(jù)比較多時(shí),可以開(kāi)啟彈性公網(wǎng)IP服務(wù),通過(guò)提升上傳帶寬快速上傳,如果有涉密或者超大型文件,也可以以快遞U盤等方式傳遞數(shù)據(jù)。
EHPC集群的節(jié)點(diǎn)有四種,一種是登錄節(jié)點(diǎn),也就是用戶的管理端;一種是管控節(jié)點(diǎn),負(fù)責(zé)作業(yè)分配調(diào)度;一種是計(jì)算節(jié)點(diǎn),計(jì)算節(jié)點(diǎn)又分成CPU計(jì)算和GPU計(jì)算以及裸金屬計(jì)算三種,為部分場(chǎng)景準(zhǔn)備了物理服務(wù)器,所有計(jì)算節(jié)點(diǎn)都有彈性伸縮的能力。
第四個(gè)節(jié)點(diǎn)是QingCloud EHPC的一個(gè)特色服務(wù),很好、很強(qiáng)大,叫做GPU可視化節(jié)點(diǎn)。
它提供了計(jì)算過(guò)程可視化的能力、實(shí)時(shí)查看的能力,監(jiān)測(cè)作業(yè)是否正常運(yùn)行,是否達(dá)到預(yù)期,過(guò)程中就可以決定是否要暫停作業(yè)、取消作業(yè),是否調(diào)整參數(shù),是否重新運(yùn)行作業(yè)。
QingCloud EHPC在CPU、GPU等計(jì)算資源、網(wǎng)絡(luò)資源以及存儲(chǔ)資源上都有較高配置,有豐富的軟件,還有一些優(yōu)化性能表現(xiàn)的算力挖掘程序,其本身在優(yōu)化上已經(jīng)有了較高水平,用戶無(wú)需進(jìn)行太多基礎(chǔ)設(shè)施層面的調(diào)優(yōu),無(wú)需關(guān)心運(yùn)維,只需放心大膽的用就可以了。
青云EHPC產(chǎn)品經(jīng)理苗慧表示,QingCloud EHPC是基于青云公有云IaaS、PaaS 層基礎(chǔ)架構(gòu),以國(guó)家超算中心算力資源為基礎(chǔ),提供的從上云計(jì)算到結(jié)果產(chǎn)出的全流程SaaS化計(jì)算服務(wù),幫助工程師、研究人員突破本地HPC基礎(chǔ)設(shè)施的限制,快速開(kāi)始云上創(chuàng)新。
作為一種公有云服務(wù),本身具有較好的交互使用體驗(yàn),各種運(yùn)維和安全方面也無(wú)需用戶關(guān)注,能滿足各種用戶的需求。
據(jù)苗慧介紹,目前,一些科研院所、高校的老師、科研團(tuán)隊(duì)等都是青云QingCloud EHPC的目標(biāo)用戶,越來(lái)越多的企業(yè)研發(fā)相關(guān)場(chǎng)景也在使用青云的超算服務(wù),未來(lái)還將繼續(xù)擴(kuò)大用戶群體,比如新能源/新材料、芯片制造等行業(yè)用戶。