對于普通大眾來說,高性能計算(HPC)給人的印象總是神秘且高深。這是因為此前它主要是學術界用來推進基礎科學發現和探索的手段,上到宏觀的宇宙大爆炸模擬、下到微觀的量子物理和分子動力學研究。
但是新冠肺炎對我們的突然襲擊,讓很多人重新認識了高性能計算:不論是中國還是全球,領先的基因與藥物研發機構,在高性能計算的支持下,少則數小時,多則幾天就破解了新冠病毒的結構,并立即開始疫苗的研制。
高性能計算與我們的工作生活越來越緊密,前不久青云QingCloud(qingcloud.com,股票代碼:688316)重磅上線EHPC高性能計算平臺,基于尖端超算算力,結合公有云架構提供彈性伸縮、按需計費的高性價比方案。同時,打通云平臺豐富的產品和服務種類,創新云化超算的服務新模式,更好賦能新科研、助力新場景。
高性能計算的新場景
前面我們說過,高性能計算在基因組學、生命科學、CAE 仿真、地理測繪、影視渲染等應用場景有著廣泛的應用。
但是隨著新技術和新應用的發展,高性能計算的新場景也在不斷涌現。青云QingCloud云平臺&服務部高級總監陳海泉表示,青云看到高性能計算領域出現了新的場景,那就是大數據、人工智能正在與超算融合。
具體而言,大數據驅動存儲跟算力融合。以前建設超算中心的時候,普遍是以算力為主導,但在存儲方面出現新的挑戰,因為數據量和數據類型越來越多,這些數據都需要利用大數據技術進行處理和分析。
陳海泉說,大數據應用帶來兩個問題:存儲容量比以前大很多;不同類型的業務對存儲的要求也不一樣。所以超算中心需要對不同的業務提供合適的存儲類型。
當前人工智能應用出現爆發式增長。人工智能通常指的是機器學,機器學最常用的技術是深度學,深度學又分為訓練和推理兩個階段,而這些要求超算中心有充足的GPU資源,并且還要提供對應的軟件框架。
在醫藥領域,新冠疫情加速了大數據在醫藥和生命科學上的應用,促進了核酸疫苗和核酸藥物的研發;在金融領域,通過深度學技術訓練出模型,應用在風控上面,可以讓壞賬率降低35%。
青云QingCloud EHPC產品經理苗慧表示,QingCloud EHPC提供靈活的使用模式,適配多種應用場景。通過統一管理的平臺,使工程師、研究人員可以突破本地的HPC基礎設施限制,快速開始云上創新。
對于超算最常見的仿真和建模業務,青云提供了低延時、高帶寬的InfiniBand網絡,高速并行文件存儲以及CPU/GPU的算力組合,不僅能支持大規模求解運算,還能提供GPU桌面進行圖形前后處理,完成一個閉環的業務場景。
對于大數據業務,QingCloud云平臺提供的對象存儲容量達245PB,跟計算節點結合,可以用于大規模的數據處理和分析。計算節點到對象存儲的網絡帶寬有1.6T,能夠保證大數據計算的超高性能。
對于人工智能訓練業務,青云提供算力達850PFlops的A100 GPU資源池和全閃并行文件存儲,并且能夠結合容器平臺,提供性能極致優化、輕量便捷、開源開放的人工智能平臺。
依托青云云平臺的多種存儲服務,用戶可以按照自己的業務來選擇合適的存儲類型,包括冷熱類型的對象存儲、全閃并行文件存儲或者塊存儲等。
此外,通過虛擬化技術的加持,青云可以快速為不同業務構建其所需的運行環境,隨時可以切換MPI、TensorFlow或者MapReduce軟件平臺,充分利用超算中心的硬件資源滿足各種業務場景的需求。
苗慧說,整體來看,QingCloud EHPC提供了快捷、彈性、安全及互通的公有云高性能計算服務,具有四個優勢:彈性伸縮,按需配置;只管使用,無需運維;資源租賃,性價比高;租戶隔離,安全可靠。
革新傳統超算中心使用體驗
在陳海泉看來,傳統超算中心存在不方便和不安全的問題,例如傳統的超算中心用戶,在使用時,需要提交一個申請,并且有人工審批的環節,當他得到審批通過后,還需要自己安裝VPN客戶端連接超算中心提供的登錄節點。
超算中心的登錄節點往往是很多用戶共享的。共享的節點有兩個問題:一是超算中心為了保證其自身安全,不提供root權限,給安裝軟件帶來一些麻煩。比如用戶需要安裝系統軟件的時候,他需要出差到超算中心,現場指導當地運維人員安裝自己要的軟件,過程非常麻煩。二是Linux隔一段時間就會暴露出一些系統漏洞,如果被用戶利用得到root權限,則能竊取平臺上其他用戶的數據。
針對這樣的問題,QingCloud EHPC融合了云服務與高性能計算,把傳統的審批制度變成用戶自服務的形式,并確保安全,這些舉措包括計算、網絡跟存儲的租戶隔離,管理節點跟計算節點分離;除了傳統的VPN接入,青云還能提供零信任客戶端,讓用戶登錄到超算中心的時候更便捷和安全。
在保障安全的同時,QingCloud EHPC讓整個超算使用很靈活,提供了兩種不同類型的超算集群:偏傳統的共享型超算集群和新的獨享EHPC集群。QingCloud EHPC的服務架構分為三層,資源層提供了高效的資源,管理層提供了方便快捷的管理服務,用戶端提供交互使用體驗極佳的控制臺。
最后,QingCloud EHPC還集成了化學工程、生物醫藥、大氣海洋等多種行業軟件平臺。如工業仿真軟件,提供一站式的使用體驗:一是其求解集群能夠提供彈性的算力,可以很快地完成運算;二是提供桌面虛擬應用,讓用戶完成圖形的前后處理,覆蓋用戶使用工業仿真軟件的整個流程。
“EHPC集群分為四個節點,分別是:登錄節點、管控節點、計算節點和GPU可視化節點。這四個節點完全掛載了青云的共享文件存儲以及共享軟件倉庫,這就是說用戶所有的作業都可以使用青云的共享軟件倉庫。”苗慧介紹到。
超算業務大多是短期、大規模的方式,比如1萬個節點使用4個小時,這就會導致兩個問題:一是經常出現突發業務導致計算資源不夠,其他用戶要用的時候需要長時間排隊;二是業務少的時候會出現大量資源空置,造成成本的浪費。
針對這樣的情況,陳海泉表示,青云希望跟超算中心合作共建算力共享的算力網絡,通過青云可以連接全網算力,既能以外部資源支撐突發業務,避免排隊;又能在資源空置時,對外出售算力增加運營收入。
結語
憑借公有云的基因和專業的研發技術支持團隊,QingCloud EHPC平臺在用戶體驗、運維服務等方面比傳統超算具有更多優勢,依靠自身的超算經驗以及技術領先的計算、網絡、存儲資源,青云能夠提供更具靈活性、更好交互體驗的高性能計算服務,持續賦能行業客戶的業務發展。