當(dāng)下,數(shù)字經(jīng)濟背景下,伴隨企業(yè)不斷深入云化轉(zhuǎn)型、科研體系深度接軌實體經(jīng)濟以及數(shù)據(jù)科學(xué)新領(lǐng)域的飛速發(fā)展,算力需求呈現(xiàn)出多樣化、個性化、巨量化趨勢,原本服務(wù)于尖端科研的HPC也逐漸成為企業(yè)發(fā)展的重要力量。
然而,具有高維、時變、海量等特征的科學(xué)數(shù)據(jù)不僅需要超高性能底層算力,更需要彈性伸縮、簡便運維提升綜合算效,傳統(tǒng) HPC 集群在材料學(xué)、基因組學(xué)、生命科學(xué)、CAE 仿真、深度學(xué)習(xí)、地理測繪、影視渲染等應(yīng)用場景面臨諸多不便。
日前,青云QingCloud重磅上線EHPC高性能計算平臺,基于尖端超算算力,結(jié)合公有云架構(gòu)提供彈性伸縮、按需計費的高性價比方案。同時,打通云平臺豐富的產(chǎn)品和服務(wù)種類,創(chuàng)新云化超算的服務(wù)新模式,更好賦能新科研、助力新場景。
高性能計算是什么?
對于非IT專業(yè)人士而言,大家接觸較多的信息和通信設(shè)備,通常是個人電腦和手機,很多人都不了解計算機界“皇冠上明珠”的高性能計算 (HPC) 到底是什么樣子?這次我們就帶大家認識認識它。
其實,高性能計算,指的是用大量服務(wù)器并行地對某一個任務(wù)執(zhí)行運算,來解決工程和科學(xué)上的問題。它的用途很多,最核心的是用來模擬世界萬物。宏觀上,可以用衛(wèi)星圖像、遙感數(shù)據(jù)、氣象數(shù)據(jù)利用高性能計算來模擬地球、海洋和氣候;微觀上,青云能模擬分子原子來了解生命的原理,使藥物的研發(fā)更快速、更精確。
比如,天氣預(yù)報需要融合幾十個緯度的數(shù)據(jù),石油天然氣勘探需要進行空間分析和建模,DNA測序需要對比成千上萬個堿基對等,這些對任意一個單一計算機來說都負荷太大了,而高性能計算可以很好應(yīng)對。
青云QingCloud 云平臺&服務(wù)部高級總監(jiān)陳海泉表示:“高性能計算這一領(lǐng)域出現(xiàn)了一個新的場景,大數(shù)據(jù)和人工智能正在與超算融合。”
第一,高性能計算跟尖端科研是密不可分的。科學(xué)家要讓科技持續(xù)進步,一定要之前的研究人員對更大規(guī)模的數(shù)據(jù)做計算,并且不斷提高計算精度。
第二,大數(shù)據(jù)驅(qū)動存儲跟算力融合。以前建超算中心的時候,普遍是以算力為主導(dǎo),但在存儲方面出現(xiàn)新的挑戰(zhàn)。
一方面,現(xiàn)在數(shù)據(jù)越來越多,比如衛(wèi)星、無人機在不斷產(chǎn)生大量的高精度照片。
另一方面,數(shù)據(jù)類型也在變多,比如可穿戴設(shè)備的普及、IoT 的廣泛應(yīng)用,都在不斷產(chǎn)生各種新的、不同類型的數(shù)據(jù)。這些數(shù)據(jù)都需要利用大數(shù)據(jù)進行處理和分析。這一改變正在驅(qū)使數(shù)據(jù)中心和算力中心互相融合,并且數(shù)據(jù)量越大,對應(yīng)的算力也需要更強。
第三,人工智能應(yīng)用爆發(fā)。人工智能通常指的是機器學(xué)習(xí),機器學(xué)習(xí)最常用的技術(shù)是深度學(xué)習(xí)。深度學(xué)習(xí)有兩個階段:第一階段是對大量的數(shù)據(jù)進行計算,得到訓(xùn)練模型;第二階段是通過已得到的訓(xùn)練模型,結(jié)合新的數(shù)據(jù)做推理計算,解決實際的問題,比如圖像識別、自然語言識別等,都需要推理。其中,訓(xùn)練階段需要進行大量的浮點運算,為了達到足夠的算力,就需要用很多的GPU節(jié)點。
陳海泉表示介紹道:“青云看到的兩個具體場景,都是大數(shù)據(jù)、人工智能與超算結(jié)合的場景。”
當(dāng)青云提供了一個基礎(chǔ)設(shè)施,它適應(yīng)了人工智能、大數(shù)據(jù)和超算,以及不同的業(yè)務(wù)時,青云希望它能盡快復(fù)用。這就是青云提供的EHPC超算平臺—— QingCloud EHPC,可以全面地支持各種新的業(yè)務(wù)場景。
青云的超算布局
一直以來,HPC渲染創(chuàng)造了很多科幻電影中的經(jīng)典場景,而在現(xiàn)實中,HPC早已成為各國“科技競賽”中最尖端的領(lǐng)域之一。
從藥品研制、天氣預(yù)報、地震監(jiān)測,到能源勘探、基因分析、人工智能,HPC幫助人們解決了科研、工作、生活中的許多難題。如今,隨著技術(shù)創(chuàng)新發(fā)展、智能化持續(xù)加速,人們對算力的需求越來越大,應(yīng)用場景從傳統(tǒng)向物聯(lián)網(wǎng)、人工智能等領(lǐng)域不斷滲透,HPC在各個方面都面臨著巨大的挑戰(zhàn)。
為解決傳統(tǒng)HPC資源利用率低、投入成本大、運維管理重、安全防護難等痛點,青云科技推出了青云彈性高性能計算——QingCloud EHPC。相較于傳統(tǒng)HPC,QingCloud EHPC提供了一種快捷、彈性、安全以及互通的基于云平臺的高性能計算服務(wù),它能支持計算資源的彈性定制,降低成本,提高資源利用率,具有極大的靈活性。
針對超算在尖端科技、大數(shù)據(jù)以及人工智能場景的支持,QingCloud EHPC也給出了相應(yīng)的解決方案。
如超算最常見的仿真和建模業(yè)務(wù),青云提供了低延時、高帶寬的InfiniBand網(wǎng)絡(luò),高速并行文件存儲以及CPU/GPU的算力組合,不僅能支持大規(guī)模求解運算,還能提供GPU桌面進行圖形前后處理,完成一個閉環(huán)的業(yè)務(wù)場景。
對于大數(shù)據(jù)業(yè)務(wù),QingCloud云平臺提供的對象存儲容量達245PB,跟計算節(jié)點結(jié)合,可以用于大規(guī)模的數(shù)據(jù)處理和分析。計算節(jié)點到對象存儲的網(wǎng)絡(luò)帶寬有1.6T,能夠保證大數(shù)據(jù)計算的超高性能。
對于人工智能訓(xùn)練業(yè)務(wù),青云提供算力達850PFlops的A100 GPU資源池和全閃并行文件存儲,并且能夠結(jié)合容器平臺,提供性能極致優(yōu)化、輕量便捷、開源開放的人工智能平臺。
另外,使用方式也是超算中心一個痛點,傳統(tǒng)的超算中心用戶,在使用時,需要提交申請,并且有人工審批的環(huán)節(jié),當(dāng)他得到審批通過后,還需要自己安裝VPN客戶端連接超算中心提供的登錄節(jié)點。
為了讓整個超算使用更靈活,青云提供了偏傳統(tǒng)的共享型超算集群和獨享EHPC集群兩種不同類型的超算集群。
其中,共享型超算集群給用戶的計算節(jié)點是共享的,但登錄節(jié)點是獨享,所以用戶自己軟件的安裝、執(zhí)行、操作還是在自己的節(jié)點上,跟別的用戶沒有關(guān)聯(lián)。
獨享EHPC集群給用戶一個root賬號,用戶使用會非常方便。它的優(yōu)勢是不僅能自由地安裝自己需要的系統(tǒng)軟件,甚至切換超算平臺的各種軟件,或是大數(shù)據(jù)相關(guān)的Hadoop、MapReduce,用戶可以自己隨便安裝;二是EHPC集群的節(jié)點是用戶獨享,可以自己合理安排使用時間。三是EHPC集群的計算、存儲和網(wǎng)絡(luò)類型,用戶可以自由搭配。
除此之外,云計算給HPC帶來的一個最大的變化是,把傳統(tǒng)的審批制度變成用戶自服務(wù)的形式,用戶隨時可以自己到云平臺注冊賬號,并且充值購買他需要的計算資源。
QingCloud EHPC 產(chǎn)品經(jīng)理苗慧表示:“青云EHPC提供云上超算SaaS化服務(wù),方便快捷讓作業(yè)運行起來。通過青云的彈性公網(wǎng)IP、公網(wǎng)帶寬,將數(shù)據(jù)進行快速地上傳、下載,與本地數(shù)據(jù)同步。”
寫在最后
陳海泉總結(jié)道:“青云的超算云平臺可以支持大數(shù)據(jù)和人工智能融合的超算業(yè)務(wù),并且以云服務(wù)的方式提供,讓超算資源更便捷地交付給用戶。”
目前,數(shù)字化創(chuàng)新對企業(yè)發(fā)展和業(yè)務(wù)創(chuàng)新都提出了更大挑戰(zhàn)。青云意識到EHPC將云計算與高性能計算的結(jié)合,對于數(shù)字經(jīng)濟發(fā)展有著重要意義。為此,青云科技將緊扣技術(shù)發(fā)展趨勢,繼續(xù)創(chuàng)新,不斷更新迭代彈性高性能計算能力,豐富和完善EHPC方案的能力,持續(xù)滿足用戶高性能計算需求。