隨著大數據技術、超算中心建設的快速發展,正有越來越多的科研院所、企事業單位作為需求端謀求著更加穩定安全且強大的算力支持。然而在實際的應用場景中,超算平臺的建設依舊面臨技術落地及安全性等方面的痛點亟待紓解。
作為一家企業級云服務商和數字化解決方案提供商,青云QingCloud在云計算與超算平臺的融合領域有著相當深的經驗。日前,在QingCloud EHPC發布會上,青云QingCloud云平臺&服務部高級總監陳海泉和青云QingCloud EHPC 產品經理苗慧就青云最新推出的EHPC超算平臺產品進行了介紹,并分享了他們對超算平臺中心建設的看法以及青云在這一領域的愿景。
青云的高性能計算場景應用
陳海泉指出,大數據和人工智能正在與超算融合,而大數據和人工智能與超算的結合也在核酸疫苗和核酸藥物的研發、金融風控等場景中得到了具體應用。
緊接著他詳細闡述了青云QingCloud EHPC超算平臺所支持的各種新的業務場景。
對于超算中最常見的仿真和建模業務,青云提供了低延時、高帶寬的InfiniBand網絡、高速并行文件存儲以及CPU/GPU的算力組合。這種算力組合不僅能支持大規模求解運算,還能提供 GPU 桌面進行圖形前后處理,完成一個閉環的業務場景。
對于大數據業務,QingCloud云平臺提供的對象存儲容量達 245PB,跟計算節點結合,可以用于大規模的數據處理和分析。計算節點到對象存儲的網絡帶寬達到1.6T,能夠保證大數據計算的超高性能。
對于人工智能訓練業務,青云提供算力達850PFlops的A100 GPU資源池和全閃并行文件存儲,并且能夠結合容器平臺,提供性能極致優化、輕量便捷、開源開放的人工智能平臺。
依托云平臺的多種存儲服務,用戶可以按照自己的業務來選擇合適的存儲類型,包括冷熱類型的對象存儲、全閃并行文件存儲或者塊存儲等。而借力虛擬化技術的加持,青云可以快速為不同業務構建其所需的運行環境,隨時可以切換 MPI、TensorFlow 或者 MapReduce 軟件平臺,充分利用超算中心的硬件資源滿足各種業務場景的需求。
QingCloud EHPC對傳統超算中心的突破
陳海泉談到了傳統超算中心在使用方式和安全問題上的痛點。他指出,用戶在使用傳統的超算中心時,需要提交一個申請,其中還有人工審批的環節,當用戶得到審批通過后,還需要安裝VPN客戶端連接超算中心提供的登錄節點,繁瑣的流程影響了便利性。
另一方面,超算中心的登錄節點往往是很多用戶共享的。共享節點存在兩個問題:一是超算中心為了保證其自身安全不提供 root 權限,給用戶安裝軟件帶來麻煩。二是Linux隔一段時間就會暴露出一些系統漏洞,如果被某些用戶利用得到root權限,就能竊取平臺上其他用戶的數據。
為解決便利性和安全性兩方面的問題,青云的超算平臺做了相應的改進。一方面青云把傳統的審批制度變成用戶自服務的形式,用戶隨時可以在云平臺注冊賬號,并且充值購買其需要的計算資源。另一方面,青云做了計算、網絡與存儲的租戶隔離,實現青云管理節點跟計算節點的分離,同時提供零信任客戶端,讓用戶登錄超算中心的時候更便捷和安全。除此之外,青云還推出新的獨享EHPC集群、集成化工業仿真軟件等創新舉措以改進超算業務。
QingCloud EHPC 產品簡介及服務實踐
青云QingCloud EHPC產品經理苗慧介紹,EHPC產品是基于青云公有云IaaS平臺、PaaS平臺的云基礎設施,主要為青云用戶提供公有云服務,為部分客戶提供專屬云和混合云等多種形態的產品。QingCloud EHPC 提供云上超算 SaaS化服務,通過青云的彈性公網IP、公網帶寬,將數據進行快速的上傳、下載,與本地數據同步。
在產品架構布局上,QingCloud EHPC的服務架構主要分為資源層、管理層和用戶端三層。而在用戶構建集群的過程中,EHPC集群分為四個節點,分別是:登錄節點、管控節點、計算節點和GPU可視化節點,而這四個節點完全掛載了青云的共享文件存儲以及共享軟件倉庫。
苗慧總結了QingCloud EHPC平臺的四個優勢,即彈性伸縮,按需配置;只管使用,無需運維;資源租賃,性價比高;租戶隔離,安全可靠。
當被問及青云的目標客戶群時,苗慧表示青云在整個高性能計算領域的主要用戶有科研院所,科研企業、汽車制造、新能源/新材料、芯片制造以及生物制藥等。
陳海泉總結了青云的未來愿景,即讓更多的超算中心加入青云的分布式云節點,共建一個資源共享的算力網絡。