青云科技AI 算力發布會上,產品經理苗慧對青云 AI 算力調度平臺和青云 AI 算力云服務進行了詳細的介紹。以下是演講全文,經整理:
AI 用戶直面算力挑戰
隨著人工智能行業的爆發,AIGC、大模型、科研計算、企業級大數據及人工智能對算力中心提出了更高的需求。尤其是面對單一算力的數據中心,已經難以滿足各行各業日益增長的算力需求,因此需要更多的智算中心、超算中心和通用云計算服務,為全社會提供算力服務。
然而 AI 行業、 AI 基礎設施和 AI 算力的用戶也面臨一系列挑戰:
多元資源統一管理瓶頸。面對用戶多算力、多存儲、整個計算網絡以及就近服務的要求,青云提供多元的資源管理統一服務調度平臺,來解決多元資源管理混亂的情況。
高速網絡瓶頸。在 AI 高速網絡建設方面,青云將計算和存儲設備使用高速網絡進行互聯,使用通用網絡進行應用服務發布,即通過青云的平臺解決多區域高速組網問題。
環境搭建繁瑣瓶頸。算法工程師、研發工程師在硬件服務器、對存儲服務器等基礎環境搭建上可能浪費大量時間,通過青云 AI 智算服務、訓練平臺和推理模型平臺,將環境搭建簡潔化,可實現一鍵部署。
多業務整合瓶頸。青云將多業務整合起來,結合傳統云計算、超級計算和智算,面向更多業務為更多客戶提供全景的算力服務。
缺乏運營服務。青云同時對算力運營中心、算力管理部門提供全面的運營和運維管理服務。
青云 AI 算力調度平臺
青云 AI 調度產品的全棧產品架構是多 AZ、多 Zone 的,即多區域的產品都能統一融合起來,以一個 Global 的服務面向全社會提供算力服務。具體來說會通過納管底層基礎設施,通過數據邏輯層將基礎設施邏輯化、業務化,通過具體的產品或服務,包括 GPU 主機、裸金屬、虛擬化、共享形式等,形成 AI 算力集群、容器推理服務以及模型市場等相關業務,為全行業的客戶提供算力調度與應用場景落地能力。
四面俱到 算力建設中心新模式
總體而言,青云科技提供的 AI 算力調度平臺能力主要基于以下四方面:
第一,全平臺適配市面上所有的計算芯片(包括新產出的信創芯片),以及 GPU 相關顯卡和網卡。
第二,對以上適配資源進行統一管理、分發、監控和調度,從用戶申請到使用后釋放提供全生命周期在線管理功能。
第三,面向管理端和用戶端,青云統一納管平臺讓用戶和管理員能完整操作 AI 基礎設施和 AI 算力云服務。
面向智算領域,青云將更多的業務進行業務化和場景化,比如大語言模型訓練與推理、基于文本式生成的負載均衡服務,青云也能通過 AI 算力調度平臺,為客戶提供一鍵部署、一鍵擴容和一鍵負載均衡等便捷操作。在負載均衡方面,尤其在網絡、公網和計算基礎設施,能達到秒級交付、秒級擴容。
最后,基于以上三種能力,青云能支撐包括高性能計算、人工智能計算和通用計算模式等各行各業的計算,為客戶打造一個自主創新、功能完善等統一的用戶管理、分發與運營平臺。
九大能力 解鎖 AI 算力自由
通過多年行業積累,青云 AI 算力調度平臺形成九大關鍵能力:
1、多區域多業務資源整合能力
尤其面向川西或者西北地區的算力服務多元化,為東部地區、科研單位、高校提供算力服務時,青云可將多區資源統一納管,通過跟電信運營商合作建設有效的高速網絡。
2、分布式調度與管理能力
根據就近使用原則青云在不同的區域、算力中心、數據中心將所有的基礎設施(包括計算資源、存儲資源)進行管理分配,配置調度優先級,包括親和性和非親和性。在 VM、宿主機及裸金屬服務器(包括容器基于 Container 和 Pod 的形式)都可以在青云 AI 算力調度平臺的管理端進行親和性和非親和性的數據配置,保證數據調度的優先級,目的是為了保證用戶在最終使用數據、申請計算資源、業務訓練、業務推理中得到一致性體驗。
3、資源調度能力
在資源調度能力上,青云有以下六大優點:
1)立即調度、擴容數萬卡的資源
主要面向 AI 計算場景,尤其是大模型推理,部分模型場景需要一年幾次推理,這需要瞬間構建出幾十張卡甚至幾萬張卡的訓練平臺。根據這個訴求可以在青云 AI 算力調度平臺上進行內置、適配和資源管理,保證算力集群可以立即支持萬張卡的資源,使用完成后也能立即釋放。在資源環境和配置方面,青云 AI 算力調度平臺都做了大量自動化,保證萬卡資源能統一調度。
2)通信鏈路最短優先調度
讓數據不繞路,這也是青云 AI 算力調度平臺主要的目的。在 AI 訓練、AI 推理的場景下,節點和節點之間、節點和存儲之間會有大量的數據交互,在這種情況下青云對交換機同時進行一些配置,保證計算和存儲資源能在一個交換機下,或者一個機房內、一個機柜內進行優先調度,讓數據不繞路,減少 AI 訓練過程中網絡傳輸困難的制約。
3)支持異構平臺
用戶在建設集群時可以選擇不同的業務跑到不同的卡上,青云科技同時對芯片也進行了國產適配與國產替代。4)提升調度系統顆粒度
一是基于 Slurm 的調度系統,二是基于 K8s 的調度系統。在調度系統顆粒度方面,用戶能感知到真正作業級別的精度,在每一個訓練的任務跑到每一張卡上的每一個進程上,都可以通過大規模的數據監控、業務調度等形式,監控到作業異常情況,保證用戶能及時處理訓練任務的異常情況,實現資源調度的最大化,在此層面上減少浪費,錯了馬上修改再立即運行。
5)管理端實現調度優先配置
因為不同的算力中心會運營不同的算力服務,尤其是多數據中心的情況下,用戶可通過青云 AI 算力調度平臺進行調度的優先配置,前期全部內置化,后期用戶還可以進行預留、暫停、恢復、優先級設置、排隊等設置,提高優先級。在管理層面上青云可以面向特殊申請的用戶或者優先級高的用戶,進行資源優先分配。
6)面向智算行業靈活調度配置資源
青云能動態靈活地進行資源調度和可配置,解決 AI 系統中具有挑戰性的優先事項。這也是青云不斷發現 AI 調度算力或者 AI 場景下的新問題,不斷用平臺解決新問題,用新產品解決行業的一些主要問題。
4、高速并行存儲能力
青云的計算和存儲產品是多元和多樣的,提供以下三種存儲:
1)青云 U10000 對象存儲
存儲模型、代碼和常用的數據調用,主要面向于大規模數據備份、數據讀方面的一些操作。
2)并行文件存儲 EPFS
在數據大規模并行寫的方面,青云提供了并行文件存儲 EPFS,主要針對于 MPI 級別的數據的寫操作,提供全閃并行文件存儲。
3)文件存儲 NAS
可以放一些通用的文檔、文本等,青云所有的存儲產品都能跟自身計算產品進行內部互聯,在內部高速網絡上進行數據傳輸、分發、備份等。
5、混合組網能力
面向不同的計算場景可以提供不同的高速網絡,比如計算 IB 網和存儲 IB 網,它們之間如何進行最優配置?
青云將高配置的計算產品和高配置的存儲產品進行互聯互通,將中配置、低配置的進行互聯互通,用于訓練場景、推理場景和通用應用服務場景。
6、算法開發支持能力
面向算法開發人員,青云提供更全面的云服務產品,尤其是在算法開發階段需要大量調參、大規模編寫代碼,在訓練和部署時由于云上和云下的操作,可能會帶來大規模的數據上傳、下載或者代碼拷貝,不太適合在線編輯、立即運行。
因此青云在算法開發方面提供算法開發的平臺,能基于云服務啟動在線開發環境,完整地構建 Python 工程、VC 工程,在線使用工程文件和工程環境,進行代碼的研發。
在研發過程中,如果有需要調試的也可以立即擴容;如果需要訓練可以將作業任務立即分配到訓練集群上;如果需要推理,就放到推理集群上。
同時,算法開發過程中,可能會有一些聯合開發或者混合開發的形式,青云也提供代碼倉庫和鏡像倉庫進行模型管理,不同的人員采用不同的權限進來進行統一的算法開發和服務合并。
一言以概之,青云面向算法開發人員主要提供全開發場景的計算產品和調度產品,保證整個算法開發業務在云上能有效運營起來,減少大規模上傳、下載操作。
7、AI 訓練平臺
如果算法開發在接近尾聲或者需要調試的情況下,需要啟動大量的算力基礎設施進行開發訓練,基于基礎設施青云提供 AI 訓練平臺可為用戶賦能。
當 GPU 資源、存儲資源和網絡資源建設好后,用戶可通過云平臺進行自主構建,實現一鍵運行。青云 AI 訓練平臺主要基于自身 GPU 資源,在線構建集群,構建完成后會默認掛載某一個存儲,用戶可以自行選擇。
在青云 AI 訓練平臺上同時會內置在線開發環境,在開發環境下還會內置一些常用的訓練框架,通過集群統一向用戶提供全場景和全應用環境,讓用戶可以多機在線進行分布式訓練。
8、容器推理服務平臺在大模型訓練幾乎結束后,面向公眾提供推理服務時,青云容器推理服務平臺就能發揮作用。
通過青云容器推理服務平臺,用戶布署推理服務后,再用配置好的負載均衡和自動伸縮,保證用戶訪問量能立即得到調用。同時青云面向客戶提供在線的監控服務,如果推理服務出現問題,用戶可以立即監控到容器推理出了什么問題,青云可以在線解決。面向并發性操作和大規模調用操作上,青云還可以進行負載均衡和自動伸縮,極大減少人工配置操作。
9、模型倉庫(MaaS)
青云模型倉庫(MaaS)主要面向 AI 算力服務客戶及通用計算客戶,模型服務商可以根據自己模型的需求在應用市場、模型市場進行產品上架,方便各企業的客戶能一鍵調用、一鍵微調、一鍵部署使用。
三:激發多元價值 加速場景落地
總的來說,青云 AI 算力調度平臺目的是像管理本地資源一樣,管理 AI 基礎設施,主要體現在五大方面:
1、提供多元算力統一調度
面對 GPU 資源、CPU 資源、國產芯片、應用框架、應用程序以及用戶的業務場景,青云都統一使用一個平臺進行調度和管理,也包括存儲設施和網絡設施。
2、基于基礎設施實現智能化算力調度
針對算力調度優先級、親和性,基于 VM、宿主機和容器,用戶都能通過青云的平臺實現智能化算力調度和配置,以及管理服務。
3、對國產芯片快速有效適配青云對國產芯片能進行有效適配、快速適配,保證國產化的算法服務、國產化的代碼能在國產芯片上立即運行起來。
4、可視化服務
面向管理端的智能運維方面,青云的監控、告警服務等都通過一個大的運營和運維平臺為客戶和管理員提供可視化操作。
5、豐富的應用市場
青云科技積極建設生態,打造豐富的應用市場,讓各行各業的應用和各行各業的客戶,都能在青云 AI 算力平臺上得到想要的計算資源和業務資源。
目前青云 AI 算力調度平臺已在濟南超算應用落地,山河云已經上線提供運營服務。青云基于濟南超算上萬臺的硬件基礎設施,多種計算網絡、服務器等,進行上架、管理、調度服務,對不同機房以及超算業務、智算業務、GPU,以及基于各種存儲和網絡信息,進行統一納管整合、管理和分發,為各行各業的客戶提供算力調度的產品和算力云服務產品。
青云 AI 算力云服務
青云 AI 算力云服務產品也在青云公有云上進行上架提供服務,主要面向大模型訓練場景。
在面向比較高優先級和高配置的卡上,青云來提供公有云的算力服務產品,在 AI 場景下青云將底層資源構建分布式 GPU 算力集群,綁定公網環境,讓用戶進行訪問。
用戶可以基于此將數據上傳到并行文件存儲上,也可以將并行文件存儲和 GPU 算力集群,通過私有網絡保證數據安全和保證云服務的安全性,統一納管到同一個網絡里。還可以通過在線訓練、遠程SSH訪問分布式算力集群和并行文件存儲,將業務運行起來。
在業務上,用戶可以使用 AI 算力集群、容器推理服務,其基礎設施都是 A800 資源、裸金屬服務器、虛擬化服務器。所有青云 AI 算力云服務產品下都采用高速互聯的網絡,采用針對 AI 算力行業所需要的在線環境、開發環境、訓練和推理環境等,歡迎大家申請注冊和試用。