大模型是當前通用人工智能產業發展創新的核心技術,目前國內已發布的生成式AI模型超過了100個。面向以大模型為核心的生成式AI開發與應用場景,近日浪潮信息發布了大模型智算軟件棧OGAI(Open GenAI Infra)——“元腦生智”,為大模型業務提供了全棧全流程的智算軟件棧,包括AI算力系統環境部署、算力調度保障、模型開發管理等。OGAI軟件棧由5層架構組成,從L0到L4分別對應于基礎設施層的智算中心OS產品、系統環境層的PODsys產品、調度平臺層的AIStation產品、模型工具層的YLink產品和多模納管層的MModel產品。
其中L2層AIStation是面向大模型開發的AI算力調度平臺,AIStation針對大模型訓練中的資源使用與調度、訓練流程與保障、算法與應用管理等方面進行了系統性優化,具備大模型斷點續訓能力,保證長時間持續訓練。AIStation支撐浪潮信息“源”大模型的訓練算力效率達到44.8%。某大型商業銀行基于AIStation打造的大規模并行運算集群,幫助其充分發掘計算潛能進行大模型訓練,并榮獲2022 IDC“未來數字基礎架構領軍者”獎項。
本文將重點討論大模型訓練面臨的挑戰、AIStation如何提升大模型訓練效率,以及取得的效果。
一、大模型訓練面臨巨大挑戰
1.大模型訓練巨大算力成本和算力利用難題
大模型訓練要面對的首要挑戰就是海量數據和計算量,算力開銷巨大,如GPT-3是在10000個GPU上訓練得到的,“源1.0”模型是在2128個GPU上通過AIStation平臺完成1800億tokens的訓練,訓練一個萬億token的700億參數模型將花費上百萬美元。但計算平臺的性能通常不能隨著算力線性增長,而是會出現耗損,因此大模型訓練還需要高效的算力調度來發揮算力平臺的效能。而這不僅需要依賴算法、框架的優化,還需要借助高效的算力調度平臺,以根據算力集群的硬件特點和計算負載特性實現最優化的算力調度,整體提高算力利用率和訓練效率。
2.耗時且維護復雜的多種網絡兼容適配
大模型訓練過程中,成千上萬顆GPU會在節點內和節點間不斷地進行通信。為了獲得最優的訓練效果,單臺GPU服務器會搭載多張InfiniBand、ROCE等高性能網卡,為節點間通信提供高吞吐、低時延的服務。但不同的網絡方案各有優劣,InfiniBand因性能優異已被公認為大模型訓練的首選,但其成本較高;RoCE雖然成本較低,但在大規模的網絡環境下,其性能和穩定性不如InfiniBand方案。因此要想滿足大模型訓練對通信的要求,就要對集群網絡中的通信設備適配使用和網絡情況進行探索和設計。
3.不穩定的大模型訓練和高門檻的系統級別優化
大模型訓練過程比傳統的分布式訓練復雜,訓練周期長達數月。集群計算效力低、故障頻發且處理復雜,會導致訓練中斷后不能及時恢復,從而會降低大模型訓練的成功概率,也會使得大模型訓練成本居高不下。因此,大模型對訓練的穩定性、故障檢測與訓練容錯提出了更高的要求。同時簡化大模型分布式任務提交、實現智能與自動化的任務資源匹配和訓練健壯性也是提升訓練效率的重要保證。
Meta在訓練模型體量與GPT3規模相當的Open Pre-trained Transformer (OPT)-175B時,遇到的一大工程問題就是訓練不穩定。如下圖所示,可以看到有許多訓練停止的時間節點,原因有GPU掉卡、GPU性能異常導致訓練意外中斷等。訓練穩定性和有效的斷點續訓是目前大模型訓練中亟待解決的問題。
圖1 OPT-175B訓練過程中的意外中斷情況,其中橫坐標為訓練時間,縱坐標為困惑度PPL
總之,在超大規模分布式環境下開展大模型訓練,如果想要縮短訓練周期、降低訓練成本,就需要解決算力調度、網絡通信、訓練穩定性等各種挑戰。不僅要靈活、充分地利用集群內的所有資源,通過多種手段優化數據使用、通訊,還要及時處理大規模計算集群的異常。
二、AIStation全流程簡化和提速大模型訓練
浪潮信息AIStation提供了系統性軟硬一體優化的平臺與軟件棧能力,來保障大模型的訓練需求。AIStation平臺從資源使用與調度、訓練流程與保障、算法與應用等角度進行了系統性的優化,實現了對大模型訓練的端到端優化和加速。
圖2 AIStation全面支撐與保障大模型業務
毫秒級調度,高效使用大規模算力,解決算力利用低難題
AIStation在大模型訓練實踐中,針對云原生調度系統性能做了優化,實現了上千POD極速啟動和環境就緒。如下表所示,AIStation調度器與原生社區版相比,能大幅提升大規模POD任務的調度性能,尤其能保證大模型訓練的計算資源的調度使用。
此外,AIStation平臺能夠支持大模型特有的開發模式,提供多種尺度作業資源使用方式,包括小尺度資源調度,大尺度資源調度、高性能調度等。算力調度器通過動態、智能地管理和調配集群計算資源,制定合理的作業執行計劃,以最大限度地利用資源,滿足各類訓練任務的時延和吞吐需求,保證作業高效穩定運行,實現算力平臺高利用率、強擴展性、高容錯性。
通過多種資源高效管理和調度策略,AIStation能實現毫秒級調度,將整體資源利用率提升到70%以上,幫助客戶更好地利用計算集群算力,充分發揮算力價值。
2.高效網絡資源管理,多卡加速比達90%,極致加速訓練過程
AIStation定義了互相獨立的計算高性能網絡、存儲高性能網絡,并且支持交換機級別的資源調度,減少跨交換機流量,同時具備網絡故障自動識別和處理功能。針對大模型訓練通信要求高的場景,AIStation提供集群拓撲感知能力,容器網絡與集群物理網絡一致,保證了容器互聯性能,滿足訓練通信要求。分布式通信優化結合集群的InfiniBand或 RoCE高性能網絡和專門優化的通信拓撲,使得AIStation在千卡規模集群測試中,多卡加速比達到了90%。尤其AIStation對大規模RoCE無損網絡下的大模型訓練也做了相應優化,實測網絡性能穩定性達到了業界較高水平。
借助AIStation平臺,某大型商業銀行實現了主流大模型訓練框架,如DeepSpeed、Megatron-LM和大語言模型在RoCE網絡環境的訓練,快速實現大模型的落地實踐。
3.大規模訓練系統級別優化,故障處理時間縮短90%,最大限度降低實驗成本
大模型任務提交時,經常會伴隨著大量的環境配置、依賴庫適配和超參數調整。AIStation能夠自動化配置計算、存儲、網絡環境,同時對一些基本的超參數提供自定義修改,方便用戶使用,通過幾步就能啟動大模型分布式訓練,目前支持諸多大模型訓練框架和開源方案,如Megatron-LM、DeepSpeed等。
圖3 AIStation上快速部署Megatron-LM,提供訓練全過程保障
AIStation在大規模訓練集群上利用自研數據緩存系統,提高了訓練前、訓練中的數據讀取速率,大大減少對存儲系統和網絡的依賴。配合優化的調度策略,與直接使用存儲系統相比,可讓模型訓練效率獲得200%-300%的提升,硬件性能100%釋放。
健壯性與穩定性是高效完成大模型訓練的必要條件。AIStation針對資源故障等集群突發情況,會自動進行容錯處理或者執行彈性擴縮容策略,保證訓練任務中斷后能以最快速度恢復,為需要長時間訓練的大模型提供可靠環境,平均將異常故障處理時間縮短90%以上。
圖4 大規模預訓練任務的異常處理和斷點續訓流程
綜上,針對大規模分布式計算,AIStation內置分布式訓練自適應系統,覆蓋訓練的全生命周期,滿足了大模型訓練的諸多訴求,提供資源使用視圖、計算與網絡調度策略、分布式訓練加速、訓練監控、訓練容錯與自愈能力,在加速訓練的同時,能夠自動定位故障和恢復任務,保證了訓練的穩定性和效率。某銀行客戶在AIStation智能容錯的機制保障下,在極其嚴苛的業務投產測試中能夠實現快速故障排查和恢復,大幅降低業務投產上線時間。
三、AIStation助力行業提升大模型開發效率
AIStation平臺在AI開發、應用部署和大模型工程實踐上積累了寶貴的經驗和技術,幫助諸多行業客戶在資源、開發、部署層面實現降本增效。在垂直行業領域,AIStation平臺幫助頭部金融客戶、生物制藥服務公司快速利用密集數據訓練、驗證大模型,大大降低大模型業務成本。某大型商業銀行基于AIStation打造的并行運算集群,憑借領先的大規模分布式訓練支撐能力,榮獲2022 IDC“未來數字基礎架構領軍者”獎項。
浪潮信息AIStation在大模型方面已經取得了諸多業界領先的經驗和積累,實現了端到端的優化,是更適合大模型時代的人工智能平臺。未來AIStation將與浪潮信息OGAI軟件棧一同進化,進一步通過低代碼、標準化的大模型開發流程,以及低成本和高效的推理服務部署,幫助客戶快速實現大模型開發和落地,搶占先機。