在近日舉行的2024中國信息通信大會“算力網絡算網一體創新發展論壇”上,中國移動攜手天數智芯、壁仞科技、中興、海光及瀚博等業內領先企業,共同推出了“芯合”異構混合并行訓練系統1.0版本,標志著算力融合技術的又一重大突破。
“芯合”系統以兩大核心技術為亮點:一是基于非均勻計算任務切分(ITD)算法的3D并行策略,它能夠在通用混合訓練框架下,靈活實現異構數據并行與流水線并行,自適應調整諸如數據微批次大小、數量及流水線并行度等參數,以適應不同算力平臺。二是采用GPU Direct RDMA(GDR)技術的異構芯片高速通信技術,該技術無需改變芯片原有通信接口,通過定義數據傳輸架構、流程及接口標準,有效屏蔽底層硬件差異,實現頂層訓練任務在異構算力集群上的無縫分布式通信。
據中國移動介紹,“芯合”系統已成功應用于百億參數大模型的交叉混合訓練,支持包括英偉達、天數智芯、壁仞科技及海光在內的四家智算芯片,集群規模可達萬卡級別,訓練加速比超過95%,達到了業界領先水平。這一成果對于提升智能算力資源利用率及推動國產算力發展具有重要意義。
中國移動還在論壇上攜手華為、瀚博、澎峰、海光及天數智芯等企業,發布了“芯合”算力原生基礎軟件棧2.0版本。該軟件棧于2023年首次發布,實現了智算應用的一鍵式跨芯遷移,并在山東、廣西等多地的路橋檢測、智能安防等領域進行了試點應用,顯著降低了智算應用向國產化芯片遷移的復雜度。
“芯合”基礎軟件棧2.0相較于1.0版本實現了三大顯著升級。首先,在能力上,它全面重構了算力抽象模型,通過插件化設計靈活接入英偉達、華為、海光等六家AI芯片,拓展了ONNX、SYCL等多種編程范式,支持泛AI應用的跨芯遷移。其次,在性能上,新增了對標CUDA的DNN、BLAS等高性能計算庫,提供了圖算融合編譯優化能力,實現了性能的大幅提升,跨架構遷移損耗已降低至10%以內。最后,在效率上,構建了面向智算應用的“跨架構軟件工廠”,提供從開發、調試、優化、部署到遷移的全生命周期服務能力,顯著縮短了應用開發、上線時間,提升了整體研發效率。
目前,“芯合”算力原生基礎軟件棧2.0已實現泛AI應用在英偉達、英特爾、華為、瀚博、天數智芯及海光六家智算芯片間的一鍵式跨芯流轉遷移,轉換效率超過95%,遷移性能損耗小于10%,遷移時間不超過20秒,已具備規模商用的條件。這一成果將在提升智能算力網絡自主可控水平方面發揮重要作用。