【ITBEAR科技資訊】7月29日消息,meta公司近日披露了一份研究報告,揭示了其在進行超大規模人工智能模型訓練過程中遭遇的技術挑戰。報告顯示,meta為訓練擁有4050億參數的Llama 3模型,動用了16384個英偉達H100顯卡組成的龐大集群。然而,在長達54天的訓練周期內,該集群竟出現了高達419次的意外故障,平均每三小時就發生一次,這無疑對訓練進程的穩定性提出了嚴峻挑戰。
報告詳細分析了故障的原因,發現其中超過一半的故障源自于顯卡或其配備的高帶寬內存(HBM3)??紤]到整個系統的龐大規模和高度的任務同步性,即便是單個顯卡的故障也可能導致整個訓練任務被迫中斷,進而需要從頭開始。盡管如此,meta團隊依然成功地維持了超過90%的有效訓練時間,顯示出其卓越的技術實力和應變能力。
據ITBEAR科技資訊了解,在整個預訓練期間,工作中斷總計達到了466次,其中計劃內的中斷為47次,主要源于自動化維護;而剩余的419次則為意外中斷,大多由硬件問題引發。特別是GPU相關的問題,占據了意外中斷的近六成比例。在所有的意外中斷中,僅有三起事件需要人工進行大量干預,其余均通過自動化系統得到妥善處理。
進一步分析意外中斷的具體原因,我們發現其中有148次是由GPU故障(包含NVLink故障)導致的,占比約30.1%;而由GPU的HBM3內存故障引起的中斷則達到了72次,占比17.2%。有趣的是,在長達54天的訓練過程中,僅有兩個CPU出現故障。此外,還有近四成的意外中斷是由包括軟件錯誤、網絡電纜及適配器問題在內的多種因素共同造成的。
為了提升訓練效率,meta團隊不僅優化了任務啟動和檢查點時間,還借助PyTorch的NCCL飛行記錄器等工具迅速診斷并解決性能瓶頸。同時,團隊還密切關注了環境因素對訓練過程的影響,比如溫度波動對GPU性能的影響,以及大量GPU同時運行時對數據中心電網的壓力。
然而,隨著AI模型參數量的持續增長,對計算資源的需求也在不斷攀升。以meta的xAI計劃為例,該計劃預計將使用多達10萬塊H100顯卡的集群。在此背景下,故障率有可能會成倍增加,這無疑為未來AI訓練帶來了巨大的挑戰。面對這些挑戰,meta及整個AI行業都需要不斷探索和創新,以確保訓練過程的穩定性和效率。