【ITBEAR】9月25日消息,在2024百度云智大會上,百度智能云宣布了一項重大升級,將其百舸AI異構計算平臺推升至4.0版本,旨在應對當前算力資源短缺的挑戰。該平臺重點增強了“多芯混訓”能力,實現了在萬卡規模集群上高達95%的多芯混合訓練效能,這一突破有望極大地提升AI訓練的效率。
針對大模型訓練過程中頻繁出現的故障問題,百舸4.0版本進行了全面的優化。通過升級故障檢測手段和自動容錯機制,新版本顯著降低了故障發生的頻次,并大幅減少了集群故障的處理時間。在萬卡集群上,有效訓練時長超過了99.5%,這一提升無疑將為大模型的穩定訓練提供強有力的支持。
據ITBEAR了解,百度智能云此次推出的百舸4.0版本,不僅在技術上實現了顯著突破,還充分考慮了實際應用場景中的痛點,致力于為用戶提供更加高效、穩定的AI訓練環境。這一系列的升級和優化,無疑將進一步鞏固百度在AI領域的領先地位。
此次百舸AI異構計算平臺的升級,不僅展示了百度智能云在技術創新方面的實力,也反映了其對行業需求的深刻理解和積極響應。隨著AI技術的不斷發展,算力資源的高效利用和故障處理能力的提升將成為推動AI應用進一步普及的關鍵因素。
關鍵詞:#百度智能云# #百舸AI異構計算平臺# #多芯混訓# #故障檢測# #AI訓練#