【ITBEAR】9月25日消息,在2024百度云智大會上,百度智能云宣布了其百舸AI異構計算平臺的重大升級,正式推出4.0版本。這一升級版本緊密圍繞大模型全旅程的算力需求,致力于為企業提供“多、快、穩、省”的AI基礎設施服務,全面覆蓋集群創建、開發實驗、模型訓練及模型推理四大核心環節。
據ITBEAR了解,針對當前算力資源短缺的普遍問題,百舸4.0版本重點強化了“多芯混訓”能力,成功實現了在萬卡規模集群上高達95%的多芯混合訓練效能,達到了業界領先水平。此外,在集群部署環節,升級后的百舸顯著提升了部署效率,能夠將萬卡集群的運行準備時間從以往的數周縮短至最快1小時,極大縮短了業務上線周期。
針對大模型訓練過程中頻繁出現的故障問題,百舸4.0版本全面升級了故障檢測手段和自動容錯機制,有效降低了故障發生頻次,并大幅減少了集群故障處置時間,確保在萬卡集群上實現超過99.5%的有效訓練時長。在模型推理方面,鑒于長文本推理逐漸成為主流趨勢,百舸4.0版本對推理速度和成本進行了全面優化,使得長文本推理效率提升了1倍以上。
此次百度智能云百舸AI異構計算平臺的全面升級,無疑將為企業提供更高效、更穩定的AI基礎設施服務,助力企業在AI領域的快速發展。#百度智能云# #百舸AI異構計算平臺# #大模型訓練# #模型推理# #算力資源#