【ITBEAR】9月15日消息,在AI大模型時代,算力成本已成為業界關注的焦點。百度系統架構師、百度智能云AI計算部負責人王雁鵬近日分享了關于如何有效降低萬卡集群算力開支的見解,提出了五大解決方案。
王雁鵬指出,隨著深度學習技術的不斷發展,GPU集群規模已達萬卡級別,這使得大模型時代的算力成本遠超人力成本。為了應對這一挑戰,他提出了包括搭載RDMA網絡、采用自動并行策略、確保訓練穩定性、動態分配算力以及實現多芯異構混訓在內的五大策略。
據ITBEAR了解,RDMA網絡的應用在AI集群中顯得尤為重要。與傳統的IB網絡相比,RDMA網絡更適合AI集群的需求,它優先考慮吞吐量而非延遲,從而有效提升了AI集群的帶寬有效率和模型性能。
此外,王雁鵬還強調了自動并行策略在AI集群演進中的重要性。通過采用“邊計算邊通信”的方式和顯存優化的切分策略,百度成功提高了模型性能,甚至超越了開源模型和人工調優模型的效果。
在談到訓練穩定性時,王雁鵬表示,穩定不間斷的任務運行對于AI訓練至關重要。百度通過一系列技術手段,如Hang檢測、慢節點檢測等,確保了文心一言大模型的有效訓練時長比例超過99%。
針對資源利用率問題,王雁鵬提出了訓練一體的解決方案。通過動態分配算力流量和資源,百度百舸異構計算平臺成功將資源利用率從50%提升至90%,從而有效應對了主流模型訓練中的劣勢。
最后,王雁鵬探討了多芯異構混訓在解決算力卡脖子問題中的關鍵作用。他提出,通過搭建跨芯溝通庫和采用Accelerator抽象設計方法,百度實現了在千卡和萬卡規模下性能損失的最小化。
展望未來,王雁鵬透露百度將繼續在三個核心技術上尋求突破:實現更高效的拓撲和擁塞控制、擴大跨地域RDMA網絡范圍以及進一步提升訓練故障恢復速度。這些技術突破將為百度在未來十萬卡級別的AI集群競爭中占據有利地位提供有力支持。
關鍵詞:#百度# #AI大模型# #算力成本# #RDMA網絡# #多芯異構混訓#