【ITBEAR】在加州圣何塞,2024年度的開放計算全球峰會(OCP Global Summit)成功舉行,匯聚了超7000名基礎設施軟硬件領域的專家。峰會圍繞“創新的力量”主題,深入探討AI基礎設施技術生態,特別是OCP基金會的人工智能開放系統戰略計劃,為AI領域注入了全新活力。
阿里云服務器研發資深總監文芳志與UALink聯盟主席Kurtis Bowman共同發表了《UALink:加速AI的未來》演講,分享了AI服務器Scale UP互連技術的最新進展和UALink標準的未來路徑。
UALink協議,由行業領導者共同發起,旨在成為AI服務器Scale UP互連新標準,具備高性能、高帶寬和低時延特性。10月底,UALink聯盟將正式成立,并發布第一版UALink規范。
針對全球及中國市場的挑戰,ALink System(ALS)產業生態應運而生,推動UALink標準實施。ALS提供統一標準的互連系統,包括ALS-D數據面和ALS-M管控面,為AI訓練和推理提供全面解決方案。
ALS-D支持UALink國際標準,形成競爭力強的數據面方案,同時增加網內計算等特性。ALS-M則為不同芯片方案提供標準化接入,支持開放生態和廠商專有互連協議的統一軟件接口。
遵循ALink System規范,阿里云推出磐久AI Infra 2.0服務器,支持下一代超大規模AI集群。該服務器體現開放生態、高能效、高性能和高可用理念,定義AI計算節點和Scale Up/Scale Out互連系統。
互連系統ALink System全面兼容UALink生態,構建超高性能、超大規模Scale UP集群互連能力。一級互連支持64-80個節點,二級互連可達2000個以上節點,提供強大支持。
AI Infra 2.0服務器集成阿里自研CIPU 3.0芯片,支持高帶寬大規模AI服務器Scale Out網絡擴展。在硬件工程方面,該服務器單機柜支持最大80個AI計算節點,采用400V PSU,單體供電效率可達98%。
在運維管理上,AI Infra 2.0服務器采用全新CableCartridge后維護設計,支持全盲插,零理線易運維、零誤操作。在可靠性方面,該服務器支持彈性節點、智能路由等技術,實時監控并自愈硬件故障。
阿里云積極推動ALink System產業生態建設,已有20多家廠商加入。阿里云不僅是UALink的積極支持者和ALink System產業生態的牽頭者,還是多個互連技術行業組織的成員。
阿里云磐久AI Infra 2.0服務器與UALink聯盟的攜手,展示了阿里云在AI基礎設施領域的技術實力和創新能力,體現了其在推動開放計算和AI技術發展中的領導地位。