9月13日至14日,2023開放數(shù)據(jù)中心大會(huì)在北京市隆重開幕。銳捷網(wǎng)絡(luò)在網(wǎng)絡(luò)分論壇上發(fā)布了AIGC智算中心網(wǎng)絡(luò)整體方案,為AIGC大模型的發(fā)展提供了全方位的網(wǎng)絡(luò)解法。
大模型發(fā)展趨勢(shì)以及網(wǎng)絡(luò)通信訴求
隨著AIGC技術(shù)賦能產(chǎn)業(yè)持續(xù)升級(jí),業(yè)務(wù)對(duì)大模型的需求也日益旺盛,更多的訓(xùn)練參數(shù)量以及更高的算力成為大語言模型的迭代目標(biāo)。為了支撐多元化的行業(yè)應(yīng)用,數(shù)據(jù)中心需要更大規(guī)模的集群來承載大語言模型的分布式訓(xùn)練。大語言模型運(yùn)算效率與網(wǎng)絡(luò)轉(zhuǎn)發(fā)帶寬存在密不可分的聯(lián)系,網(wǎng)絡(luò)帶寬接入能力與網(wǎng)絡(luò)帶寬利用率是影響GPU利用率的關(guān)鍵指標(biāo)。
基于以上需求和痛點(diǎn),銳捷網(wǎng)絡(luò)解決方案經(jīng)理劉洋在2023開放數(shù)據(jù)中心大會(huì)(ODCC 2023)上,通過主題演講《面向AIGC的智算中心網(wǎng)絡(luò)建設(shè)思考》,闡述了AIGC大模型的發(fā)展趨勢(shì)及關(guān)鍵訴求,正式發(fā)布了AIGC智算中心網(wǎng)絡(luò)整體方案。方案采用統(tǒng)一標(biāo)準(zhǔn)化的以太網(wǎng)絡(luò)技術(shù),具體提出兩種AIGC智算中心網(wǎng)絡(luò)解決方案。
銳捷網(wǎng)絡(luò)解決方案經(jīng)理劉洋
現(xiàn)場觀眾
高性能以太網(wǎng)絡(luò)解決方案
高性能以太網(wǎng)絡(luò)解決方案通過三級(jí)組網(wǎng)的方式可以滿足3.2萬個(gè)400G端口接入需求,支撐32K塊GPU卡的集群規(guī)模。在網(wǎng)絡(luò)性能層面,部署實(shí)施時(shí)關(guān)注RDMA無損網(wǎng)絡(luò)中PFC、ECN等水線的設(shè)置,進(jìn)行負(fù)載均衡模式及算法優(yōu)化提升網(wǎng)絡(luò)的帶寬利用率(詳細(xì)技術(shù)可參考文章《解決數(shù)據(jù)中心網(wǎng)絡(luò)擁塞,銳捷RALB負(fù)載均衡技術(shù)助力高效數(shù)據(jù)傳輸》)。運(yùn)維優(yōu)化階段,該方案強(qiáng)調(diào)對(duì)網(wǎng)絡(luò)關(guān)鍵指標(biāo)的實(shí)時(shí)監(jiān)控,應(yīng)用智能運(yùn)維平臺(tái)根據(jù)現(xiàn)網(wǎng)狀況進(jìn)行動(dòng)態(tài)調(diào)整以實(shí)現(xiàn)更佳的網(wǎng)絡(luò)性能,該解決方案已獲得市場的廣泛認(rèn)可。
高性能以太網(wǎng)絡(luò)解決方案
網(wǎng)絡(luò)寬帶接入層面,銳捷網(wǎng)絡(luò)RG-S6980-64QC數(shù)據(jù)中心交換機(jī)支持64*400G通信端口,可以同時(shí)應(yīng)用在TOR、Leaf、Spine三個(gè)層級(jí),該設(shè)備已經(jīng)批量交付了很多互聯(lián)網(wǎng)的客戶。
數(shù)據(jù)中心盒式核心交換機(jī)RG-S6980-64QC
AI-Fabric智算中心網(wǎng)絡(luò)解決方案
AI-Fabric智算中心網(wǎng)絡(luò)解決方案是銳捷網(wǎng)絡(luò)針對(duì)AIGC業(yè)務(wù)場景發(fā)布的另一套解決方案。采用NCP+NCF為基礎(chǔ)模塊橫向擴(kuò)展的三級(jí)網(wǎng)絡(luò)架構(gòu),可以支撐17K~32K的大規(guī)模GPU卡集群。基于高性能芯片技術(shù),通過將數(shù)據(jù)流切分成等長的Cell并負(fù)載到所有鏈路,提升網(wǎng)絡(luò)帶寬利用率;基于VOQ+Credit的端到端流控機(jī)制實(shí)現(xiàn)與業(yè)務(wù)無關(guān)的無損自閉環(huán)網(wǎng)絡(luò),助力業(yè)務(wù)算力提升。(詳細(xì)技術(shù)可參考文章《銳捷網(wǎng)絡(luò)高性能網(wǎng)絡(luò)方案,為AIGC打通“任督二脈”》)
AI-Fabric方案組網(wǎng)架構(gòu)
網(wǎng)絡(luò)寬帶接入層面,AI-Fabric智算中心網(wǎng)絡(luò)解決方案由400G NCP交換機(jī)和200G NCF交換機(jī)組成。NCP設(shè)備為RG-S6930-18QC40F1,支持18口400G的業(yè)務(wù)口,并支持40口200G的Fabric內(nèi)聯(lián)口。NCF設(shè)備為RG-X56-96F1,支持96口200G的Fabric內(nèi)聯(lián)口。該解決方案可滿足不同業(yè)務(wù)需求,具有可擴(kuò)展性和靈活性。
AI-Fabric 400G高帶寬產(chǎn)品接入方案
在全球互聯(lián)網(wǎng)流量不斷增長和數(shù)據(jù)應(yīng)用需求日益多樣化的背景下,銳捷網(wǎng)絡(luò)致力于推動(dòng)網(wǎng)絡(luò)技術(shù)的進(jìn)步和發(fā)展,AIGC智算中心網(wǎng)絡(luò)整體方案的推出正是其不斷探索和創(chuàng)新的有力證明。通過持續(xù)的技術(shù)研發(fā)和產(chǎn)品創(chuàng)新,銳捷網(wǎng)絡(luò)將繼續(xù)為全球的數(shù)據(jù)中心提供更加高效、可靠、智能的網(wǎng)絡(luò)解決方案,在AIGC時(shí)代,助力互聯(lián)網(wǎng)企業(yè)及各行各業(yè)的快速發(fā)展。