人工智能正持續為產業賦能,推動智慧農業、智能制造、智慧交通、智慧零售等行業發展,而算網融合也將成為實現產業智能服務的基礎底座。近日,浪潮網絡發布基于RoCE的無損以太網解決方案,該方案以浪潮高性能數據中心交換機組為核心,滿足在AI集群、分布式存儲、HPC集群、數據中心的網絡要求,助力實現算力的無縫協同,釋放數據潛能,為產業發展注入創新動能。
隨著智算中心的發展演進,數據量呈指數級增長,數據流量對于算力和網絡提出了更高要求。傳統的數據中心服務以事件為基礎,計算結果通常是確定的,單個事件和相應的網絡通信之間幾乎沒有相關性或依賴性。而智算是迭代收斂優化的過程,數據集和算法之間存在高度的空間相關性,通信流之間具有強時間相關性,因此需要具備快速、高效和無損的數據中心網絡來承載發展需求。
以往以HPC(高性能計算)為代表的場景應用多采用Infiniband技術組建高帶寬、低延遲的網絡。但是隨著RoCE技術的應用發展,使以太網在帶寬、延遲方面的表現日益趨同,在性價比和發展前景上也更具優勢。浪潮網絡緊跟市場發展需求,以支持RoCE技術的數據中心以太網交換機為核心,推出了典型的無損以太網解決方案,其具備如下優勢:
計算、存儲、網絡、AIStation無縫融合
通過提供統一品牌的計算、存儲、網絡和人工智能開發平臺整體解決方案,浪潮網絡可以支持PFC、ECN等網絡流控技術,以構建端到端、無損、低延時的RDMA(遠程直接內存訪問)承載網絡。而交換機完美的緩存優勢,可平滑吸收突發流量,有效應對TCP incast。
此外,方案具備智能緩存管理技術(近似公平丟棄、動態報文優先級),可保護短報文的作業管理流量,確保AI集群的運行效率。并支持Telemetry技術,可以提供實時網絡數據和設備狀態的可視化管理。同時支持RoCE-SAN業務域,RoCE網絡靈活接入,AI集群主機與交換機可以同時實現單歸、雙歸連接。浪潮AIStation可以提供統一的主流深度學習框架(Tensorflow、Pytorch、Caffe、Mxnet、PaddlePaddle),開發訓練平臺以及計算資源(CPU、GPU、內存、存儲)管理平臺。
故障主動發現、自動倒換
RoCE-SAN網絡與存儲業務協同、故障快速感知,交換機快速檢測到故障狀態,并通知給相關業務域內訂閱通知消息的服務器,以便業務快速切換到冗余路徑,降低對業務的影響。針對大型無損以太網環境下PFC死鎖的問題,可以提供芯片級防PFC死鎖機制,實現自動檢測PFC死鎖及恢復。
存儲即插即用
RoCE-SAN網絡能夠自動發現設備服務器與存儲設備的接入,并通知服務器自動建立與存儲設備的連接關系。
目前,浪潮網絡基于RoCE的無損以太網解決方案已在南京智能計算中心等項目中得以應用,無損以太網解決方案可充分發揮浪潮整體解決方案能力的優勢,滿足通用計算集群、GPU加速集群、異構計算集群、分布式存儲集群、全閃存存儲集群等場景網絡的高速、低延遲連接需求。未來,浪潮網絡將繼續秉承以客戶為中心的發展理念,攜手合作伙伴打造更多結合行業場景的網絡優秀實踐,為加速企業數字化轉型做出貢獻。