每經編輯 杜宇
據騰訊微信公眾號4月14日消息,面向大模型訓練,騰訊發布超強算力集群。

這個國內超強算力集群,就是騰訊云新發布的面向大模型訓練的新一代HCC(High-Performance Computing Cluster)高性能計算集群,整體性能比過去提升了3倍。
它搭載了NVIDIA H800 Tensor Core GPU,能夠提供高性能、高帶寬、低延遲的智算能力支撐。
什么是算力集群?
一般運算,由運算卡(芯片)來完成。
但遇到海量運算,單塊芯片無力支撐,就要將成千上萬臺服務器,通過網絡聯結,組成大型的算力集群,同心合力,更高更強。
一個人工智能大模型,通常得用數萬億個單詞訓練,參數量也“飆升”到了上萬億。這個時候,只有高性能的計算集群能hold住。

超強算力集群靠什么支撐?
算力集群的“強”,由單機算力、網絡、存儲共同決定。就像一個牢固的木桶,缺一不可。
騰訊云新一代集群通過對單機算力、網絡架構和存儲性能進行協同優化,能夠為大模型訓練提供高性能、高帶寬、低延遲的智算能力支撐。
總體來說,有以下幾個特點:
計算方面,性能強
在單點算力性能最大優化的基礎上,我們還將不同種類的芯片組合起來,GPU+CPU,讓每塊芯片去最恰當的地方,做最擅長的事情。
網絡方面,帶寬足
GPU擅長并行計算,一次可以做多個任務。我們的自研星脈高性能網絡,讓成千上萬的GPU之間互相“通氣”,信息傳遞又快又不堵車,打一場漂亮的配合戰,大模型集群訓練效率提升了20%。
存儲方面,讀取快
訓練大模型時,幾千臺服務器會同時讀取一批數據集,如果加載時間過長,也會成為木桶的短板。我們的最新自研存儲架構,將數據分類放進不同“容器”,用作不同的場景,讀取更快更高效。
騰訊表示,隨著算力需求的陡增,自己采購GPU的價格昂貴,甚至有錢也買不到,給創業企業、中小企業帶來很大壓力。我們的新一代HCC集群,能夠幫助在云上訓練大模型,希望緩解他們的壓力。
我們有訓練框架AngelPTM,對內支持了騰訊混元大模型的訓練,也已通過騰訊云對外提供服務。它在去年10月,完成了首個萬億參數大模型訓練,并將訓練時間縮短80%。
我們的TI平臺(一站式機器學習平臺)擁有大模型能力和工具箱,能幫助企業根據具體場景,進行精調訓練,提升生產效率,快速創建和部署 AI 應用。
我們的自研芯片已經量產,包括用于AI推理的紫霄芯片。它采用自研存算架構和自研加速模塊,可以提供高達3倍的計算加速性能和超過45%的整體成本節省。
總體而言,我們正以新一代HCC為標志,基于自研芯片、自研服務器等方式,軟硬一體,打造面向AIGC的高性能智算網絡,持續加速全社會云上創新。
封面圖片來源:每經記者 張建 攝