亞馬遜AWS近日宣布,其內(nèi)部團隊研發(fā)的AI訓(xùn)練芯片Trainium2已正式進入廣泛應(yīng)用階段,并隨之推出了搭載該芯片的Trn2實例。AWS還揭曉了Trn2 UltraServer大型AI訓(xùn)練系統(tǒng),以及更為先進的3nm制程Trainium3芯片。
Trainium2芯片作為AWS的新星,每個Trn2實例內(nèi)置了16顆這樣的芯片。通過超高速、高帶寬、低延遲的NeuronLink互聯(lián)技術(shù),Trn2實例能夠提供高達(dá)20.8 petaflops的峰值算力,這對于訓(xùn)練和處理數(shù)以億計參數(shù)的模型來說,無疑是一個強大的助力。
AWS聲稱,與當(dāng)前基于GPU的EC2 P5e和P5en實例相比,Trn2實例在性價比上提升了30-40%,為用戶帶來了更為經(jīng)濟的AI訓(xùn)練解決方案。
而Trn2 UltraServer則進一步擴大了算力的邊界。通過NeuronLink技術(shù),4臺Trn2服務(wù)器被巧妙地聚合在一起,形成了包含64顆Trainium2芯片的超級系統(tǒng),其算力峰值可達(dá)83.2 petaflops。這一強大的算力,足以滿足當(dāng)前全球最大規(guī)模模型的訓(xùn)練和部署需求。
不僅如此,AWS還展示了Trn2 UltraServer的實體機架,其規(guī)模之大、算力之強,令人嘆為觀止。
AWS還與投資的AI模型企業(yè)Anthropic攜手,共同打造名為Project Rainier的EC2 UltraCluster巨型計算集群。這個集群將包含大量的Trn2 UltraServer,總計擁有數(shù)十萬顆Trainium2芯片,其算力之強,有望成為全球公開的最大AI計算集群。
據(jù)透露,這個巨型計算集群的算力,將是Anthropic目前用于訓(xùn)練最先進Claude模型所需算力的5倍以上,這無疑將極大地推動AI技術(shù)的發(fā)展。
AWS還透露了其下一代AI訓(xùn)練芯片Trainium3的信息。作為AWS首款采用3nm制程的芯片產(chǎn)品,Trainium3的性能將遠(yuǎn)超現(xiàn)有的Trainium2。基于Trainium3的UltraServer性能預(yù)計可達(dá)Trn2 UltraServer的4倍,而首批基于Trainium3的實例也將在2025年底正式推出。