亞馬遜AWS近日宣布,其內(nèi)部團(tuán)隊(duì)研發(fā)的AI訓(xùn)練芯片Trainium2已正式進(jìn)入廣泛應(yīng)用階段,并隨之推出了搭載該芯片的Trn2實(shí)例。AWS還揭曉了Trn2 UltraServer大型AI訓(xùn)練系統(tǒng),以及更為先進(jìn)的3nm制程Trainium3芯片。
Trainium2芯片作為AWS的新星,每個(gè)Trn2實(shí)例內(nèi)置了16顆這樣的芯片。通過超高速、高帶寬、低延遲的NeuronLink互聯(lián)技術(shù),Trn2實(shí)例能夠提供高達(dá)20.8 petaflops的峰值算力,這對(duì)于訓(xùn)練和處理數(shù)以億計(jì)參數(shù)的模型來說,無疑是一個(gè)強(qiáng)大的助力。
AWS聲稱,與當(dāng)前基于GPU的EC2 P5e和P5en實(shí)例相比,Trn2實(shí)例在性價(jià)比上提升了30-40%,為用戶帶來了更為經(jīng)濟(jì)的AI訓(xùn)練解決方案。
而Trn2 UltraServer則進(jìn)一步擴(kuò)大了算力的邊界。通過NeuronLink技術(shù),4臺(tái)Trn2服務(wù)器被巧妙地聚合在一起,形成了包含64顆Trainium2芯片的超級(jí)系統(tǒng),其算力峰值可達(dá)83.2 petaflops。這一強(qiáng)大的算力,足以滿足當(dāng)前全球最大規(guī)模模型的訓(xùn)練和部署需求。
不僅如此,AWS還展示了Trn2 UltraServer的實(shí)體機(jī)架,其規(guī)模之大、算力之強(qiáng),令人嘆為觀止。
AWS還與投資的AI模型企業(yè)Anthropic攜手,共同打造名為Project Rainier的EC2 UltraCluster巨型計(jì)算集群。這個(gè)集群將包含大量的Trn2 UltraServer,總計(jì)擁有數(shù)十萬顆Trainium2芯片,其算力之強(qiáng),有望成為全球公開的最大AI計(jì)算集群。
據(jù)透露,這個(gè)巨型計(jì)算集群的算力,將是Anthropic目前用于訓(xùn)練最先進(jìn)Claude模型所需算力的5倍以上,這無疑將極大地推動(dòng)AI技術(shù)的發(fā)展。
AWS還透露了其下一代AI訓(xùn)練芯片Trainium3的信息。作為AWS首款采用3nm制程的芯片產(chǎn)品,Trainium3的性能將遠(yuǎn)超現(xiàn)有的Trainium2。基于Trainium3的UltraServer性能預(yù)計(jì)可達(dá)Trn2 UltraServer的4倍,而首批基于Trainium3的實(shí)例也將在2025年底正式推出。