近日,寒武紀正式發布第三代云端AI芯片思元370、基于思元370的兩款加速卡MLU370-S4和MLU370-X4、全新升級的Cambricon Neuware軟件棧。
回顧今年年初1月,寒武紀思元290智能芯片及加速卡、玄思1000智能加速器在官網低調發布,這是寒武紀今年發布的第二款產品,這在業界實屬難得。畢竟芯片行業基本2-3年推出一款或一代芯片,外加根據不同客戶需要,還要1-2年的適配導入周期。
先從三個方面,解讀下本次寒武紀370的優勢所在。
在架構上,思元370屬于寒武紀第四代自研智能芯片架構,第一代架構MLUarch00主打智能加速IP核,第二代MLUarch01主打多核架構,第三代MLUarch02主打多核共享片內存儲,第四代MLUarch03更是寒武紀首款采用chiplet(芯粒)技術的AI芯片,在國內應該也屬于行業首顆chiplet AI芯片。
在應用場景靈活性上,由于思元370在一顆芯片中封裝2顆AI計算芯粒(MLU-Die),每一個MLU-Die都具備獨立的AI計算單元、內存、IO以及MLU-Fabric控制和接口,不同MLU-Die可以組合規格多樣化的產品,為用戶提供適用不同場景的高性價比AI芯片。
在算力上,基于臺積電7nm制程工藝、整體集成390億個晶體管的思元370最大算力達到256TOPS(INT8),相比上一代思元270算力直接翻倍。
此外,思元370,不僅可以作為推理芯片,也可以作為訓練芯片使用。這樣做的好處不僅是寒武紀自己的產品能夠兼顧訓練與推理,也方便客戶全流程的模型部署、業務落地。
實際上,寒武紀發布的首顆訓練芯片思元290,在訓練為主的同時也可以進行推理。借助Cambricon Neuware軟件棧提供的軟件及應用生態,就可以在思元290芯片上實現圖形圖像、語音、NLP、搜索推薦等多種應用的訓練和推理。
此次思元370發布,Cambricon Neuware進一步整合了訓練和推理的全部底層軟件棧,包括底層驅動、運行時庫、算子庫以及工具鏈等,將MagicMind和深度學習框架Tensorflow、Pytorch深度融合,實現訓推一體。依托于訓推一體,在寒武紀全系列計算平臺上,從云端到邊緣端,用戶均可以無縫地完成從模型訓練到推理部署的全部流程,進行靈活的訓練推理業務混布和潮汐式的業務切換,加快了用戶端到端業務落地的速度,減少模型訓練研發到模型部署之間的繁瑣流程,可快速響應業務變化,提升算力利用率,降低運營成本。
在外界看來,一代接著一代是分段的。但對于寒武紀來說,每一代架構之間都是互相勾連、鑲嵌、攢接的,雖然每更新一代處理能力提升、效率優化都很大,但代際之間并非替代關系,而是適配不同的市場,從而實現資源的最大化利用。比如思元370和思元290之間就不是替代的關系,因為前者主要是推理芯片,后者主要是訓練芯片,兩者是互補的關系。
以每一代的架構為基礎,都可以開發出適合不同端的IP、芯片矩陣。而每一款芯片,又都會分成不同組件,比如按照十幾個組件設立十幾個研發小組,每個小組來做一個組件,最后把組件拼起來形成智能芯片。不同的小組可以根據項目需求,對組件進行多種組合、拼接,并實現不同芯片功能組件上重疊部分的高效復用。
一方面,這就使得云、邊、端、車不同芯片擁有很多可以復用的組件與設計,讓“云邊端車”協同優勢成為可能;另一方面,這也使得過去的積累不會因為業務線變化而浪費,哪怕是現在總營收占比已經很小的IP授權業務,對于其他覆蓋面更多的業務線,仍然有著生態拓展、技術復用的價值,比如在邊緣側智能芯片設計上復用。