伴隨著寒武紀思元370的正式推出,寒武紀第四代智能處理器架構MLUarch03也終于浮出水面,MLUarch03帶來哪些改進和優化,又有哪些值得關注的特點呢?
在全新的MLUarch03架構加持之下,思元370算力最高可達256TOPS(INT8),是上一代產品思元270算力的2倍。相較于峰值算力的提升,思元370在實測性能和能效方面的表現更為優秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測性能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測性能與同尺寸主流GPU相當,能效則大幅領先。
MLUarch03架構采用新一代張量運算單元,內置Supercharger模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術,在軟件融合的基礎上大幅減少算子執行時間;片上通訊帶寬是上一代MLUarch02的2倍、片上共享緩存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完備,更高效且向前兼容。
Supercharger和多算子硬件融合技術
穩步提升定點算力的同時,思元370全面加強了FP16、BF16以及FP32等不同類型的浮點算力,可同時推理和訓練任務,增強兼容性以實現更快部署。市場只會留給有準備的人。寒武紀作為初創企業,對客戶需求的把握也精細到全流程跟進。比如思元370,不僅可以作為推理芯片,也可以作為訓練芯片使用。這樣做的好處不僅是寒武紀自己的產品能夠兼顧訓練與推理,也方便客戶全流程的模型部署、業務落地。
此外,思元370還是國內第一款公開發布支持LPDDR5的云端AI芯片,內存帶寬是上一代產品的3倍,訪存能效達GDDR6的1.5倍。
寒武紀智能芯片架構演進
值得強調的是,寒武紀堅持自研智能芯片架構、指令集的研發工作,是國內外在該技術方向積累最為深厚的公司之一。
通過如思元370這樣更具效率的AI芯片在云端場景替代傳統GPU,就能夠大幅降低前期基礎設施建設成本,減少后期運行能耗。可以說,思元370成功推出的背后,不僅是寒武紀研發人員的日夜努力,也是社會各行各業對更高效率AI芯片的迫切需求。