近日,北京迎來了一場商業領域的盛事——36氪WISE2024商業之王大會。此次大會為期兩天,吸引了眾多業界精英和領軍人物,共同探討中國商業的新趨勢和潛力。作為已經舉辦了十二屆的商業盛會,WISE大會在時代變遷中持續見證著中國商業的堅韌與活力。
2024年,是一個充滿變化與挑戰的年份。與前十年相比,商業環境變得更加復雜,企業發展步伐放緩,更加注重穩健和理性。同時,這一年也是尋找新經濟動力的重要時期,產業變革對各個主體的適應能力提出了更高要求。今年,WISE大會以“Hard But Right Thing(正確的事)”為主題,引發了與會者對當前商業環境下何為正確路徑的深入思考和交流。
在大會的眾多精彩演講中,「后摩智能」副總裁倪曉林的分享尤為引人注目。他圍繞AI與NPU的發展,探討了邊端側AI算力需求的變化趨勢,為聽眾帶來了深刻見解。
倪曉林首先介紹了「后摩智能」作為一家基于存算一體的AI芯片公司的背景,并表示作為AI時代的參與者和見證者,深感榮幸。隨后,他詳細闡述了后摩智能對邊端側AI算力需求變化的看法。
他提到,隨著AI 2.0時代的到來,云端模型和端邊側模型都在迅速發展。云端模型不斷增大規模和參數,探索通用智能的邊界;而端邊側則出現了更適合本地部署的模型,如7B、13B、30B等,這些模型更適合應用于各行各業,解決實際問題。端邊側AI具有個性化、低時延、數據隱私保護等優勢,且每年全球新增智能設備數量高達數十億臺,市場前景廣闊。
然而,端邊側AI的發展也面臨著硬件方面的挑戰。倪曉林指出,端側硬件需要滿足“三高三低”的要求,即高算力、高帶寬、高精度、低功耗、低延時、低成本。CPU無法滿足全部需求,而GPU雖然能滿足部分要求,但其高成本和高功耗限制了端側設備的普及。因此,專為本地大模型設計的NPU更適合邊端側使用。
針對邊端設備對AI高帶寬、低功耗的需求,傳統的馮·諾伊曼架構已經難以應對。倪曉林表示,存儲墻和功耗墻是當前企業面臨的兩大難題。為了突破這兩大難題,后摩智能采用了存算一體的全新架構,實現了存儲單元和計算單元的高度集成,大幅降低了功耗,增加了帶寬。
后摩智能已經自研了兩代存算一體芯片架構,并針對LLM類大模型進行了專項設計。其自研的IPU架構提供了高并行的浮點和整型算力,配套的軟件工具鏈簡單易用,兼容通用編程語言。后摩智能還推出了后摩鴻途??H30和后摩漫界??M30兩款NPU芯片,充分展現了存算一體架構在算力和功耗方面的優勢。
為了方便AI設備方案商及生產商快速部署,后摩智能不僅提供芯片,還提供多種標準化產品形態,如力謀??LM30智能加速卡和力謀??SM30計算模組等。這些產品可以讓現有各類終端設備通過標準接口加裝NPU,實現本地AI大模型的流暢運行。
倪曉林表示,隨著AI技術的不斷發展,越來越多的設備將成為AI大模型使能設備,如AI PC、汽車AI座艙、AI TV等。這些設備將成為更懂用戶、更聰明、更高效的助理、秘書、司機等,為用戶提供各種服務。后摩智能希望通過其AI芯片助力各行業實現快速升級。
倪曉林還透露,后摩智能將在2025年推出基于新一代“天璇”架構的最新款芯片,性能將再次大幅提升。這款芯片有望進一步加速端邊設備部署大模型的進程。
在演講的最后,倪曉林表示,他相信未來十年將是AI大模型的時代,NPU將重塑所有端邊場景和設備。他期待與在座的AI企業和生態合作伙伴攜手合作,共同推動現有設備以及未來新型設備流暢運行AI大模型,共創AI新時代。