(圖片來源:海洛)
文/Renee
編輯/孫越
2023年,算力正被ChatGPT推上數字時代的寶座。
在今年第十七屆中國IDC產業年度大典上,各路大佬們都在圍繞“算力”,展開自己的暢想:
(何寶宏演講內容 圖源:IDC產業年度大典演講PPT)
中國信通院云計算與大數據研究所所長何寶宏表示,數字世界消耗最核心的能源是算力,算力是今天的“三次能源”。
稱算力是“三次能源”,一是因為算力是通過各種芯片、軟件等數字技術,從二次能源電力加工轉換而來;二是因為,算力與電力一樣有著舉足輕重的地位:電力網絡是一個國家工業化的基礎,算力網絡是一個國家數字化的基礎。
各路大佬除了對算力提出暢想,也給出了實際規劃路線:在大會上,商湯科技、鵬博士大數據、浩云長盛、超聚變、竹間智能等業內專業人士表示,未來數據中心將分化成兩種類型:追求極致算力的數據中心與產業賦能型的數據中心。
據介紹,追求極致算力的數據中心旨在提供最大的計算能力,以滿足越來越龐大的AI模型的訓練需求。這類數據中心主要關注計算能力和效率,目標是實現極高的性能和運算速度,通常會采用最先進的硬件設備,如高性能處理器、GPU和高速內存。
“極致”二字,全然顯示著,算力正成為“緊俏貨”,需要快馬加鞭去布局。這,也是目前的現狀:除了“東數西算”工程的啟動,國家以及科技企業正加緊對液冷、水下數據中心、量子計算的實踐與探索,企圖補上算力的“窟窿”。
而當前,最熱門的解決方案,莫過于“存算一體”。
存算一體(Computing in Memory),就是在存儲器中嵌入計算能力,以新的運算架構進行二維和三維矩陣乘法/加法運算。與以往的馮諾依曼架構相比,其打破了由于計算單元與存儲單元過于獨立而導致的“存儲墻”,能夠達到用更低功耗實現更高算力的效果。
自2022年開始,芯片領域“天降紫微星”,存算一體實打實地火了:
學界,ISSCC上存算/近存算相關的文章數量迅速增加:從20年的6篇上漲到23年的19篇;其中數字存內計算,從21年被首次提出后,22年迅速增加到4篇。
產界,巨頭紛紛布局存算一體,國內陸陸續續也有近十幾家初創公司押注該架構:
在特斯拉2023 Investor Day預告片末尾,特斯拉的do#xad;jo超算中心和存算一體芯片相繼亮相;
在更早之前,三星、阿里達摩院包括AMD也早早布局并推出相關產品,且“用過的都說好”:
阿里達摩院表示,相比傳統CPU計算系統,存算一體芯片的性能提升10倍以上,能效提升超過300倍;
三星表示,與僅配備HBM的GPU加速器相比,配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。
目前,國內的億鑄科技、知存科技、蘋芯科技、九天睿芯等十余家初創公司采用存算一體架構投注于AI算力,其中億鑄科技專注AI大算力。
同時,我們可以看到,各個初創公司選擇了不同的存儲介質:RRAM、SRAM、閃存等,且各家公司芯片適用的場景也有所區別。
本文,偲睿洞察將梳理國內外已經入場的科技企業,試圖描繪一幅存算一體全景圖。
01存算一體的“兄弟姐妹”
一時間,學術界、產業界紛紛向存算一體拋去橄欖枝,而大家所青睞的存算一體,大不相同。
學術界和產業界對存算一體的技術路徑尚未形成統一的分類,目前主流的劃分方法是依照計算單元與存儲單元的距離,將其大致分為近存計算(PNM)、存內處理(PIM)、存內計算(CIM)。
近存計算(PNM)
近存計算,本質上仍是存算分離架構,計算操作仍由位于存儲外部、獨立的計算單元完成。只不過,該構架能夠通過存儲上移或計算的方式,讓數據靠近計算單元,從而縮小數據移動的延遲和功耗。
特斯拉、阿里達摩院、三星等大廠所選擇的,便是近存計算。
據Dojo項目負責人Ganesh Venkataramanan介紹,特斯拉Dojo(AI訓練計算機)所用的D1芯片相比于業內其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節省5倍。
具體來說,在D1訓練模塊方面,每個D1訓練模塊由5x5的D1芯片陣列排布而成,以二維Mesh結構互連。片上跨內核SRAM達到驚人的11GB,由于用上近存計算架構,能效比為0.6TFLOPS/W@BF16/CFP8。業內人士表示,對于CPU架構來說,這一能效比非常不錯。
阿里達摩院在2021年發布采用混合鍵合(Hybrid Bonding)的3D堆疊技術——將計算芯片和存儲芯片face-to-face地用特定金屬材質和工藝進行互聯。在實際推薦系統應用中,相比傳統CPU計算系統,存算一體芯片的性能提升10倍以上,能效提升超過300倍。
三星基于存內處理架構,發布存儲器產品HBM-PIM(嚴格意義上是PNM)。三星表示該架構實現了更高性能與更低能耗:與其他沒有HBM-PIM芯片的GPU加速器相比,HBM-PIM芯片將AMD GPU加速卡的性能提高了一倍,能耗平均降低了約50%。與僅配備HBM的GPU加速器相比,配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。
存內處理(PIM)
存內處理,本質上同樣是存算分離,不過相較于近存計算,“存”與“算”距離更近:獨立的計算單元內嵌于存儲芯片,同樣也是各干各的。
國內知存科技選擇的便是存內處理:2022年3月,知存科技量產的基于PIM的SoC芯片WTM2101正式投入市場。距今未滿1年,WTM2101已成功在端側實現商用,提供語音、視頻等AI處理方案并幫助產品實現10倍以上的能效提升。
存內計算(CIM)
存內計算,才是真正的、狹義的存算一體。在該框架下,存儲單元和計算單元完全融合,沒有獨立的計算單元:直接在存儲器顆粒上嵌入算法,由存儲器芯片內部的存儲單元完成計算操作。
這,也就是國內大部分初創公司所說的存算一體:
億鑄科技,基于CIM框架、RRAM存儲介質的研發“全數字存算一體”大算力芯片,通過減少數據搬運提高運算能效比,同時利用數字存算一體方法保證運算精度,適用于云端AI推理和邊緣計算。智芯科微,于2022年底推出業界首款基于SRAM CIM的邊緣側AI增強圖像處理器。
并且存內計算,正一步步提高聲量:在ISSCC 2023的34個session中,有3個session的標題都直接用到存內計算。
可以看到,大公司與初創公司“自覺”分為兩個陣營:特斯拉、三星、阿里巴巴等擁有豐富生態的大廠以及英特爾,IBM等傳統的芯片大廠,幾乎都在布局PNM;而知存科技、億鑄科技、智芯科等初創公司,在押注PIM、CIM等“存”與“算”更親密的存算一體技術路線。
綜合生態大廠思量的是,如何快速攻破算力和功耗的瓶頸,讓自己豐富的應用場景快速落地;芯片大廠們針對客戶所提出的高效算力和低功耗需求,開發出符合客戶需求的技術。
也就是說,大廠對存算一體架構提出的需求是“實用、落地快”,而近存計算作為最接近工程落地的技術,成為大廠們的首選。
而中國初創公司們,由于成立時間較短、技術儲備薄弱:缺乏先進2.5D和3D封裝產能和技術,為打破美國的科技壟斷,中國初創企業聚焦的是無需考慮先進制程技術的CIM。
02“新老”器件,硝煙四起
從目前發展路徑來看,存算一體芯片正處于多種存儲介質百花齊放的格局,存算一體架構正承載著多種存儲介質:
傳統存儲器陣營,易失性存儲器包括SRAM、DRAM、非易失性存儲器包括NAND、NOR等,新型存儲器包括RRAM、MRAM等。同時,不同介質使用的應用場景也大不相同。
目前,在傳統存儲器陣營中,SRAM、DRAM、NOR Flash出現的頻次更高。
SRAM
一種靜態隨機存儲器,原理是利用晶體管是否接通來代表一個bit是1還是0,有著以下特性:
基于速度快、成熟度高、密度難以突破的特性,SRAM一直廣受歡迎:
在學術領域,SRAM憑借其高成熟度和高存取速度成為存算一體領域里的熱門研究對象;
在市場應用方面,SRAM作為傳統存儲介質適合IP化,SRAM存算一體在中小算力、端側、對待機功耗無要求的場景,例如可穿戴設備、無人車等市場具有一定的應用價值:
九天睿芯,基于神經擬態感存算一體架構的芯片已實現量產,應用于智能語音和視覺識別領域。
蘋芯科技,開發實現多款基于SRAM的存內計算加速單元并實現流片,目前處于外部測試和demo階段,產品應用于圖像識別、無人機等領域。
DRAM
一種動態隨機存取存儲器,原理是利用電容內存儲電荷的多寡來代表一個bit是1還是0。該存儲器有著以下特性:
基于容量大、成本低、功耗大等特性,DRAM常用于更注重容量的主存儲器,如計算機、智能手機、服務器內存等。
NOR Flash
一種非易失閃存技術,利用存儲單元的多值特性,通過器件本征的物理電氣行為(例如基爾霍夫定律與歐姆定律)來實現多值MAC 運算。該存儲器有著以下特性:
基于低功耗、容量小等特性,NOR FLASH更適用于車載攝像頭、激光雷達等應用場景:
(Flash 在汽車電子中的應用容量與領域 圖源:財信證券)
而在新型存儲器中,RRAM、MRAM、PCM活躍度更高。
RRAM(ReRAM)
一種以非導性材料的電阻在外加電場作用下,在高阻態和低阻態之間實現可逆轉換為基礎的非易失性存儲器。該存儲器有著以下特性:
目前,RRAM工藝正一步步成熟:在2021年,晶圓代工廠臺積電現身,為RRAM站臺:宣布40nmRRAM進入量產,28nm和22nmRRAM準備量產。
國內同樣傳來利好消息:2022年2月,昕原半導體主導建設的RRAM 12寸中試生產線順利完成了自主研發裝備的裝機驗收工作,實現中試線工藝流程的通線,并成功流片(試生產)。
在工藝漸趨成熟背景下,基于兼容性高、微縮性好等特性,RRAM更適用于以下場景:
云端AI推理和邊緣計算。億鑄科技基于RRAM研發的“全數字存算一體”大算力芯片,通過減少數據搬運提高運算能效比,同時利用數字存算一體方法保證運算精度,適用于云端AI推理和邊緣計算。智能汽車。據云岫資本表示,RRAM不僅滿足高讀寫速度和存儲密度的要求,同時延遲可降低1000倍,可滿足未來智能駕駛高實時數據吞吐量。安全性方面,RRAM具備寬溫和可靠性。未來有望出現高性能、高集成度、高穩定性和低功耗的車規RRAM存儲器。AI數據中心。RRAM相較NAND可提升100倍的讀寫性能,同時保持更低的功耗和高存儲密度,有望解決未來數據中心高能效比,低延遲的需求,實現更高性能的AI數據中心。GPT-4等大模型。RRAM基于高密度存儲,工藝兼容帶來的性能優勢,能夠實現更低功耗、更高性能,緩解目前的算力壓力。MRAM
是一種基于隧穿磁阻效應的技術。該技術的工作原理是使用隧道層的“巨磁阻效應”來讀取位單元,當該層兩側的磁性方向一致時為低電阻,當磁性方向相反時,電阻會變得很高。該存儲器有以下特性:
基于耐久性高、低功耗等特性,MRAM有以下合適的應用領域:
適用于消耗大量計算資源的神經網絡計算。智能電表等長時間、龐大數據量的應用場景,它能滿足對高耐久性和快速寫入速度的需求。PCM
PCM的原理是通過改變溫度,讓相變材料在低電阻結晶(導電)狀態與高電阻非結晶(非導電)狀態間轉換。該存儲器有以下特性:
基于抗輻射性好但成本、良率低等特性,根據我國擁有PCM相變存儲器生產能力的集成電路IDM企業時代全芯官網顯示,PCM有以下應用領域:
人工智能運算;PCM為基礎的TCAM具有占地面積小,功耗低的優點。AIOT;將智能存儲器應用與IoT的傳感器上,可以有效的分擔傳感器對網絡和云計算的負荷,從而進一步拓展物聯網的功能。
綜合來講,存儲介質各有各的優點,也各有各的“舒適圈”:
“新老”器件全面開花,皆有自己擅長的領域,但對于玩家來說,選擇受限:傳統存儲市場已被壟斷。
內存行業,美光、三星和SK Hynix在高性能存儲領域市占率達100%;高性能計算領域,英特爾、AMD和英偉達的市場占有率也接近100%。高性能芯片代工領域,則被臺積電和三星聯合壟斷。
例如DRAM,因極高的技術和資金壁壘,DRAM領域市場處于高度集中甚至壟斷態勢。目前,DRAM芯片市場是由三星、SK海力士和美光統治:2018至2020年,三大巨頭市場占有率合計在95%左右。
基于此,初創企業正另辟蹊徑:要么基于傳統存儲介質的存算一體制定特定場景的芯片;要么在存算一體架構下,用新型存儲器,打破壟斷。
由上面兩張圖可以看到,僅有選擇新型存儲器RRAM的公司,能夠實現大算力,而其余基于傳統存儲器的基本僅能cover住AIOT、車載模塊等低算力場景。
例如億鑄科技,基于RRAM研發“全數字存算一體”大算力芯片,通過減少數據搬運提高能效比,同時利用數字存算一體保證運算精度,能夠應用于云端AI推理、邊緣計算、數據中心、自動駕駛等大算力場景。
03從2MB的AIOT到512MB的自動駕駛
從上文公司產品應用場景可以看出,存算一體應用廣泛,既能裝在一塊小小的智能門鎖,也能應用于1000+TOPS的數據中心。那么,存算一體到底能cover住多少場景?
綜合市面上已有的報告以及專家觀點,偲睿洞察將應用場景按照算力大小進行劃分:
一是端側小算力場景,例如智能可穿戴設備、智能安防、移動終端、AR\VR等。
二是大算力場景,例如云計算數據中心、自動駕駛、GPT-4等大模型等。
目前,業內對于大算力的“大”界定是模糊的,而根據下游市場的實際需求,大算力起碼是1000TOPS及以上:
以2020年發布的GPT3預訓練語言模型為例,采用的是2020年最先進的英偉達A100 GPU,算力是624 TOPS。2023年,隨著模型預訓練階段模型迭代,又新增訪問階段井噴的需求,未來模型對于芯片算力的需求起碼要破千。
再例如自動駕駛領域,根據財通證券研究所表明,自動駕駛所需單個芯片的算力未來起碼1000+TOPS。目前巨頭已開始卷上1000+TOPS的SoC,主要用于自動駕駛領域:在2021年4月,英偉達就已經發布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達直接推出芯片Thor達到2000TOPS。
目前來看,在存算一體架構下,能夠真正實現大算力的,僅有億鑄科技一家:
而在這兩大類場景之中,存算一體并非都有著絕對性的優勢。針對端側的可穿戴等小設備,由于AI加速能力占比過小,存算一體的優勢并不大:ARM占30%,降噪或ISP占40%,AI加速能力僅占30%。
但云和邊緣大算力場景,是存算一體芯片的優勢領域。這是因為,大算力場景下,對設備提出了高要求:實現高性能、高計算密度、高算力的同時還需實現低功耗。而這,就大部分仰仗于AI能力。據業內人士表示,存算一體在云和邊緣的大算力領域的競爭力影響約占90%。
04未來的路:“第三極”、融合、突破天花板
存算一體正博得學界、產界等各路人馬的青睞,基于現有的技術、發展路徑以及應用場景并結合業內人士觀點,偲睿洞察認為,存算一體將有著以下發展趨勢:
1、隨著AI技術的加速落地,ChatGPT等大模型對算力的大量需求,將為存算一體技術帶來核級推動力。存算一體將成為繼CPU、GPU架構之后的算力架構“第三極”。
2、在布局存算一體的玩家之中,有創新精神、強勁研發、工程實力的團隊及公司將脫穎而出。
這是因為,存算一體芯片在設計層面有較高難度,且沒有成熟的方法可供參考:存算一體是計算系統和存儲系統的整合設計,比標準模擬IP和存儲器IP更復雜,依賴于多次存儲器流片而積累的經驗,這就需要創始團隊有充分的存儲器量產經驗和技術路線認知。
根據量子位針對存算一體公司多位高管的多次采訪,綜合來看,團隊需具備以下能力:
1)領導層要有清晰的目標:在存儲器和計算模式、架構的選擇上要有清晰的思路,并且能夠準確、快速地帶領團隊往前走。
2)團隊需具有深厚技術背景的人員,對技術方向有精準把握,尤其是在新型存儲器技術上的探索。
3)在核心研發、工程團隊中,需要在技術的各個層級中配備經驗豐富的人才。
3、與多種先進技術融合,實現系統級創新,從而突破算力天花板。
在ISSCC 2023,蘇媽提出系統級創新概念,即從整體設計的上下游多個環節協同設計來完成芯片性能的提升,并給出使用該概念實現數量級的效率提升案例。
也就是說,若是將存算一體、Chiplet(芯粒)、3D封裝等技術同步使用,很有可能帶來數量級的效率提升,從而突破性能瓶頸。
目前,國內已有團隊進行“系統級創新”實踐:作為首發存算一體超異構概念的億鑄科技,提出了自己的技術暢想:
若能把新型憶阻器技術(RRAM)、存算一體架構、芯粒技術(Chiplet)、3D封裝等技術結合,將會實現更大的有效算力、放置更多的參數、實現更高的能效比、更好的軟件兼容性、從而抬高AI大算力芯片的發展天花板。