日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

(圖片來源:海洛)

文/Renee

編輯/孫越

2023年,算力正被ChatGPT推上數字時代的寶座。

在今年第十七屆中國IDC產業年度大典上,各路大佬們都在圍繞“算力”,展開自己的暢想:

(何寶宏演講內容 圖源:IDC產業年度大典演講PPT)

中國信通院云計算與大數據研究所所長何寶宏表示,數字世界消耗最核心的能源是算力,算力是今天的“三次能源”。

稱算力是“三次能源”,一是因為算力是通過各種芯片、軟件等數字技術,從二次能源電力加工轉換而來;二是因為,算力與電力一樣有著舉足輕重的地位:電力網絡是一個國家工業化的基礎,算力網絡是一個國家數字化的基礎。

各路大佬除了對算力提出暢想,也給出了實際規劃路線:在大會上,商湯科技、鵬博士大數據、浩云長盛、超聚變、竹間智能等業內專業人士表示,未來數據中心將分化成兩種類型:追求極致算力的數據中心與產業賦能型的數據中心。

據介紹,追求極致算力的數據中心旨在提供最大的計算能力,以滿足越來越龐大的AI模型的訓練需求。這類數據中心主要關注計算能力和效率,目標是實現極高的性能和運算速度,通常會采用最先進的硬件設備,如高性能處理器、GPU和高速內存。

“極致”二字,全然顯示著,算力正成為“緊俏貨”,需要快馬加鞭去布局。這,也是目前的現狀:除了“東數西算”工程的啟動,國家以及科技企業正加緊對液冷、水下數據中心、量子計算的實踐與探索,企圖補上算力的“窟窿”。

而當前,最熱門的解決方案,莫過于“存算一體”。

存算一體(Computing in Memory),就是在存儲器中嵌入計算能力,以新的運算架構進行二維和三維矩陣乘法/加法運算。與以往的馮諾依曼架構相比,其打破了由于計算單元與存儲單元過于獨立而導致的“存儲墻”,能夠達到用更低功耗實現更高算力的效果。

自2022年開始,芯片領域“天降紫微星”,存算一體實打實地火了:

學界,ISSCC上存算/近存算相關的文章數量迅速增加:從20年的6篇上漲到23年的19篇;其中數字存內計算,從21年被首次提出后,22年迅速增加到4篇。

產界,巨頭紛紛布局存算一體,國內陸陸續也有近十幾家初創公司押注該架構:

在特斯拉2023 Investor Day預告片末尾,特斯拉的do#xad;jo超算中心和存算一體芯片相繼亮相;

在更早之前,三星、阿里達摩院包括AMD也早早布局并推出相關產品,且“用過的都說好”:

阿里達摩院表示,相比傳統CPU計算系統,存算一體芯片的性能提升10倍以上,能效提升超過300倍;

三星表示,與僅配備HBM的GPU加速器相比,配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。

目前,國內的億鑄科技、知存科技、蘋芯科技、九天睿芯等十余家初創公司采用存算一體架構投注于AI算力,其中億鑄科技專注AI大算力。

同時,我們可以看到,各個初創公司選擇了不同的存儲介質:RRAM、SRAM、閃存等,且各家公司芯片適用的場景也有所區別。

本文,偲睿洞察將梳理國內外已經入場的科技企業,試圖描繪一幅存算一體全景圖。

01存算一體的“兄弟姐妹”

一時間,學術界、產業界紛紛向存算一體拋去橄欖枝,而大家所青睞的存算一體,大不相同。

學術界和產業界對存算一體的技術路徑尚未形成統一的分類,目前主流的劃分方法是依照計算單元與存儲單元的距離,將其大致分為近存計算(PNM)、存內處理(PIM)、存內計算(CIM)

近存計算(PNM)

近存計算,本質上仍是存算分離架構,計算操作仍由位于存儲外部、獨立的計算單元完成。只不過,該構架能夠通過存儲上移或計算的方式,讓數據靠近計算單元,從而縮小數據移動的延遲和功耗。

特斯拉、阿里達摩院、三星等大廠所選擇的,便是近存計算

據Dojo項目負責人Ganesh Venkataramanan介紹,特斯拉Dojo(AI訓練計算機)所用的D1芯片相比于業內其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節省5倍。

具體來說,在D1訓練模塊方面,每個D1訓練模塊由5x5的D1芯片陣列排布而成,以二維Mesh結構互連。片上跨內核SRAM達到驚人的11GB,由于用上近存計算架構,能效比為0.6TFLOPS/W@BF16/CFP8。業內人士表示,對于CPU架構來說,這一能效比非常不錯。

阿里達摩院在2021年發布采用混合鍵合(Hybrid Bonding)的3D堆疊技術——將計算芯片和存儲芯片face-to-face地用特定金屬材質和工藝進行互聯。在實際推薦系統應用中,相比傳統CPU計算系統,存算一體芯片的性能提升10倍以上,能效提升超過300倍

三星基于存內處理架構,發布存儲器產品HBM-PIM(嚴格意義上是PNM)。三星表示該架構實現了更高性能與更低能耗:與其他沒有HBM-PIM芯片的GPU加速器相比,HBM-PIM芯片將AMD GPU加速卡的性能提高了一倍,能耗平均降低了約50%。與僅配備HBM的GPU加速器相比,配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。

存內處理(PIM)

存內處理,本質上同樣是存算分離,不過相較于近存計算,“存”與“算”距離更近:獨立的計算單元內嵌于存儲芯片,同樣也是各干各的。

國內知存科技選擇的便是存內處理:2022年3月,知存科技量產的基于PIM的SoC芯片WTM2101正式投入市場。距今未滿1年,WTM2101已成功在端側實現商用,提供語音、視頻等AI處理方案并幫助產品實現10倍以上的能效提升。

存內計算(CIM)

存內計算,才是真正的、狹義的存算一體。在該框架下,存儲單元和計算單元完全融合,沒有獨立的計算單元:直接在存儲器顆粒上嵌入算法,由存儲器芯片內部的存儲單元完成計算操作。

這,也就是國內大部分初創公司所說的存算一體:

億鑄科技,基于CIM框架、RRAM存儲介質的研發“全數字存算一體”大算力芯片,通過減少數據搬運提高運算能效比,同時利用數字存算一體方法保證運算精度,適用于云端AI推理和邊緣計算。智芯科微,于2022年底推出業界首款基于SRAM CIM的邊緣側AI增強圖像處理器。

并且存內計算,正一步步提高聲量:在ISSCC 2023的34個session中,有3個session的標題都直接用到存內計算。

可以看到,大公司與初創公司“自覺”分為兩個陣營:特斯拉、三星、阿里巴巴等擁有豐富生態的大廠以及英特爾,IBM等傳統的芯片大廠,幾乎都在布局PNM;而知存科技、億鑄科技、智芯科等初創公司,在押注PIM、CIM等“存”與“算”更親密的存算一體技術路線。

綜合生態大廠思量的是,如何快速攻破算力和功耗的瓶頸,讓自己豐富的應用場景快速落地;芯片大廠們針對客戶所提出的高效算力和低功耗需求,開發出符合客戶需求的技術。

也就是說,大廠對存算一體架構提出的需求是“實用、落地快”,而近存計算作為最接近工程落地的技術,成為大廠們的首選。

而中國初創公司們,由于成立時間較短、技術儲備薄弱:缺乏先進2.5D和3D封裝產能和技術,為打破美國的科技壟斷,中國初創企業聚焦的是無需考慮先進制程技術的CIM。

02“新老”器件,硝煙四起

從目前發展路徑來看,存算一體芯片正處于多種存儲介質百花齊放的格局,存算一體架構正承載著多種存儲介質:

傳統存儲器陣營,易失性存儲器包括SRAM、DRAM、非易失性存儲器包括NAND、NOR等,新型存儲器包括RRAM、MRAM等。同時,不同介質使用的應用場景也大不相同。

目前,在傳統存儲器陣營中,SRAM、DRAM、NOR Flash出現的頻次更高。

SRAM

一種靜態隨機存儲器,原理是利用晶體管是否接通來代表一個bit是1還是0,有著以下特性:

基于速度快、成熟度高、密度難以突破的特性,SRAM一直廣受歡迎:

在學術領域,SRAM憑借其高成熟度和高存取速度成為存算一體領域里的熱門研究對象;

在市場應用方面,SRAM作為傳統存儲介質適合IP化,SRAM存算一體在中小算力、端側、對待機功耗無要求的場景,例如可穿戴設備、無人車等市場具有一定的應用價值:

九天睿芯,基于神經擬態感存算一體架構的芯片已實現量產,應用于智能語音和視覺識別領域。

蘋芯科技,開發實現多款基于SRAM的存內計算加速單元并實現流片,目前處于外部測試和demo階段,產品應用于圖像識別、無人機等領域。

DRAM

一種動態隨機存取存儲器,原理是利用電容內存儲電荷的多寡來代表一個bit是1還是0。該存儲器有著以下特性:

基于容量大、成本低、功耗大等特性,DRAM常用于更注重容量的主存儲器,如計算機、智能手機、服務器內存等。

NOR Flash

一種非易失閃存技術,利用存儲單元的多值特性,通過器件本征的物理電氣行為(例如基爾霍夫定律與歐姆定律)來實現多值MAC 運算。該存儲器有著以下特性:

基于低功耗、容量小等特性,NOR FLASH更適用于車載攝像頭、激光雷達等應用場景:

(Flash 在汽車電子中的應用容量與領域 圖源:財信證券)

而在新型存儲器中,RRAM、MRAM、PCM活躍度更高。

RRAM(ReRAM)

一種以非導性材料的電阻在外加電場作用下,在高阻態和低阻態之間實現可逆轉換為基礎的非易失性存儲器。該存儲器有著以下特性:

目前,RRAM工藝正一步步成熟:在2021年,晶圓代工廠臺積電現身,為RRAM站臺:宣布40nmRRAM進入量產,28nm和22nmRRAM準備量產。

國內同樣傳來利好消息:2022年2月,昕原半導體主導建設的RRAM 12寸中試生產線順利完成了自主研發裝備的裝機驗收工作,實現中試線工藝流程的通線,并成功流片(試生產)。

在工藝漸趨成熟背景下,基于兼容性高、微縮性好等特性,RRAM更適用于以下場景:

云端AI推理和邊緣計算。億鑄科技基于RRAM研發的“全數字存算一體”大算力芯片,通過減少數據搬運提高運算能效比,同時利用數字存算一體方法保證運算精度,適用于云端AI推理和邊緣計算。智能汽車。據云岫資本表示,RRAM不僅滿足高讀寫速度和存儲密度的要求,同時延遲可降低1000倍,可滿足未來智能駕駛高實時數據吞吐量。安全性方面,RRAM具備寬溫和可靠性。未來有望出現高性能、高集成度、高穩定性和低功耗的車規RRAM存儲器。AI數據中心。RRAM相較NAND可提升100倍的讀寫性能,同時保持更低的功耗和高存儲密度,有望解決未來數據中心高能效比,低延遲的需求,實現更高性能的AI數據中心。GPT-4等大模型。RRAM基于高密度存儲,工藝兼容帶來的性能優勢,能夠實現更低功耗、更高性能,緩解目前的算力壓力。MRAM

是一種基于隧穿磁阻效應的技術。該技術的工作原理是使用隧道層的“巨磁阻效應”來讀取位單元,當該層兩側的磁性方向一致時為低電阻,當磁性方向相反時,電阻會變得很高。該存儲器有以下特性:

基于耐久性高、低功耗等特性,MRAM有以下合適的應用領域:

適用于消耗大量計算資源的神經網絡計算。智能電表等長時間、龐大數據量的應用場景,它能滿足對高耐久性和快速寫入速度的需求。PCM

PCM的原理是通過改變溫度,讓相變材料在低電阻結晶(導電)狀態與高電阻非結晶(非導電)狀態間轉換。該存儲器有以下特性:

基于抗輻射性好但成本、良率低等特性,根據我國擁有PCM相變存儲器生產能力的集成電路IDM企業時代全芯官網顯示,PCM有以下應用領域:

人工智能運算;PCM為基礎的TCAM具有占地面積小,功耗低的優點。AIOT;將智能存儲器應用與IoT的傳感器上,可以有效的分擔傳感器對網絡和云計算的負荷,從而進一步拓展物聯網的功能。

綜合來講,存儲介質各有各的優點,也各有各的“舒適圈”:

“新老”器件全面開花,皆有自己擅長的領域,但對于玩家來說,選擇受限:傳統存儲市場已被壟斷。

內存行業,美光、三星和SK Hynix在高性能存儲領域市占率達100%;高性能計算領域,英特爾、AMD和英偉達的市場占有率也接近100%。高性能芯片代工領域,則被臺積電和三星聯合壟斷。

例如DRAM,因極高的技術和資金壁壘,DRAM領域市場處于高度集中甚至壟斷態勢。目前,DRAM芯片市場是由三星、SK海力士和美光統治:2018至2020年,三大巨頭市場占有率合計在95%左右。

基于此,初創企業正另辟蹊徑:要么基于傳統存儲介質的存算一體制定特定場景的芯片;要么在存算一體架構下,用新型存儲器,打破壟斷。

由上面兩張圖可以看到,僅有選擇新型存儲器RRAM的公司,能夠實現大算力,而其余基于傳統存儲器的基本僅能cover住AIOT、車載模塊等低算力場景。

例如億鑄科技,基于RRAM研發“全數字存算一體”大算力芯片,通過減少數據搬運提高能效比,同時利用數字存算一體保證運算精度,能夠應用于云端AI推理、邊緣計算、數據中心、自動駕駛等大算力場景。

03從2MB的AIOT到512MB的自動駕駛

從上文公司產品應用場景可以看出,存算一體應用廣泛,既能裝在一塊小小的智能門鎖,也能應用于1000+TOPS的數據中心。那么,存算一體到底能cover住多少場景?

綜合市面上已有的報告以及專家觀點,偲睿洞察將應用場景按照算力大小進行劃分:

一是端側小算力場景,例如智能可穿戴設備、智能安防、移動終端、AR\VR等。

二是大算力場景,例如云計算數據中心、自動駕駛、GPT-4等大模型等。

目前,業內對于大算力的“大”界定是模糊的,而根據下游市場的實際需求,大算力起碼是1000TOPS及以上:

以2020年發布的GPT3預訓練語言模型為例,采用的是2020年最先進的英偉達A100 GPU,算力是624 TOPS。2023年,隨著模型預訓練階段模型迭代,又新增訪問階段井噴的需求,未來模型對于芯片算力的需求起碼要破千。

再例如自動駕駛領域,根據財通證券研究所表明,自動駕駛所需單個芯片的算力未來起碼1000+TOPS。目前巨頭已開始卷上1000+TOPS的SoC,主要用于自動駕駛領域:在2021年4月,英偉達就已經發布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達直接推出芯片Thor達到2000TOPS。

目前來看,在存算一體架構下,能夠真正實現大算力的,僅有億鑄科技一家:

而在這兩大類場景之中,存算一體并非都有著絕對性的優勢。針對端側的可穿戴等小設備,由于AI加速能力占比過小,存算一體的優勢并不大:ARM占30%,降噪或ISP占40%,AI加速能力僅占30%。

但云和邊緣大算力場景,是存算一體芯片的優勢領域。這是因為,大算力場景下,對設備提出了高要求:實現高性能、高計算密度、高算力的同時還需實現低功耗。而這,就大部分仰仗于AI能力。據業內人士表示,存算一體在云和邊緣的大算力領域的競爭力影響約占90%。

04未來的路:“第三極”、融合、突破天花板

存算一體正博得學界、產界等各路人馬的青睞,基于現有的技術、發展路徑以及應用場景并結合業內人士觀點,偲睿洞察認為,存算一體將有著以下發展趨勢:

1、隨著AI技術的加速落地,ChatGPT等大模型對算力的大量需求,將為存算一體技術帶來核級推動力。存算一體將成為繼CPU、GPU架構之后的算力架構“第三極”

2、在布局存算一體的玩家之中,有創新精神、強勁研發、工程實力的團隊及公司將脫穎而出。

這是因為,存算一體芯片在設計層面有較高難度,且沒有成熟的方法可供參考:存算一體是計算系統和存儲系統的整合設計,比標準模擬IP和存儲器IP更復雜,依賴于多次存儲器流片而積累的經驗,這就需要創始團隊有充分的存儲器量產經驗和技術路線認知。

根據量子位針對存算一體公司多位高管的多次采訪,綜合來看,團隊需具備以下能力:

1)領導層要有清晰的目標:在存儲器和計算模式、架構的選擇上要有清晰的思路,并且能夠準確、快速地帶領團隊往前走。

2)團隊需具有深厚技術背景的人員,對技術方向有精準把握,尤其是在新型存儲器技術上的探索。

3)在核心研發、工程團隊中,需要在技術的各個層級中配備經驗豐富的人才。

3、與多種先進技術融合,實現系統級創新,從而突破算力天花板

在ISSCC 2023,蘇媽提出系統級創新概念,即從整體設計的上下游多個環節協同設計來完成芯片性能的提升,并給出使用該概念實現數量級的效率提升案例。

也就是說,若是將存算一體、Chiplet(芯粒)、3D封裝等技術同步使用,很有可能帶來數量級的效率提升,從而突破性能瓶頸。

目前,國內已有團隊進行“系統級創新”實踐:作為首發存算一體超異構概念的億鑄科技,提出了自己的技術暢想:

若能把新型憶阻器技術(RRAM)、存算一體架構、芯粒技術(Chiplet)、3D封裝等技術結合,將會實現更大的有效算力、放置更多的參數、實現更高的能效比、更好的軟件兼容性、從而抬高AI大算力芯片的發展天花板。

分享到:
標簽:一文看懂存算一體布局全景圖:初創公司正另辟蹊徑 熱點資訊
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定