在 CPU 與加速卡之間,以及加速卡之間形成的芯片互聯技術被更多的采用,雖然 PCIe 有著非常通用的標準化設計,但帶寬有限將會產生瓶頸。以 CXL 和 Gen-Z 為代表的等下一代互聯技術取得快速發展,DPU 作為各種高速互聯協議融合的沙盒,最適合成為靈活的高速互聯載體,通過采用和擴展“以內存為中心”的互聯協議,將帶來在單個機箱外部擴展亞微秒級延遲技術的機會,為下一代計算架構創新創造可能性。
?DPU 發展有望進入快車道。DPU(數據處理芯片 Data Process Unit)被認為是繼 CPU 和 GPU 之后的“第三顆主力芯片”。得益于智能網卡方案的逐步成熟,疊加全球通用服務器出貨量的穩定增長、L3 以上級別智能駕駛汽車的技術落地、工業控制領域的需求增加等原因,全球、國內 DPU 產業都有望實現快速發展。
全球 DPU 市場高景氣延續,國內 DPU 市場加速追趕。據賽迪顧問《??中國DPU行業發展白皮書??》,2020 年全球 DPU 產業市場規模達 30.5 億美元,預計到 2025 年全球 DPU 產業市場規模將超過 245.3 億美元,復合增速達 51.73%。
2020 年中國 DPU 產業市場規模達 3.9 億元,預計到 2025 年中國 DPU 產業市場規模將超過 565.9 億元,復合增速達 170.6%。
DPU 產業鏈分析:
DPU 中游環節(DPU 芯片廠商):海外巨頭暫時領先,國產廠商蓄勢待發。根據頭豹研究院數據,2020 年國內 DPU 市場中,國際三大巨頭英偉達,博通,Intel 份額分別達到 55%、36%、9%。國內廠商中,華為,阿里,百度,騰訊也在近幾年針對自身服務器進行自研與外購 DPU,針對的主要功能在于數據,存儲與安全方面。
DPU 上游環節:EDA、IP 等均為研發重要基礎。國內 EDA 市場長期由國際三大巨頭占據,未來有望迎來突破。供需合力孕育 IP 核產業,未來需求打開新增通道。半導體國產化持續演進,國內 IP 供應商將占據稀缺性價值高地,包括寒武紀、芯原股份等。
DPU 下游應用:多點開花,未來前景廣闊。DPU 核心市場圍繞數據中心展開,以服務器為硬件載體,下游場景覆蓋云計算,高性能計算,網絡安全,邊緣計算等多個領域。從我國范圍看,高新技術、數字化轉型及終端消費等多樣化算力需求場景不斷涌現,算力賦能效應凸顯。
ChatGPT 等 AI 技術發展大趨勢下,算力需求凸顯,DPU 有望迎來黃金發展期,全球、國內 DPU 產業市場規模呈現逐年增長的趨勢,核心企業有望受益于行業發展趨勢。
DPU 有望成為“第三顆主力芯片”
DPU(數據處理芯片 Data Process Unit)被認為是繼 CPU 和 GPU 之后的“第三顆主力芯片”。DPU(Data Processing Unit)是新近發展起來的一種專用處理器。2020 年 NVIDIA 公司發布的 DPU 產品戰略中將其定位為數據中心繼CPU 和 GPU 之后的“第三顆主力芯片”。隨著芯片業制造工藝的不斷精進,以及數字化技術如 AI 的發展,芯片行業不斷推陳出新。DPU 作為新型芯片的一種,它的出現是異構計算的一個階段性標志。
1、算力提升與數據增幅呈現剪刀差,DPU 需求凸顯
DPU 是以數據處理為核心的專用數據處理單元,是對傳統計算資源的網絡、安全和存儲的卸載平臺。傳統數據中心以 CPU 為主要數據處理單元,通常龐大的基礎架構的運行已占據相當一部分 CPU 核,給數據處理任務帶來非常大的挑戰。
DPU 其實在行業內已經孕育已久,從早期的網絡協議處理卸載,到后續的網絡、存儲、虛擬化卸載。
根據摩天輪數據,Amazon 的 AWS 早在 2013 年研發了 Nitro 產品,將數據中心開銷(為虛機提供遠程資源、加密解密、故障跟蹤、安全策略等服務程序)全部放到專用加速器上執行。Nitro 架構采用輕量化 Hypervisor 配合定制化的硬件,將虛擬機的計算(主要是 CPU 和內存)和 I/O(主要是網絡和存儲)子系統分離開來,通過 PCIe 總線連接,節省了 30%的 CPU 資源。
2016-2017 年,阿里云就提出 X-Dragon 系統架構,其核心是 MOC 卡,且有比較豐富的對外接口,也包括了計算資源、存儲資源和網絡資源。MOC 卡的核心 X-Dragon SOC,統一支持網絡,I/O、存儲和外設的虛擬化,為虛擬機、裸金屬、容器云提供統一的資源池。
根據網易、芯東西數據,2019 年,美國一家初創公司 Fungible 推出產品 F1DPU,第一次提出了 DPU 的概念。2020 年 10 月,英偉達將基于 Mellanox 方案的 Smart NIC 命名為 DPU,重新定義了 DPU 的概念。2020 年,英偉達公司發布的 DPU 產品戰略中將其定位為繼 CPU 和 GPU 之后數據中心的“第三顆主力芯片”,掀起了行業熱潮。
2、以降本增效為目標,DPU 直擊行業痛點
DPU 要解決的核心問題是基礎設施的“降本增效”,即將“CPU 處理效率低下、GPU 處理不了”的負載卸載到專用 DPU,提升整個計算系統的效率,降低整體系統的總體擁有成本(TCO)。
CPU 資源負載過大為行業痛點,智能網卡(Smart NIC)為 DPU 前身。在通信領域,伴隨著 5G、云網融合時代的到來,以及虛擬交換等技術的引入,基于服務器的網絡數據平面的復雜性急劇增加。海量的數據搬運工作被 CPU 承擔,導致網絡接口帶寬急劇增加,CPU 資源負載過大,大大影響了 CPU 將計算能力釋放到應用程序中,為了提高主機 CPU 的處理性能,Smart NIC(智能網卡)將部分CPU 的網絡功能(如 IP 分片、TCP 分段等)轉移到網卡硬件中,起到了加速運算的目的,其可視為 DPU 的前身。新一代的 DPU 的優勢在于不僅可以作為運算的加速引擎,還具備控制平面的功能,可以更高效的完成網絡虛擬化、I/O 虛擬化、存儲虛擬化等任務,并徹底將 CPU 的算力釋放給應用程序。
功能方面,DPU 具備集成基礎業務、網絡數據加速、零信任保護、算存分離等多種功能。可有效解決當前 CPU 算力無法完全作用到應用程序,數據處理速度慢,授信導致的數據泄露,存儲方案兼容性差等諸多問題。具體來說:
1.DPU 實現了業務與基礎設施的操作分離。DPU 將基礎設施任務從 CPU 轉移至 DPU,釋放 CPU 的資源,使更多的服務器 CPU 核可用于運行應用程序,完成業務計算,從而提高服務器和數據中心的效率。
2.DPU 卸載網絡數據,實現性能提升。DPU 針對云原生環境進行了優化,提供數據中心級的軟件定義和硬件加速的網絡、存儲、安全和管理等服務。根據程序員客棧數據,紅帽 Red Hat 的容器化云平臺即服務(PaaS)0penShift 上,借助 DPU優化數據中心資源利用率,將網絡相關的數據處理(如 VxLan 和 IPSec 等)卸載到 DPU 加速執行,在 25Gb/s 網絡條件下,Open Shift 部署 DPU 用來加速,可以只用 1/3 的 CPU 占用率來達到 25Gb/s 性能,而在 100Gb/s 網絡條件下,未部署 DPU 的場景將達不到 100Gb/s 網絡線速,DPU 可以帶來 10 倍的性能優勢。
3.DPU 可以提供零信任安全保護,零信任(Zero Trust)是一種以安全性為中心的模型,其基于以下思想︰企業不應對其內外的任何事物授予默認信任選項。零信任可以減少數據泄露、拒絕未授權的訪問,因此在數據安全方面價值很大。
方式:DPU 通過將控制平面由主機下放到了 DPU,來為企業提供零信任保護,實現主機業務和控制平面的完全隔離,數據將無法進行穿透,保證安全性。
DPU 的出現相當于為每個服務器配備了一臺“計算機前的計算機”,以提供獨立、安全的基礎設施服務,并與服務器應用域安全隔離。如果主機遭受入侵,安全控制代理與被入侵主機之間的 DPU 隔離層可防止攻擊擴散至整個數據中心。這樣 DPU就解決了企業不愿直接在計算平臺上部署安全代理的情況。通過在完全隔離于應用程序域的DPU 上部署安全代理,企業不僅能獲得對應用程序工作負載的可見性,還能在其基礎設施中執行一致的安全策略。
4.DPU 助力實現“算存分離”,BlueField SNAP 技術方案通過在服務器系統的數據入口處引入計算資源,在 DPU 上獨立實現面對應用需求的存儲方案,幫助存儲廠商在數據中心中低成本地靈活部署、升級高級存儲協議,而完全不需要對現有軟件棧進行任何更改。存儲廠商可以把自家團隊為各行業應用開發的開放系統的直連式存儲(DAS)、縱向擴展(Scale-up)、橫向擴展(Scale-out)、超融合架構(Hyperconverged)等存儲解決方案,零開銷地推廣到各個應用領域的現有業務處理平臺和數據中心基礎架構中,而所有的安全加密、數據壓縮、負載均衡等復雜又必須的功能則完全由 DPU 透明地卸載。存儲行業的革新算法和實現,可以在 DPU架構中,獨立于服務器操作系統進行部署。DPU 技術幫助存儲廠商實現真正的“算存分離”,完全發揮自家產品的技術優勢,打通最高效服務應用需求的通路。
3、依托智能網卡化繭成蝶,FPGA 及混合架構路線為主流
Smart NIC 可以被看作 DPU 的前身,包含基于多個 CPU 內核的 ASIC 和基于 FPGA 的智能網卡等類型。隨著技術的發展,FPGA、ASIC 和 SoC 也在相互融合,它們之間的界限越來越模糊。例如,隨著 FPGA 的發展,現在很多 FPGA 內部集成了硬核,這種硬核就是傳統意義上的 ASIC;從硬件可編程的角度來看,SoC 與 FPGA 相反,它可以看作 ASIC,這里的 ASIC 主要指硬件不可編程,而不是單指特定功能芯片。
NIC 代表網絡接口卡。實際上,NIC 是一種插入服務器或存儲盒以連接到以太網網絡的 PCIe 卡。基于 DPU 的 Smart NIC 超越了簡單的連接,在基礎 NIC 的情況下,在 NIC 上實現了 CPU 必須執行的網絡流量處理。
基于 DPU 的 Smart NIC 可以是基于 ASIC、FPGA 和 SoC 的。在這些不同的路線之間,在成本、編程的易用性和靈活性方面存在各種權衡。1)ASIC 具有成本效益,可能提供最佳性價比,但靈活性有限。基于 ASIC 的 NIC,如 NVIDIA ConnectX-5,可以具有相對簡單的可編程數據路徑。最終,該功能基于 ASIC 中定義的功能而受到限制,這可能會阻止支持某些工作負載。2)相比之下,FPGA NIC(如 NVIDIA Innova-2 Flex)具有高度可編程性。只要有足夠的時間和精力,就可以在可用門的約束范圍內相對高效地支持幾乎任何功能。然而,眾所周知,FPGA 編程困難且價格昂貴。3)對于更復雜的用例,SOC(如 Mellanox BlueField DPU–可編程智能網卡)提供了似乎是最好的基于 DPU 的 Smart NIC 實現。
4、DPU核心價值在于算力的卸載釋放與擴展,異構算力互聯推動 DPU 多領域高速發展
1.算力卸載:即利用 DPU 集成一部分數據處理的基本功能,然后將這些功能從 CPU 中卸載下來,以提升 CPU 針對部分應用的算力。DPU 的部分價值體現在節省這部分算力的成本-DPU 自身的成本。因此 DPU 節省的算力越多,或 DPU 的成本越低,其帶來的價值越高。與此同時,由于 DPU 的專用化,DPU 將部分涉及網絡、存儲、安全、管理相關的控制功能卸載之后,還將使得業務性能得以提升,因此 DPU 的另一部分價值在于其可為業務節省的時間與使用體驗。
根據技術鄰數據,在大型數據中心的場景之中,DPU 的算力卸載功能可用于減少數據中心稅。由于在數據中心流量處理占了計算 30%的資源,AWS 將這些還未運行業務程序,先接入網絡數據就要占去的計算資源稱為“數據中心稅(Data center Tax)”。
在數據安全場景中,DPU 由于其獨立、安全的架構,可將部分加密、解密算法固化在 DPU硬件之中,以物理隔離的方式解決用戶在海量數據的數據安全問題,為外部網絡業務租戶之間提供額外的安全層。
2. 根據中國信通院數據,算力釋放:算力釋放無需 CPU 介入多次訪問內存和外設,避免不必要的數據搬運,拷貝和上下文的切換,直接在網卡硬件上對數據完成處理并交付給最終消費數據的應用。傳統以 CPU 為中心的計算機體系結構在處理數據的過程中需要多次在內核和應用之間拷貝和訪問數據,帶來的是極大的性能損耗。以數據為中心的 DPU 架構則可以有效改善 CPU 過度參與數據處理的問題,在數據處理的過程中不需要 CPU 參與,直接將數據送達應用、相關的 GPU或者存儲設備,能夠有效避免性能瓶頸和由于 CPU 負載過大而引發的異常。
DPU 架構和技術,使服務器上運行的業務應用和操作系統內核,用簡單的本地存儲訪問 API,就能實現對分布式、超融合或軟件定義存儲系統的高效透明訪問。存儲廠商可以把為各行業應用開發的直連式存儲(DAS)、縱向擴展(Scale-up)、橫向擴展(Scale-out)、超融合架構(Hyperconverged)等存儲解決方案,零開銷地推廣到各個應用領域的現有業務處理平臺和數據中心基礎架構中,而所有的安全加密、數據壓縮、負載均衡等復雜又必須的功能則完全由 DPU 透明地卸載。存儲行業的革新算法和實現,可以在 DPU 架構中,獨立于服務器操作系統進行部署。
DPU 技術幫助存儲廠商實現真正的“算存分離”,完全發揮自家產品的技術優勢,打通最高效服務應用需求的通路。
3.算力擴展:算力擴展即通過有效避免擁塞消除跨節點的網絡通信瓶頸,顯著降低分布式應用任務周期中的通信耗時占比,在大規模的集群維度提升計算集群的整體算力。為了提升算力,業界在多條路徑上持續演進。通用 CPU 已很難繼續通過提升單核單線程的性能和擴展片內多核的方式來大幅提升算力。單核芯片的工藝提升至 3nm 后,發展放緩;通過疊加多核提升算力,隨著核數的增加,單位算力功耗也會顯著增長,當 128 核增至 256 核時,總算力水平無法線性提升。在計算單元的工藝演進已經逼近基線,為了滿足大算力的需求,通過分布式系統,擴大計算集群規模,提升網絡帶寬,降低網絡延遲成為提升數據中心集群算力的主要手段。
5、DPU 帶動異構算力互聯,應用市場涵蓋高新技術產業多領域
異構算力互聯即為 GPU、FPGA、ASIC 或其它加速卡與 CPU 之間的數據連接。在 CPU 與加速卡之間,以及加速卡之間形成的芯片互聯技術被更多的采用,雖然 PCIe 有著非常通用的標準化設計,但帶寬有限將會產生瓶頸。以 CXL 和 Gen-Z 為代表的等下一代互聯技術取得快速發展,DPU 作為各種高速互聯協議融合的沙盒,最適合成為靈活的高速互聯載體,通過采用和擴展“以內存為中心”的互聯協議,將帶來在單個機箱外部擴展亞微秒級延遲技術的機會,為下一代計算架構創新創造可能性。
伴隨信息化建設與應用的而深入,市場持續高漲,DPU 產業在電信、互聯網、智能駕駛、AI 服務器及其他行業應用需求不斷增長。
1)在電信領域,三大運營商均積極布局,推動產品驗證,并提出與產業鏈上的廠商推動 DPU 產業發展的合作意愿。
2)在互聯網領域,隨著云計算、云原生等業務場景的發展需求,DPU 作為數據中心演進的焦點,受到各大云廠商的廣泛關注。頭部廠商紛紛投入資源嘗試自研或者戰略合作,降本增效,實現效益的最大化。
3)在智能駕駛領域,國內外芯片廠商加速布局智能駕駛,不斷提升研發效率,為 DPU 的市場發展奠定基礎。
4)針對 AI 服務器及其他領域層面,在數字經濟和“東數西算”等政策影響下,中國 AI服務器、金融、終端政企及其他領域持續高速發展,對算力的需求不斷增加,傳統的技術已無法滿足當前業務的發展需求,DPU 能夠提供成熟的硬件加速方案,提升整個系統的效率,為 AI 服務器、金融及其他領域的發展提供技術支撐,全面推進DPU 產業未來的發展進程。?