報告編委
愛分析
黃勇 合伙人&首席分析師
張揚 合伙人&首席分析師
洪逸群 高級分析師
任理 分析師
中國信通院云大所
魏凱 中國信通院云計算與大數據研究所副所長
序言
數字化時代,數據使用場景呈現多元化趨勢,數據規模也隨之爆發式增長。海量異構數據的爆發式增長,對數據庫的存儲和計算能力提出了更高的要求。分析型數據庫因其在處理海量實時數據時具有優秀的存算和管理能力,近年來贏得了市場的青睞。
分析型數據庫最早的定義是指從分散的數據源中抽取、清理和匯集各類結構化數據,形成面向特定分析主題的、相對穩定且能反映歷史變化的數據集合,并通過OLAP(聯機分析處理引擎)來對這些數據進行分析,即通常意義的數據倉庫。其中OLAP數據庫概念最早由關系型數據庫之父E.F.Codd于1993年首次提出,他認為用戶的決策分析需要對關系型數據庫進行大量計算才能得到結果,OLTP(聯機事務處理)已經不能滿足終端用戶對數據庫查詢分析的需要,因此,E.F.Codd提出了多維數據庫和多維分析的概念。OLAP數據庫的提出引起了很大的反響,OLAP數據庫作為一類產品同OLTP數據庫明顯區分開來。
在此后近30年的演進中,分析型數據庫先后出現了共享存儲架構數倉、大規模并行處理(MPP)架構數據倉庫以及數據湖等技術架構。近年來,隨著企業數據分析需求的不斷提升,具有流批一體和存算分離,能通過元數據層在數據湖上實現數據管理功能的智能湖倉受到了更多關注,分析型數據庫迎來新階段—智能湖倉。伴隨企業數字化轉型戰略深入推進,分析型數據庫內涵也在不斷擴展,我們認為當下的分析型數據庫是指為應對企業管理、業務、數據分析師、數據科學家等人員對數據的各類分析和應用需求而提供的各類數據存儲和計算引擎,包括傳統數據倉庫、云數據倉庫、數據湖等,以及目前正在興起的智能湖倉。
后疫情時代背景下,分析型數據庫在更多業務場景中實現了更廣泛的應用,如流調溯源、時空分析等,分析型數據庫市場也迎來了爆發式增長。近些年國內分析型數據庫創業公司日益涌現,產業資本不斷涌入,獲得融資的公司數量及額度均大幅增長。據公開資料統計,2013-2021年,主打數據分析場景的數據庫企業成立數量為11家,占總數據庫企業總成立數量的24%,融資次數共計約40余次,融資總額約近50億元人民幣。競爭激烈的市場,哪些公司具有真正潛力;當前火熱的市場是否只是一場泡沫;“智能湖倉”階段后,分析型數據庫又將向哪個方向發展,本報告將進行一一梳理和詳細解答。
魏凱
中國信通院云計算與大數據研究所副所長
前言:為什么要研究分析型數據庫
隨著數據成為驅動社會與經濟發展的核心生產要素,作為關鍵數字基礎設施的數據庫,其技術趨勢和市場格局正在經歷劇烈的變化。
一方面,數據規模的迅速膨脹,以及大量創新性的數據分析和應用場景的出現,對分析型數據庫的存儲和計算能力也提出了更復雜的要求。
另一方面,為應對新的趨勢,國內外傳統數據庫廠商、新銳數據庫廠商和公有云廠商等各類廠商近年來紛紛加大對分析型數據庫的投入和布局,它們或推出了新一代的智能湖倉產品,或對傳統的數據倉庫、數據湖進行了重大升級。
變化也意味著機遇,為了挖掘出該領域具備潛力的代表性公司,本報告將詳細梳理分析型數據庫的發展歷程和技術演進趨勢,重點闡明中國分析型數據庫市場的價值和發展空間,建立分析型數據庫廠商的評估模型,并對重點公司的產品技術、研發能力、商業模式、行業落地情況進行分析。
一、分析型數據庫的定義與發展歷程
分析型數據庫的誕生
分析型數據庫最早是從交易型數據庫衍生而來。在數據庫誕生和發展的早期,其應用場景主要是對數據進行統一的存儲、管理和訪問,因此用戶需要數據庫能夠實現對數據的增改刪操作,也即聯機事務處理(OLTP),此類數據庫被稱為交易型數據庫(也稱事務型數據庫)。隨著用戶的需求從查看單個交易數據逐漸衍生出對交易數據的匯總、對比等分析需求,數據倉庫在1980年代開始出現。一直到1993年,關系型數據庫之父 Edgar F. Codd正式提出聯機分析處理(OLAP)的概念后,分析型數據庫的概念也由此正式誕生。
分析型數據庫的定義及其延伸
分析型數據庫最早的定義的是指從分散的數據源中抽取、清理和匯集各類結構化數據,形成面向特定分析主題的、相對穩定且能反映歷史變化的數據集合,并通過OLAP引擎來對這些數據進行分析,也即通常所說的數據倉庫。
隨著企業數據分析需求的不斷變化,以及技術的持續演進,分析型數據庫的定義和內涵也在不斷延伸。我們認為,當下的分析型數據數據庫是指為應對企業管理、業務、數據分析師、數據科學家等人員對數據的各類分析和應用需求而提供的各類數據存儲和計算引擎,包括了傳統的數據倉庫、數據湖,以及目前正在興起的智能湖倉。
分析型數據庫的發展歷程
分析型數據庫已經經歷了數十年的發展,期間伴隨了多個關鍵概念的提出,以及眾多廠商推出的重要產品,這些事件成了串聯分析型數據庫發展歷程的關鍵節點,也大致勾勒出了分析型數據庫的演進趨勢。
圖1: 國內外分析型數據庫發展歷程重要節點
2. 分析型數據庫的技術演進趨勢及其驅動因素
分析型數據庫誕生至今,已經經歷了共享存儲架構數據倉庫、MPP數據倉庫、數據湖三代的發展,目前正在往第四代智能湖倉方向演進。在這一發展歷程中,驅動分析型數據庫代際演進的因素主要包括了應用場景、數據以及計算環境三個層面不斷發生的變化,也由此造成幾代分析型數據庫在技術架構、功能和性能層面的根本差異。
表1:分析型數據庫的代際演進
第一代分析型數據庫——共享存儲架構數據倉庫
基于數據庫的共享存儲架構數據倉庫是分析型數據庫最早的形態,其可以追溯到誕生于1970年代末到1980年代初的Oracle、DB2。在該階段,企業的數據分析的應用場景較單一,主要是面向管理層提供若干固定報表。數據類型為結構化數據,數據量也相對有限。
技術架構層面,對于該階段的數據分析需求,企業通常是建設一套用于分析查詢的歷史數據庫來匯集不同事務型數據庫的原始數據。
功能層面,共享存儲架構數倉具備很強的穩定性,支持各類SQL標準,以及ACID特性(即數據庫的原子性、一致性、隔離性、持久性)。
性能層面,由于共享存儲架構數倉的計算節點能夠訪問任意的存儲節點,其需要配備專有物理硬件,其性能優化良好。但共享存儲架構的缺點是可擴展性較差,一般擴展到十幾個節點就會遇到瓶頸,因此當數據量達到千萬、億級別時,數據的計算就會出現延時。
第二代分析型數據庫——MPP數據倉庫
最早的MPP(大規模并行處理)數據倉庫是Teradata于1984年推出的基于專有硬件的無共享架構MPP數倉,后來也出現了基于x86通用服務器的MPP數倉Greenplum、Vertica。在該階段,企業數據分析的應用場景已經從面向少數管理人員提供固定報表,轉變為面向業務人員提供更廣泛的批處理報告、BI和可視化,以支持業務決策。與此同時,企業需要處理的數據類型依舊是結構化數據,但數據量出現了快速增長,達到了GB或TB級。
技術架構層面,為了應對上述的數據分析需求,專用于OLAP的分析型數據庫從事務型數據庫中分離出來,形成了沿用至今的數據倉庫。數據倉庫的設計是為了支持快速的數據查詢和數據分析任務,其技術架構是建立了一套數據流,通過預先定義Schema的方式,將事務型數據庫中的結構化數據經過ETL操作,形成“表”結構的數據寫入數據倉庫中。與此同時,數據倉庫在數據組織方式上開始普遍使用列存儲取代交易型數據庫的行存儲,由于列存儲具備自動索引、減少總I/O、利于數據壓縮等優勢,數據倉庫因此得以極大地提升其查詢性能。
圖2:數據倉庫架構
功能層面,由于MPP數倉底層的數據依舊由事務型數據庫提供,并且經過長時間的發展,其SQL標準,以及ACID特性的穩定性和可靠性變得更高。但MPP數倉僅能處理結構化數據,無法處理半結構化和非結構化數據。
性能層面,MPP數倉采用無共享存儲架構,各計算節點都有獨立的存儲節點,因此并行處理和擴展能力更好,能夠滿足大數據量(GB或TB級)下的高并發、高性能需求,并且其可擴展性相比共享存儲架構有了較大提升。但當集群擴展到數百節點時,MPP數倉依然會出現性能瓶頸,擴容成本同樣不菲。
第三代分析型數據庫——數據湖
以Hadoop為代表的數據湖出現在2005年之后。在該階段,由于互聯網的興起,企業需要處理的數據呈現出多類型、大規模的特點。一方面,數據類型除了包含大量結構化數據,為包含了各類半結構化數據(如CSV、XML、日志)、非結構化數據(如文檔、圖片、音頻、視頻)。另一方面,數據量從GB或TB級進一步提升至 TB或PB級。與此同時,企業的數據分析的應用場景已經變得更加豐富,除了傳統的數據查詢、固定報表,也出現了大量面向業務監測和洞察的自助式分析,并且出現了一定的實時性數據分析場景。
技術架構層面,為了承載對大量結構化、半結構化、非結構化數據的存儲與處理,Hadoop體系使用HDFS做數據存儲,可以靈活地以低成本存儲任意類型的原始數據,使用Mapreduce、Spark等引擎做大數據計算。隨著Hive、SparkSQL等大數據組件的出現,企業可以基于Hadoop實現數據倉庫(SQL-on-Hadoop)的功能,即將數據湖的數據經過ETL到數據倉庫,以支持BI等應用。與此同時,Storm、Flink等流處理引擎,也能夠一定程度滿足企業實時數據處理的需求。盡管2015年后,云服務商提供的對象存儲如AWS S3大量取代私有部署的HDFS,存儲成本降低很多,但基于數據湖的大數據架構基本沒有改變。
圖3:數據湖架構
功能層面,由于數據湖中各種類型數據都是按原樣存儲,采用分析時寫入Schema(schema-on-read)的模式,因此數據湖的SQL 標準、ACID特性支持較差,其數據版本控制和索引功能也不足,并且Hive本身不支持單條記錄的修改,這些原因導致數據湖難以取代MPP數倉對結構化數據的處理能力。
性能層面,SQL-on-Hadoop在軟件上實現了存儲節點和計算節點的互相獨立,可以分別獨立擴展,因此其節點可以擴展至數千規模。由于實踐中,企業部署Hadoop主要還是基于物理機,在硬件層面,其計算與存儲資源仍然是綁定的。
第四代分析型數據——智能湖倉
當前企業數據分析與應用需求的變化趨勢
在解析第四代分析型數據庫在技術架構、功能和性能層面的特征之前,我們需要首先了解近年來數據分析的應用場景、數據以及計算環境等方面發生的重大變化趨勢,以及現有的分析型數據庫在應對這些變化時的主要缺陷。
首先,企業數據分析的應用場景變得更加廣泛。數據正在成為業務創新的核心,基于數據分析,企業可以預測客戶行為、提供個性化的客戶體驗、預測市場趨勢、制定業務戰略等,從而提高企業的競爭力。與此同時,數據分析門檻的降低使得企業內部越來越多的業務人員成為數據消費者,并向“人人都是分析師”的方向演進。
在這樣的背景下,企業內部的數據分析與應用數量急劇增長,除了傳統基于結構化數據的BI應用,實時數據處理與分析的需求在快速增加。與此同時,大量的創新性的AI/ML應用層出不窮。根據愛分析預測,頭部企業潛在AI/ML應用場景數量最多可達到5000到10000例,中長尾企業的AI/ML應用場景數量可達到100到1000例。
圖4:企業潛在AI/ML應用場景數量
測算邏輯: 場景指人工智能技術能夠應用的最小單點應用,如點餐APP智能推薦,潛在應用場景通過(企業內部系統數)*(每個系統中可以應用人工智能替換人工操作或規則模型數量)進行估算
表2:重點行業典型數據智能創新應用場景
其次,企業的總數據量以及實時數據正在以前所未有的速度爆發式增長。隨著互聯網的深入發展,以及云、5G等基礎設施的成熟和興起,大規模的應用程序、移動設備、邊緣設備的聯網導致數據規模激增,大量企業需要處理數據量將達到PB級,甚至更高。根據IDC的數據,到2025年全球數據總量將達到175ZB,而其中有超過25%為實時數據。
圖5:2025年全球數據總量及構成
最后,企業業務和分析系統上云正在加速。隨著企業的業務系統、分析系統在往云端逐步遷移,其數據分析系統也因此在云端進行部署,以充分利云的可擴展性和相關技術資源。根據IDC的數據,到2025年全球49%的數據將存儲在公有云中。盡管國內市場由于政策監管、企業接受度等原因,國內企業上云步伐不如國外激進,但長期而言,這一趨勢不會改變。
傳統分析型數據庫應對當前需求的主要缺陷
在實踐中,大量企業還在使用傳統的數據倉庫和基于數據湖的大數據解決方案,并且很多企業內部有多套數據系統并行,滿足不同的數據分析需求。但由于諸多原因,這些解決方案通常存在以下主要的缺陷:
存儲計算資源難以彈性擴展,制約了大數據量下數據分析的性能和速度。無論是MPP數倉還是本地部署的Hadoop大數據解決方案,其存儲和計算資源都是耦合的。這種設計通常會導致存儲資源冗余而計算資源不足,擴展成本高,并且節點擴展會存在上限。面對大數據集,企業可能需要花費數小時或者更長時間來查詢數據,從而限制了大數據分析的性能和速度。
缺乏優化的性價比,資源消耗大、成本高。一方面,在數據湖加數倉的兩層架構中,數據會首先被ETL到數據湖中,之后再被ETL到數倉中,這會在系統中引入額外的復雜性,不僅需要付出大量的ETL作業成本,并且將數據從數據湖復制到數倉中也會需要支付兩倍的存儲成本。另一方面,由于數倉使用的是專有數據格式,將這些數據或工作負載遷移到其他系統也會產生額外的成本。
對人工智能和機器學習等高級分析的支持不足。當前流行的TensorFlow、PyTorch和XGBoost等機器學習系統很難在現有分析型數據庫之上高效運行,因為這些系統從數倉或數據湖中讀取大型的數據集時需要寫非常復雜的非SQL代碼,并且數據湖本身缺少數倉豐富的數據管理能力,如ACID特性、數據索引、數據版本控制等,進一步加大了讀取數據的難度。
系統架構復雜,穩定性差,管理和維護成本高。企業在過往多年的發展中,由于技術能力、資源、制度流程等多種因素的限制,采取了很多臨時的數據方案。一方面,企業會在原有數倉和大數據系統中,根據需求不斷做升級、打補丁。另一方面,由于數據倉庫和數據湖都存在各自的不足,為了滿足不同的數據處理與分析需求,企業經常會建立獨立的系統來處理數據,例如單獨建立的數倉、數據湖、流數據處理平臺等。這些因素導致企業實際的數據系統架構非常復雜,技術債務累計,系統的管理和維護成本非常高。
圖6:典型多套系統并行的企業數據平臺
第四代分析型數據庫“智能湖倉”的誕生
通過分析近年來數據分析的應用場景、數據以及計算環境等方面發生的變化,以及現有的分析型數據庫在應對這些變化時的主要缺陷,我們認為,下一代的分析型數據庫必然會朝著增強分析性能、提升易用性、降低使用成本的方向發展。
在這樣的技術趨勢下,Databricks于2016年推出Delta Lake,旨在在數據湖上支持類似DBMS的數據管理功能,而隨著Databricks于2020年率先在業內提出LakeHouse的概念,智能湖倉由此開始興起。
在國外市場,Snowflake推出了數據云產品,在其云上數據倉庫的基礎上增加了數據湖的功能。亞馬遜云科技基于Amazon S3 構建數據湖,繞湖集成數據倉庫、大數據處理、日志分析、機器學習數據服務實現智能湖倉。在國內市場,公有云廠商如華為云、阿里云,新銳數據庫廠商如滴普科技也于近年推出智能湖倉產品,并收獲了一批行業頭部客戶。
圖7:智能湖倉架構
智能湖倉在技術架構、功能和性能層面主要具備以下主要特征:
通過元數據層在數據湖上實現數據管理功能。智能湖倉使用標準文件格式(如Parquet)將數據存儲在對象存儲中,并在對象存儲上構建元數據層,從而在元數據層實現諸如ACID事務處理、版本控制等數據管理功能,使得多種計算引擎可以共享統一的數據存儲。同時,通過對緩存、輔助數據結構(如索引、統計信息)和數據布局進行優化,智能湖倉也具備了良好的SQL性能。
流批一體,簡化系統架構。智能湖倉可以實現批處理與流處理的統一,通過CDC(Change Data Capture)將業務系統數據實時抽取到數據湖,實時加工后傳輸至OLAP系統中對外服務,實現端到端過程的分鐘級時延。與此同時,系統架構得到簡化,大幅降低了系統維護以及數據開發工作的難度。
云原生、存算分離。基于云原生架構,智能湖倉存儲和計算資源得到有效分離,企業可以基于需求靈活地對存儲和計算資源進行分別擴展,且擴展需求幾乎沒有限制,從而實現對大規模數據查詢與分析的高性能,并顯著降低TCO(Total Cost of Ownership)。
3. 中國分析型數據庫市場規模
中國分析型數據庫市場發展的驅動因素
近期因素:企業數據處理與分析需求升級
分析型數據庫市場發展的近期驅動因素是企業的數據處理與分析需求的升級。面對新的數據處理與分析需求,企業原先的數據系統存在諸多限制,因此需要對分析型數據庫的功能也進行相應升級,這些需求包括:
超大規模結構化數據的查詢:滿足對百萬甚至千萬級表單數據查詢的的高性能;
實時數據處理:滿足大規模實時數據處理的需求;AI/ML應用:提供大規模AI/ML應用開發的數據讀取和相關功能支持;統一存儲與分倉隔離:解決數據孤島問題,并針對不同業務需求進行數倉建設;現有系統架構運維復雜:現有數據平臺多個系統并行,管理和運維成本高。
受產業特性、行業和企業發展階段,企業數字化程度等因素影響,國內企業在實踐中對上述因素的需求程度存在較大差異。對此,我們對多個行業企業的相關需求進行了調研,發現金融、能源、先進制造、零售等行業企業目前存在多個顯著的數據處理與分析需求升級因素。
圖8:重點行業數據處理與分析需求升級因素
遠期因素:分析型數據庫全面迭代
企業對分析型數據庫的功能升級需求,近期內會存在沿用傳統的數據倉庫或數據湖進行功能升級,以及采用全新智能湖倉兩種路徑。長期來看,我們認為,未來的企業都會是高度數字化的,在需要處理的數據規模以及數據分析場景廣泛性方面也都會趨于統一,企業都需要構建統一數據存儲與計算底座,而傳統的分析型數據庫由于自身的種種局限性,將會逐漸被智能湖倉取代,企業將完成分析型數據庫的全面迭代。
圖9:未來企業的數據平臺架構
中國分析型數據庫市場規模與增速
分析型數據庫包括了數據倉庫、數據湖以及智能湖倉,因此,分析型數據庫的市場規模為這三者的市場規模之和。
根據IDC的數據,2021年,中國數據倉庫市場規模為87.1億元人民幣,大數據平臺軟件市場規模為162.8億元。其中,IDC定義的大數據平臺的存儲計算引擎包含了數據湖和智能湖倉兩類。因此,可以認為2021年中國分析型數據庫的市場規模為當年數據倉庫與大數據平臺市場規模之和,為249.9億元。
同時,根據IDC的預測數據,到2024年,中國數據倉庫市場規模為168.5億元,中國大數據平臺軟件市場規模為352.9億元。綜上數據,預計2024年,中國分析型數據庫市場規模將達到521.4億元,復合增長率CAGR為27.7%。
智能湖倉在未來將逐步替代傳統的數據倉庫和數據湖,其潛在可觸達的市場即為整個分析型數據庫的市場。作為下一代分析型數據庫,智能湖倉能夠直接在數據湖的低成本存儲上實現類似數據倉庫的數據結構和數據管理功能,從而兼具了傳統數據倉庫與數據湖的數據存儲與計算能力,在功能、性能、成本等方面具備顯著優勢。因此,我們認為長期來看,隨著企業數據量的進一步增長,分析場景的更加豐富,智能湖倉將逐步替代傳統的數據倉庫和數據湖,其潛在可觸達的市場規模即為數據倉庫與大數據平臺軟件的市場規模之和。
圖10:中國分析型數據庫市場規模及增速
測算邏輯補充:
1、數據倉庫和大數據平臺軟件市場規模數據都包含了本地部署和云端部署兩種模式。
2、大數據平臺軟件還包括了數據開發、數據資產管理、平臺監控管理等運營管理工具。由于數據湖或智能湖倉廠商通常也會提供這些軟件服務,因此可以認為大數據平臺軟件市場規模屬于這類廠商能夠觸達的市場規模。
4.分析型數據庫廠商關鍵競爭要素
分析型數據庫市場參與者眾多,為了更準確地判斷市場格局,理解主要廠商的競爭優勢,我們從五個維度梳理了分析型數據庫廠商關鍵競爭要素,包括:廠商背景、自研能力、技術架構、商業模式、行業落地。
廠商背景:團隊背景和產品定位
廠商背景能夠反映廠商在相關領域的底蘊、研發實力、發展策略等,主要關注成立時間、團隊背景、產品定位等信息。
廠商成立的時間較早一般意味著其在數據庫市場有較深厚的積累,這類廠商有著較高的市場知名度,產品通常成熟穩定,服務的客戶數量也較多,而近年來新成立的廠商通常在產品技術層面有較大創新,能夠滿足企業快速變化的數據處理需求。
團隊背景反映的是廠商在數據庫產品方面的技術積累和研發經驗,頭部數據庫廠商的核心團隊成員通常來自國內外老牌數據庫大廠、公有云廠商,或者頂尖院校。
產品定位則反映廠商在分析型數據庫領域產品能力、服務客群、服務范圍等。
技術架構:技術路線和場景適用能力
廠商的分析型數據庫產品采用不同的技術架構,代表了其技術路線和場景適用能力的不同。目前市場上主流廠商提供的分析型數據庫包括了前文所述的第二代到第四代,即MPP數據倉庫,數據湖(基于Hadoop生態)以及智能湖倉。
表3:不同技術架構分析型數據庫關鍵指標
自研能力:完善功能、提高穩定性、保障安全性
自研能力較強的廠商能夠掌握分析型數據庫的核心代碼,從而在數據庫的功能迭代和管理運維方面提供原廠級服務,具備較強的競爭優勢。廠商掌握核心代碼可以從源頭解決軟件的核心問題,一方面,廠商因此可以主導產品的功能迭代,并針對不同客戶的個性化需求做定制化功能;另一方面,廠商可以在網絡存儲計算資源、安全管控等方面做更深的優化,提供原廠級的數據庫管理運維工具,以提升數據庫的性能,并使得數據庫具備更高的穩定性和安全性。
分析型數據庫廠商的自研能力包含兩種方式,即自研數據庫內核或基于開源技術做源碼級改造并回饋開源社區。自研數據庫內核的在數據倉庫廠商中較常見,但國內外主流數據湖和智能湖倉廠商通常都是基于開源技術做二次開發。例如,智能湖倉廠商主要基于Netflix開源的Iceberg或Uber開源的Hudi做商業化版本產品,典型廠商產品如基于Iceberg的滴普FastData、基于Hudi的華為MRS、基于Flink+Iceberg的網易Arctic平臺等。盡管DataBricks目前已經開源了其Delta Lake,但DataBricks之外,市場上暫無主流的相關商業化版本產品。
圖11:分析型數據庫廠商自研方式、目標與價值
基于開源技術做二次開發,廠商能持續給開源社區做貢獻,并在開源社區的具備較高技術影響力是關鍵。廠商對源代碼的更改如果不被主流社區接納,其產品技術與存在與主流社區脫節,產品穩定性不足的風險。
因此,對于分析型數據庫廠商,尤其是智能湖倉廠商,我們應重點關注其與開源社區的聯系緊密度,以其在開源社區的技術影響力,只有廠商對開源技術的二次開發能持續回饋到主流社區,在主流社區建立較領先的地位,并可以一定程度上影響開源社區的技術發展路徑,才可以被認為具備較強的自研能力。
商業模式:提供數據平臺全棧產品和服務
商業模式層面,國外廠商以提供數據庫產品為主,而在國內市場,由于企業的數字基礎建設整體上較落后,企業通常需要廠商提供出數據庫產品之外,搭建數據平臺所需的工具組件,以及相關實施和咨詢服務。
國內廠商依據不同分類,其商業模式也有相應差異。傳統的數據庫廠商通常只為企業提供數據庫產品,以及數據庫運維工具和部署服務;大數據解決方案提供商,包括數據湖或智能湖倉廠商除了提供數據庫產品,通常也會提供包括數據開發、數據治理、數據資產管理等搭建數據平臺所需的工具組件,以及針對數據平臺搭建的實施和咨詢服務。這其中,廠商間的主要差異在于,各廠商的數據平臺相關的工具組件數量和功能完善度存在一定區別,受限于服務過的客戶范圍和經驗積累,其實施和咨詢服務的效率和體驗也存在優劣之分。
我們建議重點關注能夠提供完善數據平臺全棧產品,以及實施和咨詢服務經驗豐富的廠商,這類廠商通常能滿足更多類型的客戶需求,獲得更多的市場份額。此外,公有云廠商在商業模式也存在一定特殊性,這類廠商雖然也能提供數據平臺相關的產品、實施和咨詢服務,但其側重點在于為企業提供云端部署的標準化數據庫產品,且其通常會將數據庫產品與自家云基礎設施服務綁定銷售,定制化服務通常只面向行業大客戶。
圖12:分析型數據庫廠商典型商業模式
行業落地:在行業領域的經驗積累
分析型數據庫在行業的落地情況反映的是廠商的產品技術能力得到行業客戶的驗證程度,以及在行業領域的經驗積累情況。不同行業企業由于其所需處理數據量、數據類型、分析場景存在差異,其對分析型數據庫的功能、性能、成本等方面的要求也各有不同。例如金融、能源等行業頭部企業通常都有著PB級超大規模的數據,需要數據庫具備千萬級單表查詢的高性能,對數據的實時處理能力要求也很高,因此,分析型數據庫廠商如果能獲得較多金融、能源行業頭部客戶的使用,意味著廠商在超大規模數據的計算查詢、實時數據處理層面具備很好的性能表現,且數據庫產品穩定性較高;而零售行業企業存在大量探索性的分析場景,且對數據存儲與處理的成本較敏感,因此,廠商如果積累了較多零售行業企業,則說明其在零售領域有較深的行業理解,能滿足這類企業個性化的分析場景的需求,且產品具備較高的性價比。
5.分析型數據庫市場競爭格局
分析型數據庫市場參與者眾多。在幾十年的發展歷程中,分析型數據庫已經經歷過四代演進,傳統數據庫廠商通過不斷迭代產品滿足用戶需求,依然是該市場中的主要參與者。近年來,隨著數據成為企業最重要的生產要素,企業對數據存儲與處理變得更加復雜,國內外市場中涌現出了一批新銳的數據庫廠商,他們在產品設計上采用了最新一代湖倉一體的的架構設計,而各大公有云廠商也推出了面向多種應用場景的分析型數據庫產品。
圖13:國內外分析型數據庫市場代表廠商
注:部分最近幾年新成立的數據庫廠商,主推傳統MPP數倉或數據湖產品,同樣歸為傳統數據庫廠商。
由于公司底蘊,技術路線等原因,不同類型廠商在產品技術能力、商業模式、客戶積累等方面存在諸多差異,因此具備相應的優勢與不足。
傳統數據庫廠商
傳統數據庫廠商包含兩類,一類主要提供傳統的MPP數倉,另一類主要提供基于Hadoop生態的數據湖服務。這類廠商很多都有著悠久的歷史,甚至伴隨著幾代數據庫的發展至今,如Oracle、Teradata等。
優勢
穩定性和安全性高。成立時間較久的傳統數據庫廠商,其產品經過長期的打磨迭代,已經得到大量客戶的使用和驗證,因此其通常具備很高的穩定性和安全性。例如,Cloudera基于Hadoop生態先后推出了大數據平臺CDH和CDP,尤其目前的發行版產品CDP在計算引擎、多種分析功能、管理工具、資源調度等方面都做了大量深度優化,并且Cloudera在全球有700多名研發工程師,能保證用戶獲得穩定的使用體驗。同時,借助共享數據體驗技術(SDX)、CDP 中的安全和治理功能,CDP能夠實現不同云上企業數據安全、隱私和合規的一致性。
客戶基礎好。在分析型數據庫開始興起的早期,一些傳統數據庫廠商憑借領先的產品和技術,完善的管理工具和服務,占據了大量市場份額,并一致延續到現在。以Oracle為例,在國內市場,大量金融、電信等行業企業至今還在使用基于Oracle數據庫構建的數據倉庫。而在國外市場,大部分世界500強,以及更多中小型企業也是Oracle的用戶。隨著分析型數據庫的技術發展,Oracle也不斷與時俱進,推出了云數倉產品Oracle ADW,從而滿足更多客戶的需求。
不足:
技術架構傳統。傳統數據庫廠商通常都是沿用原先的技術架構,針對新的功能需求做技術升級和大補丁,由此會造成系統架構越來越復雜,管理和運維成本高。同樣以Cloudera CDP為例,盡管最新版的CDP已經在混合云和多云部署、存算分離、多功能分析做更多的支持,但CDP依然沿用了Hadoop生態體系的技術,目前CDP中已經包含了多達39個開源項目,涵蓋存儲、計算、流處理、編排、SQL、NoSQL等多種組件,這樣的系統架構非常復雜,管理維護成本高。同時,這種傳統架構對一些新的功能支持不足,例如,不支持數據庫之上提供完整的數據鏈路等。
新銳數據庫廠商
優勢
技術架構先進、滿足多種分析場景。新銳數據庫廠商在技術架構上很多采用了全新一代的設計,包括了湖倉一體、流批一體、云原生等,并且對存儲計算引擎做了大量優化,能夠以低成本、高性能滿足企業的多種分析需求。 以滴普科技為例,其智能湖倉產品FastData底層采用了統一的數據存儲,通過統一技術元數據層實現完善的數據管理能力,并對接各類分析引擎,滿足企業對多模數據統一存儲與處理,以及批處理、流式計算、交互式分析、機器學習等各類分析需求。同時,FastData采用流批一體架構,能夠實現PB級數據秒級實時分析。
不足
客戶接受度有待提升。新銳數據庫廠商在產品技術層面具備領先優勢,但企業用戶對新一代的分析型數據庫的接受度還有較大提升空間。一方面,大中型企業通常數字化程度較高,它們在傳統的數倉、數據湖建設上已經有了較大投入,其數據平臺中已經有了大量的業務應用和ETL任務,直接遷移的工作量和成本非常高。因此,目前企業通常都是出現大量新的數據存儲和處理需求的時候,才會引入智能湖倉。另一方面,區別于國外企業對于上云的激進步伐,國內企業整體上上云步伐較慢,很多企業目前還是采用本地部署的模式,難以發揮云原生帶來的敏捷、彈性、低成本等多種優勢。
公有云廠商
優勢
產品類型豐富、滿足多種應用場景。公有云廠商通常會提供多種類型的分析型的數據庫,滿足企業各類分析需求。以阿里云為例,其分析型數據庫產品包括云原生數據倉庫AnalyticDB MySQL版、AnalyticDB PostgreSQL版,實時數倉Hologres、大數據計算服務MaxCompute、基于Hadoop的大數據平臺 E-MapReduce,智能湖倉Data Lake Formation。
不足
銷售綁定云服務,缺少中立性。公有云廠商在IaaS、PaaS和SaaS層提供了豐富的產品和服務,其在銷售數據庫產品時,通常會綁定其IaaS層的存儲、計算資源、以及相關的運維服務,這會降低企業的選擇范圍,增加使用成本。
服務能力不足。公有云廠商的業務重點是在云端為企業用戶提供標準化的產品,而國內大量企業目前還傾向使用私有化部署的模式,應對這類需求,公有云廠商通常會與生態合作伙伴合作,將實時部署服務外包,缺乏原廠服務會造成項目質量參差不齊。此外,對于部分企業的定制化功能需求,公有云廠商通常也難以滿足。
分析型數據庫典型產品分類
重點關注國內提供新一代分析型數據庫的廠商。一方面,由于廠商底蘊、定位等方面的不同,國內外很多廠商會提供多種類型的分析型數據庫產品,我們認為新一代架構的分析型數據庫產品智能湖倉在處理大規模數據,支持多種分析場景方面具備領先的優勢,未來將會逐步成為分析型數據庫市場的主流。另一方面,由于信創政策的影響,國內企業,尤其是金融、電信、能源等國有企業在應對未來分析型數據庫升級需求時,基本都會選擇國內廠商的相關產品。
圖14:國內外分析型數據庫典型產品分類
6.國內代表廠商分析
南大通用GBase
南大通用自2004年成立以來,專注于數據庫軟件的自主創新,保持產品核心技術和底層代碼自主可控,旗下分析型數據庫和交易型數據庫產品完全依靠自研,2014 年通過引進 Informix 數據庫源代碼推出了高端事務型數據庫,逐步形成全技術棧的數據庫產品和服務。
圖15:南大通用GBase8a發展大事記
技術架構層面,南大通用核心產品GBase 系列數據庫隨著客戶需求場景的更迭,發展出多種架構來支持不同的業務需求。其中面向數據分析市場的,主要是分析型數據管理系統GBase 8a和統一數據平臺GBase UP。GBase 8a以大規模并行處理、列存儲,高壓縮和智能索引技術為基礎,具有滿足各個數據密集型行業日益提高的數據分析、數據挖掘、數據備份和即席查詢等需求的能力。最新的超大規模集群版本GBase 8a MPP Cluster單個集群支持部署 300 個以上的數據節點,整套集群可處理 15PB 以上數據。
GBase UP是融合自有MPP 數據庫、事務型數據庫和開源Hadoop生態系統的大數據平臺產品,兼顧大規模分布式并行計算、穩定高效的事務處理,以及Hadoop的多種結構化與非結構化數據處理技術,能夠適應OLAP、OLTP和NOSQL三種計算模型的業務場景。
商業模式層面,南大通用通過構筑產品上下游生態體系提升市場競爭力,將自身數據庫產品與國內云平臺、操作系統、處理器、中間件等進行深度適配,改進產品并且創新商業模式,推出適應行業的銷售策略。截至目前,南大通用GBase系列數據庫已與國內主要廠商的上千款軟硬件產品完成兼容適配認證,并持續加強與集成商、云廠商、軟件開發商以及開源社區的生態合作,深化產品結合與優化。
GBase 8a已經在金融、電信、能源等行業服務超過2000家企業,主要包括中國移動、中國聯通、中國電信、銀監會、公安部、安全部、工信部、國稅總局、國家海洋局、中國石油等重要部門和大型國央企,部署節點超過25000個,管理超過200PB數據。
滴普科技FastData
滴普科技成立于2018年,是國內領先數據智能產品及服務提供商,其核心產品云原生數據智能平臺FastData,包含核心實時湖倉引擎DLink,旨在為企業建立湖倉一體和流批一體的分析型數據庫。公司研發人員占比85%以上,核心成員是來自華為、阿里、AWS、IBM、Oracle等頭部廠商多年的數據庫產品技術專家。
技術架構層面,FastData對底層各個技術棧進行了統一,從而實現湖倉一體與流批一體。FastData 在數據存儲中采用統一的數據存儲格式,通過統一元數據層兼容 Hive Meta Store 接口,可實現 Flink、Trino、Hive 等常用大數據分析、計算引擎的無縫接入和良好的互操作性,并且使用統一的 SQL 編輯器支持各主流的 SQL 類操作。同時,FastData 基于 Iceberg、Flink 和 Trino 引擎做了大量技術優化,用一套架構實現數據的采集、轉換、存儲和分析的實時能力(分鐘級)。
圖16:滴普科技FastData DLink架構
自研能力層面,滴普科技與開源社區聯系緊密,其在客戶服務過程中結合客戶的實際場景和需求,在元數據管理、數據存儲格式和數據分析性能上做了大量工作,例如,滴普科技聯合Iceberg社區在索引和維表等技術之上做了增強和優化,大幅提升了數據查詢性能;在統一元數據之后,滴普科技在 Trino 和 Flink 之上構建了統一的 ANSI SQL 層,提供了一致的使用體驗,進一步提升易用性。滴普科技將這些Flink、Iceberg、Trino 等開源組件上的優化和新特性逐步回饋開源社區,在開源社區具有較高的活躍度和影響力。
商業模式層面,滴普科技在數據庫產品之外也為企業提供數據平臺全棧產品以及相關服務。FastData能為企業全棧數據運營管理能力,包括提供完善的數據治理體系和數據資源盤點工具;通過開發、發布、運維的全鏈條管道管理,實現諸如清洗、統計 、歸檔等各類ELT任務的高效開發和智能運維;提供數據資產管理工具對數據資產進行可視化管理、加工及服務,通過指標/標簽/模型等元素實現對企業業務場景的數據化,并提供數據資產的編制和運營能力等。與此同時,滴普科技也為客戶提供實施和咨詢服務,為企業提供高質量和具備性價比的原廠服務,并能滿足客戶的定制化開發需求。
滴普科技在精益制造、商業流通、生物醫藥、金融科技、能源雙碳等領域服務過100多家頭部客戶,包括百麗國際、新華聯、九洲電器、科倫藥業、百果園、OPPO、VIVO等,并與深圳市龍華區、佛山市順德區、攀枝花東區等政府單位合作。滴普科技FastData 能夠很好地滿足不同行業企業對分析型數據庫的需求。例如,在零售行業,FastData 的湖倉一體能力可以很好地支持探索式分析和自助分析,幫助企業實現數據驅動的管理和業務創新;針對先進制造、半導體等行業面臨海量數據的快速去重問題,FastData 可以滿足高并發、低延遲的PB級數據處理需求。
華為云MRS
華為云MRS是華為云于2020年推出的原生數據湖服務,是華為云大數據云服務產品FusionInsight的存儲計算引擎。華為云FusionInsight專注于為政企客戶構建企業級數據湖提供完整的數據存儲、計算、運營管理產品和解決方案服務。
技術架構方面,MRS云原生數據湖是湖倉一體、云原生的數據湖解決方案,主要是基于云原生的存算分離架構部署大數據環境,并對離線、實時、邏輯三種數據湖構建了統一的底層架構。在數據處理層面,引入Hudi簡化數據入湖鏈路、采用增量處理框架,實現數據增量更新、T+0實時入湖;加強了自研的HetuEngine數據虛擬化引擎進行跨源跨域統一SQL訪問,實現不同專題數據之間進行聯合分析;以及將Clickhouse用于自助式OLAP分析。
MRS在不足在于其全套方案是通過集成華為內部產品(如GaussDB數據庫)和第三方廠商產品(如永洪BI工具)來覆蓋數據基礎設施和大數據處理流程各個階段的能力,不同產品組件的連接和統一管理方面的功能不夠完善。
圖17:華為云MRS架構
自研能力方面,FusionInsight保持開放路線,先后在開源社區貢獻CarbonData和openLooKeng等大數據組件,在Hadoop社區貢獻達到Top2、Spark社區貢獻達到Top4。
客戶服務層面,MRS的客戶基礎覆蓋全球60+國家和地區、3000+政企客戶,目前聚焦在政府、金融、運營商、大企業等行業,在IDC發布的中國大數據平臺市場份額評估中連續三年排名第一。
結語:國內分析型數據庫廠商的機遇
隨著國內企業數字化轉型的加速推進,分析型數據庫市場有望迎來重大機遇。在近期,金融、先進制造、能源、零售等行業領先企業由于其數據量大、分析場景更多樣、實時性要求高等因素會率先對分析型數據庫功能進行更新升級。在遠期,大部分企業都將會是高度數字化的,它們的主要業務都由數據驅動,因此需要采用新一代的數據存儲與計算引擎,方便滿足更多樣化分析需求,并且具備高性能、低成本等特征。
正是由于上述因素的推動,分析型數據庫經歷了四代的持續演進,并在技術架構、功能和性能方面不斷進化。我們認為,傳統的分析型數據庫包括數據倉庫、數據湖在當下依然能滿足一些企業的部分需求,并且它們也依然會在市場中存在較長的時間,但作為下一代分析型數據庫智能湖倉由于其具備的諸多優勢,必然會逐漸成為大部分企業的核心數據底座。
在這一趨勢下,國內數據庫市場也有望借助智能湖倉的興起實現彎道超車,誕生出數據庫領域的頭部公司,改變在交易型數據庫為主的時代,數據庫市場被國外巨頭把持的局面。而為了實現這個目標,就需要國內的數據庫廠商積極擁抱分析型數據庫的發展趨勢,并持續在技術研發上做大量投入,抓住行業發展機遇。