伴隨著5G、大數據、人工智能、物聯網等技術的飛速發展,各行各業的業務場景日益復雜,數據呈現出大規模、多樣性的特點,特別是非結構化數據呈現出爆發式的增長態勢。企業對數據庫技術的需求不再局限于結構化的OLTP數據交易,而是需要進一步擴展到對多樣化數據進行實時處理的場景。傳統的數據湖在事務一致性及實時處理方面有所欠缺,而數據倉庫也無法應對高并發、多數據類型的處理,因此,支持事務一致性、提供高并發實時處理及分析能力的湖倉一體架構應運而生。湖倉一體架構在成本、靈活性、統一數據存儲、多元數據分析等多方面具備優勢,正逐步轉化為下一代數據管理系統的核心競爭力。
湖倉一體是一種新型的開放式架構,打通了數據倉庫和數據湖,將數據倉庫的高性能及管理能力與數據湖的靈活性融合了起來,底層支持多種數據類型并存,能實現數據間的相互共享,上層可以通過統一封裝的接口進行訪問,可同時支持實時查詢和分析,為企業進行數據治理帶來了更多的便利性。湖倉一體可在數據入湖后原地進行數據處理與分析,能有效避免數據冗余及流動導致的算力、網絡及成本開銷,可以作為超大型ODS存儲貼源數據,實現全量數據的實時處理。
湖倉一體架構在數據管理中主要具有以下幾大關鍵特征:
一是支持分析多種類型數據。湖倉一體架構可為多應用程序提供數據的入庫、轉換、分析和訪問。數據類型包括結構化與非結構化類型,如文本、圖像、視頻、音頻等,以及半結構化數據,如JSON等。
二是數據可治理,避免產生數據沼澤。湖倉一體架構可以支持各類數據模型的實現和轉變,支持DW模式架構,例如星型模型、雪花模型等,可保證數據的完整性,同時具有健全的治理和審計機制,能夠避免數據沼澤現象的出現。
三是事務支持。在企業中,數據庫往往要為業務系統提供并發的數據讀取和寫入。湖倉一體架構對事務ACID的支持,可確保并發訪問,尤其是SQL訪問模式下的數據一致性、正確性。
四是BI支持。湖倉一體支持直接在源數據上使用BI工具,這樣可以提高分析效率,降低數據延時。另外,相比于在數據湖和數據倉庫中分別操作兩個副本的方式,湖倉一體更具成本優勢。
五是存算分離。湖倉一體采用存算分離架構,可使系統能夠擴展到更大規模的并發能力和數據容量,能滿足新時代對于分布式數據架構的要求。
六是開放性。湖倉一體采用開放、標準化的存儲格式(例如行存、列存、塊存),能提供豐富的API支持。因此,各種工具和引擎(包括機器學習和Python/R庫)可以高效地對數據進行直接訪問。
從落地性來看,湖倉一體技術架構落地目前有三種方式:
第一個融合方向是基于Hadoop體系的數據湖向數據倉庫能力擴展,湖中建倉,從數據湖進化到湖倉一體。湖倉一體結合了數據湖和數據倉庫特點,直接在用于數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。目前主要有Netflix等開源企業在探索此技術路線。
第二個是基于自身云平臺或第三方對象存儲(如OSS、S3、Ceph等),基于Hadoop或自研技術進行湖倉一體能力的搭建。探索此技術路線的通常是各大云廠商,如AWS、阿里云、華為云等。
第三個融合方向是以數據庫技術為基礎,自研分布式平臺,從調度、計算到存儲不依賴第三方平臺,形成可以靈活在公有云、私有云、裸金屬等場景獨立部署使用的能力。技術方向上更注重于實時高并發場景及非結構化數據數據治理,并逐步向更廣泛的分析場景發展,主要廠商以Snowflakes、Databricks、巨杉數據庫等為代表。
三個技術方向均是廠商依托自身技術優勢進行的架構融合,均有自身優劣勢及技術特性,能夠滿足不同場景下的客戶需求。
同時,本報告指出了湖倉一體架構未來的發展趨勢:一是隨著企業對海量大數據的實時處理需求越來越迫切,湖倉一體架構將成為越來越多用戶的主流選擇,助力各行各業數字化轉型;二是以人為軸的數據開發和優化,將越來越難以滿足企業實際需求,屆時人工智能技術將介入數據庫的自動調優、自動整理過程,助力提升湖倉一體架構的智能化。
在報告的最后,賽迪顧問對用戶和廠商提出了一些發展建議。對用戶而言,要重視專業化服務能力和成功案例的可移植性,選擇適合自身情況的數據管理產品。對廠商而言,要重視研發投入,加快產品與新興技術融合,同時不斷提高專業化服務水平,重視實施與交付能力的提升。