近日,中國通信標準化協會大數據技術標準推進委員會(CCSA TC601)牽頭,聯合行業專家共同編制的《湖倉一體技術與產業研究報告(2023)》(下文簡稱“報告”)發布,奇點云(杭州比智科技有限公司)深度參編。
報告聚焦于湖倉一體技術,詳細梳理了數據平臺的發展歷程、數據湖與數據倉庫的特性對比,介紹了湖倉一體的基本能力與實踐路徑,并對湖倉一體未來發展進行了展望與研判。
數據倉庫與數據湖是目前數據平臺領域最常見的兩種架構:
數據倉庫規范性強,可針對結構化數據進行集中式存儲和計算,但對處理日益增長的半結構化、非結構化數據有局限性;
數據湖能靈活支持多種類型數據存取,讀取型(schema on read)的數據分析形式有效提升了分析效率,但一致性、隔離性、數據質量為弱項,常出現因缺乏治理而退化為“數據沼澤”的情況。
可見,面臨不同類型的數據與處理需求,數據倉庫和數據湖各有專攻。而要想綜合二者的優勢,并非“數據倉庫+數據湖”那么簡單。
報告指出,“數據倉庫+數據湖”的混合架構能滿足結構化、半結構化、非結構化數據的高效處理需求,但存在四大弊端:
兩種技術棧都有數據冗余,存儲成本增加;
雙系統間額外的ETL(抽取、轉化、加載)流程導致時效性差;
遷移過程中易出現數據不一致問題,增加數據校驗成本;
兩種技術棧混合部署使得數據架構復雜,平臺開發、運維的難度大,成本高。
“湖+倉”混合架構圖(圖源:CCSA TC601)
“湖倉一體”技術應運而生。它引入了數倉的治理能力,解決數據湖的數據治理難題;同時,融合高效建倉、靈活建湖兩大優勢,提升數據管理效率和靈活性。
依托湖倉一體技術,能讓數據平臺底層支持多數據類型統一存儲,實現數據在湖、倉之間無縫調度和管理,在上層通過統一接口進行訪問查詢和分析。
湖倉一體架構模塊圖(圖源:CCSA TC601)
2021年,奇點云發布了基于DataSimba的湖倉一體技術方案:打通數據倉庫和數據湖兩套技術棧,依托統一的數據云平臺(DataSimba)融合二者優勢,讓數據治理更便利,數據研發更高效,企業能更有性價比地存儲和使用海量數據。
支持結構化、半結構化、非結構化等多數據種類,支持多個計算引擎、存算引擎、數據源及第三方AI算法;
使數據資產更易維護管理、更易挖掘分析,使數據存儲成本降低30%,穩定性提升1倍,運維成本降低40%。
同年,“湖倉一體”首次被Gartner寫入數據管理領域成熟度模型報告。至今,日益增長的數據量和分析需求讓湖倉一體技術仍是熱度不減,備受關注。
為進一步規范湖倉一體數據平臺技術體系,中國信通院云計算與大數據研究所依托中國通信標準化協會大數據技術標準推進委員會 (CCSA TC601),聯合多個電信、金融應用單位及包括奇點云(杭州比智科技有限公司)在內的多家資深企業,共同編制了《湖倉一體數據平臺技術要求》,深度剖析必備技術能力,為選型與實踐提供參考。
湖上建倉or倉外掛湖?
數據集成、湖倉存儲、湖倉計算、湖倉數據治理等五大能力域分別有何要求?
查閱《湖倉一體技術與產業研究報告(2023)》即可了解。
*上文中關于《湖倉一體技術與產業研究報告(2023)》的圖片及觀點來源于CCSA TC601 大數據技術標準推進委員會。