數字化轉型浪潮卷起各種新老概念滿天飛,數據湖、數據倉庫、數據中臺輪番在朋友圈刷屏,有人說“數據中臺算個啥,數據湖才是趨勢”,有人說“再見了數據湖、數據倉庫,數據中臺已成氣候”……
企業還沒推開數字化大門,先被各種概念絆了一腳。那么它們3者究竟有啥區別?別急,先跟大家分享兩個有趣的比喻。
1、圖書館VS地攤
如果把數據倉庫比喻成“圖書館”,那么數據湖就是“地攤”。去圖書館借書(數據),書籍質量有保障,但你得等,等什么?等管理員先查到這本書屬于哪個類目、在哪個架子上,你才能精準拿到自己想要的書;而地攤上沒有人會給你把關,什么書都有,你自己翻找、隨用隨取,流程上比圖書館便捷多了,但大家找書的過程是沒有經驗可復用的,偶爾多拿少拿咱們可能也不知道。
2、升級版銀行
假定數據倉庫、數據湖、數據中臺都是銀行,可以提供現金、黃金等多種服務。過去大家進銀行前都得先問門衛,里面每個門牌上的數字對應哪個服務呢?是現金還是黃金呢?然后推開對應的門把東西取出來。而有了“數據中臺”這個銀行,大家一進來就能看到標著“現金”、“黃金”漢字的窗口,一目了然,你只需要走到窗口前,就有專人幫你辦理。
以上兩個例子不一定全面,但基本能解釋三者的優劣勢。數據倉庫具備規范性,但取數用數流程長;數據湖取數用數更實時、存儲量大,但數據質量難以保障;數據中臺能精準快速地響應業務需求,離業務側最近。
為了更清晰地區別三者,接下來咱們再來看看它們各自的定義以及應用區別:
數據湖、數據倉庫、數據中臺概念淺析
1、數據湖是什么?
數據湖,最早由Pentaho的創始人兼CTO James Dixon提出,維基百科對它的定義是一類存儲數據自然/原始格式的系統或存儲,通常是對象塊或者文件,包括原始系統所產生的原始數據拷貝以及為了各類任務而產生的轉換數據。
簡單來說,數據湖一個大型的基于對象的存儲庫,以數據的原始格式保存數據。它的顯著特點在于,像湖泊一樣沒有固定形態和邊界,能“容納”各種數據,加入數據就擴大,移除數據會縮小,靈活性和包容性很高。
2、數據倉庫是什么?
數據倉庫誕生于1990年,絕對算得上是“老前輩”了,它是一個相對具體的功能概念。目前對數據倉庫的主流定義是位于多個數據庫上的大容量存儲庫,它的作用在于存儲大量的結構化數據,并能進行頻繁和可重復的分析,幫助企業構建商業智能(BI)。
需要注意的是,數據倉庫對數據格式是有要求的,只有符合標準的數據才能入庫哦。
3、數據中臺又是什么?
廣義上理解,數據中臺包含了頂層數據戰略、數據治理體系以及數據管理及運營、數據文化培養和組織架構支撐,是一套持續管理和運營的體系。
狹義上看,數據中臺是通過數據技術,對海量、多源、多樣的數據進行采集、處理、存儲、計算,統一標準和口徑,并以標準形式存儲,形成大數據資產層,以滿足前臺數據分析和應用的需求。
單從定義來看,可以發現數據湖、數據倉庫、數據中臺三者并不是非此即彼的關系,在
數據來源、建設目標、數據應用幾個方面它們存在一定差異。
數據來源、建設目標、數據應用的差異
1、數據來源
數據湖包含原始系統所產生的原始數據拷貝以及為了各類任務而產生的轉換數據,包括來自于關系型數據庫中的結構化數據、半結構化數據、非結構化數據和二進制數據。
數據倉庫則以業務數據庫的結構化數據為主,也就是由二維表結構來邏輯表達和實現的數據。
數據中臺是一套體系,既不是工具又不是存儲,它可以包含數據湖和數據倉庫。
這里做個簡單說明,具備行和列結構的就是結構化數據,比如表格;CSV、日志、XML、JSON屬于半結構化數據;而咱們工作中最常用到的Email、文檔、PDF等,屬于非結構化數據;每天瀏覽的圖像、視頻,聽的音頻都屬于二進制數據。
2、建設目標
數據湖能實現數據的集中式管理,為企業提供全局的、統一的企業級數據概覽視圖,讓人人了解、分析數據,提供自助式探索數據的可能。
數據倉庫則以輸出某個業務主題的BI報表和決策為主,目的性單一。
數據中臺主張打通全域數據孤島,消除數據標準和口徑不一致的問題,釋放業務方數據應用價值。
3、數據應用
數據湖能結合不同的工具做數據處理和分析,不止于輸出報表,也同樣適合數據探索和發現,能夠為企業挖掘新的運營需求。
數據倉庫主要針對管理決策等分析類場景,在其他方面則存在局限性,比如數據建模、數據追蹤與探查、深度挖掘等。
數據中臺通過將數據服務化之后提供給業務系統,在數據應用上不僅限于分析型場景,也適用于交易類場景,比如營銷推薦、風險評估等。
總體來說,數據中臺是加速企業從數據到業務價值的過程的中間層,可以建立在數據倉庫和數據湖之上。
至于企業處于什么階段建數據倉庫、什么階段建數據湖、什么階段建數據中臺,還得看企業現階段的具體情況,比如數據量、數據分析維度及要求、數據應用場景、預算等等,總之只有把工具和需求匹配起來,才能真正解決企業業務訴求。