OLAP發展到今天,經過了數據倉庫、數據湖時代,現在是處理湖倉一體化的時代。
從數據處理技術上講,也正處于從ETL到“去ETL”的轉型期。
數據倉庫時期
-
代表技術:
-
關系型數據庫,如SQLServer、Oracle、MySQL、Sybase、PostgreSQL、SQLite、Hbase、MariaDB、TIDB等
-
ETL:ETL是英文Extract-Transform-Load的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。目的是將企業中的分散、零亂、標準不統一的數據整合到一起,為企業的決策提供分析依據。
2.特點:
-
存儲空間受限嚴重
-
原始數據保留較少
-
計算性能瓶頸突出
-
數據分析場景單一
數據湖時期
-
代表技術:
-
MapReduce
-
SQL on Hadoop
-
ETL
2.特點:
-
存儲空間可橫向擴展
-
計算能力可橫向擴展
-
數據處理開發較復雜
-
不支持在線應用場景
湖倉一體時期
湖倉一體很好的解決了前面兩個時期都沒有解決的問題。
從OLAP發展階段,我們會發現其實在2015年都是重依賴ETL的架構。
1.ETL代表性技術:
-
Kettle
-
TOS(Talend Open Studio)
2.特點:
-
速度快
-
在線化,可直接服務于報表、接口、數據采集等高并發場景
-
占用空間小,按列進行數據壓縮
-
“去ETL”,簡單到一切皆SQL
為什么要“去ETL”?
-
ETL開發復雜,ETL工具往往只有很基本的功能,稍復雜的場景就需要二次開發、擴展開發工具。
-
碎片化,不同的ETL工具有不同的開發方式、運行邏輯,相互不能兼容。
-
運維復雜,出了問題先查調度工具,從調度工具顯示的位置,再去查ETL執行包,然后還需要看源代碼,匹配日志,才能定位問題。
-
性能差,上億級的數據,如果在處理過程中,涉及到多個數據級關聯處理,或者說某個數據集的數據需要在一個較大數據集里進行驗證,那性能將非常非常差,幾乎不可用。
去ETL以后是什么?SQL!
簡單便捷
用SQL來處理數據,不需要編譯,直接運行,而且你還可以不需要外部工具,直接在數據庫試運行、測試,不過度依賴開發人員。
靈活性強
SQL是一種非常靈活的語言,可以輕松地操作和處理各種類型的數據。使用SQL可以方便地對數據進行篩選、過濾、組合和變形等操作,從而實現各種復雜的數據轉換。同時,SQL還支持各種數據庫操作,可以方便地對不同類型的數據庫進行數據提取和轉換。
高效且穩定
SQL是一種成熟且穩定的語言,經過多年的發展和優化,已經成為了數據處理領域的重要工具。使用SQL可以大大提高數據處理效率,減少人工干預,降低出錯率。同時,SQL還支持各種優化技術,如索引、視圖和存儲過程等,可以進一步提高數據處理性能。
易于維護和調試
SQL是一種結構化語言,具有良好的可讀性和可維護性。在數據治理過程中,使用SQL可以方便地編寫、修改和維護數據轉換程序,降低了代碼的復雜度和維護成本。同時,SQL還具有良好的調試能力,可以方便地查找和修復錯誤,提高數據處理流程的穩定性和可靠性。
集成度高
SQL是關系型數據庫的標準語言,廣泛應用于各種數據庫系統。在數據處理過程中,使用SQL可以方便地與各種數據庫進行交互,實現數據提取、轉換和加載等操作。同時,SQL還支持各種數據庫連接方式,如ODBC、JDBC和ADO等,可以方便地與各種應用程序進行集成。
SQL學習成本也很低……
基于“去ETL”化的理念,萬山數據推出了湖倉數據治理平臺DG4L。
湖倉數據治理工具DG4L
湖倉數據治理工具DG4L特點:
-
系統部署低門檻,幾乎可以解壓直接運行
-
數據集成低門檻,不管是數據庫,還是接口數據源,均可使用相同的SQL函數實現數據增量同步
-
數據治理任務開發低門檻,所有的數據處理邏輯都通過SQL完成,無需其它編程語言和工具,無需編譯
-
數據分析低門檻,拖拉拽和點選即可完成復雜的數據分析
-
數據治理看得見摸得著
-
億級數據秒出結果
-
一條SQL搞定所有數據加工
-
一條SQL搞定所有數據分析
-
一條SQL搞定所有數據集成
-
一條SQL亦可搞定OT數據
-
在線化,可直接服務于報表、接口、數據采集等高并發場景
-
占用空間小,按列進行數據壓縮
DG4L架構: