Lakehouse湖倉一體成為下一站燈塔,數倉、數據湖架構即將退出群聊
文章總計3326字,閱讀時長約5分鐘。完整總結企業數據架構發展史,深度分享KeenData LakeHouse湖倉一體敏捷數據平臺的應用以及行業落地案例。不可錯過!
摘要:
當前的大數據技術應用趨勢表明,客戶對單一的數據湖和數倉架構并不滿意。近年來幾乎所有的數據倉庫都增加了對Parquet和ORC格式的外部表支持,這使數倉用戶可以從相同的SQL引擎查詢數據湖表,但它不會使數據湖表更易于管理,也不會消除倉庫中數據的ETL復雜性、陳舊性和高級分析挑戰。
KeenData LakeHouse(湖倉一體)作為新一代大數據技術架構,將逐漸取代單一數據湖和數據倉庫架構,成為大數據架構的下一站燈塔。
KeenData LakeHouse(湖倉一體)可定義為基于低成本,可直接訪問存儲的數據管理系統,它結合了數據湖和數據倉庫的主要優勢,開放格式的低成本存儲可通過前者的各種系統訪問,而后者則具有強大的管理和優化功能。數據分析師和數據科學家可以在同一個數據存儲中對數據進行操作,同時它也能為企業的數據治理帶來更多的便利性。
一、企業數據架構發展史
第一階段:傳統數倉
傳統數據倉庫是指從業務數據中創建信息數據庫,將業務數據庫的數據收集到集中式倉庫來幫助企業領導者獲得分析見解,然后將其用于決策支持和商業智能,它是單個數據存儲,出于分析性報告和決策支持目的而創建。
傳統數倉存儲的數據類型,主要是以關系型數據庫組織起來的結構化數據。數據通過轉換、整合以及清理,導入到目標表中。在數倉中,數據存儲的結構與其定義的schema是強匹配的。針對實時數據處理,非結構化數據處理能力較弱,以及在數據量支持方面相對有限。
第二階段:數據湖
數據湖是一種不斷演進中、可擴展的大數據存儲、處理、分析的基礎設施,它就像一個大型倉庫存儲企業多樣化原始數據以數據為導向,實現任意來源、任意速度、任意規模、任意類型數據的全量獲取、全量存儲、多模式處理與全生命周期管理。擁有強大的信息處理能力和處理幾乎無限的并發任務或工作的能力。
數據湖從企業的多個數據源獲取原始數據,數據可能是任意類型的信息,從結構化數據到完全非結構化數據,并通過與各類外部異構數據源的交互集成,支持各類企業級應用。結合先進的數據科學與機器學習技術,能幫助企業構建更多優化后的運營模型,也能為企業提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業能力的后續增長。
數據湖與數倉的區別:
在儲存方面上:數據湖中的數據為非結構化的,所有數據都保持原始形式僅在分析時再進行轉換。數據倉庫就是數據通常從事務系統中提取。在將數據加載到數據倉庫之前,會對數據進行清理與轉換。
在數據抓取中:數據湖捕獲半結構化和非結構化數據。而數據倉庫則只捕獲結構化數據并將其按模式組織。數據湖的目的是非常適合深入分析的非結構化數據。數據科學家可能會用具有預測建模和統計分析等功能的高級分析工具。而數據倉庫就非常適用于BI分析等操作用途,因為它具有高度結構化。
第三階段:KeenData LakeHouse(湖倉一體)
KeenData LakeHouse架構成為當下架構演進最熱的趨勢,將數據倉庫的高性能與管理能力與數據湖的靈活性相互融合。
企業創建數據倉庫來支持商業智能,主要場景包括編制報表、發布下游數據集市(Data Marts),以及支持自助式商業智能等。數據湖來自于數據科學對數據的探索,主要場景包括通過快速實驗創建和檢驗假設,以及利用半結構化和非結構化數據等。
KeenData LakeHouse的最佳實踐是基于存算分離架構來構建。存算分離最大的問題在于網絡,特別是對于高頻訪問的數倉數據,網絡性能至關重要。實現Lakehouse 的可選方案很多,比如Delta,Hudi,Iceberg。雖然三者側重點有所不同,但是都具備數據湖通用的一些功能,比如:統一元數據管理、支持多元分析引擎、支持高階分析和計算存儲分離。
如上圖所示:藍色數據流是離線數據流。實現離線數據湖能力,數據通過批量集成,存儲到Hudi,再通過Spark進行加工。紅色數據流是實時流。數據通過CDC實時捕獲,通過Flink實時寫入Hudi;通過Redis做變量緩存,以實現實時數據加工處理,之后送到諸如Clickhouse 、Redis、Hbase等專題集市里對外提供服務。
KeenData LakeHouse有了自己的角色和定位,但是一項技術的發展壯大還不能就此停止,它還必須在完善自身功能的基礎上去解決因為它的出現而導致的善后問題以及它出現之前的歷史遺留問題,只有這樣,它才能被真正廣泛接受。比如對于已有的系統,特別是企業已經存在的龐大規模的基于HDFS存儲的數據倉庫和基于MPP架構的實時數據倉庫系統,如何按照KeenData LakeHouse架構來實行?
二、KeenData LakeHouse湖倉一體敏捷數據平臺
基于企業內的這些場景,科杰大數據總結十余年企業級大數據工作開展經驗,融合數據湖和數據倉庫的優勢,不斷優化數據架構,升級為統一數據采集層(離線、實時)、計算中心(離線、實時、機器學習)、服務發布中心的KeenData LakeHouse湖倉一體敏捷數據平臺。
新架構設計在具備數據湖開放文件存儲靈活性的同時兼具數據倉庫的使用效率,非常適合大規模下的數據集成、標準化、資產化以及數據安全管理的需求。
KeenData LakeHouse湖倉一體敏捷數據平臺具備5大能力:
1、統一數據集成,全界面化的數據集成能力
提供多種數據抽取方式,將生產中大量結構化和非結構化的離線、實時數據抽取到數據倉庫,實現數據匯聚為數據的資產化和標準化提供數據基礎。
2、打通元數據,提供集團統一的元數據管理能力
提供數據庫元數據管理功能,實現各種數據庫和數倉的元數據無縫打通和統一管理;科杰湖倉一體敏捷數據平臺將HiveMetaStore 中 database 映射為平臺內的的Rowdata,對 Hive Database 的改動會實時反應在這個Rowdata中,實現lake+house一體化存儲訪問功能。
3、對不同存儲的數據提供統一的開發管理能力
提供多引擎計算能力,支持將多個數據存儲內的數據通過HQL、Spark、MR、shell等開發任務,進行統一開發、智能調度、數據治理和任務管理能力;同時提供跨團隊大規模項目的協同開發能力,極大的提升開發效率。
4、一站式、全托管、云原生智能化的敏捷數據平臺能力
提供全可視化任務開發配置功能,智能解析任務依賴,并在數據處理的全流程提供數據質量和標準管理,在數據從產生到消費的全生命周期自動沉淀數據資產。
5、企業級高性能、穩定性、可靠性
平臺云原生架構,系統基于模塊化、組件化、服務化構建,支持存儲、服務、計算彈性伸縮。當部分設備發生故障時,仍可正常運行,滿足企業對系統可用性的要求,可達99.99%以上。
三、KeenData LakeHouse敏捷數據平臺的落地應用
科杰大數據服務某能源企業,構建湖倉一體架構的敏捷數據平臺。根據該能源企業的業務發展目標,結合數據平臺建設的實際業務要求,面向能源開發全域數據內容,覆蓋數據處理全過程,搭建大數據基礎設施,建設統一數據管理與服務體系能力。通過數據匯聚、標準化、治理、ETL處理等過程,形成高可用的數據資產,實現數據資產的服務化。同時,運用有效數據管理機制,有效管理和提升數據質量、數據安全,實現數據資產的自動沉降更新。
湖倉一體的敏捷數據平臺使該客戶在人效方面、數據建設及使用效率方面以及大規模業務智能落地方面均有明顯的改善和提升。
1、企業人效方面的提升
相較于傳統的大數據基礎平臺,單點重復式的煙囪開發建設到基于敏捷數據平臺數據資產之上進行高度復用的協同開發,整體開發模式和研發效率是質的改變,大大提升人效。
其次,從數據開發人員方向上,傳統的大數據研發對開發人員會有一定的技術壁壘,門檻較高,科杰提供的湖倉一體敏捷數據平臺,讓更多的人員在綜合安全管理管控的情況下使用平臺進行自助分析和開發,提高數據在企業內流轉和使用效率。
2、企業數據建設及使用效率的提升
相較于傳統大數據基礎平臺,湖倉一體的敏捷數據平臺實現存算一體的升級和迭代,進行數據全鏈路血緣關系數據資產沉淀,形成統一公司內數據門戶,大大提升企業數據資產的使用效率。
3、全面支撐企業未來大規模業務智能落地
湖倉一體的敏捷數據平臺是一套企業級的大數據&AI基礎設施,幫助企業建立數據資產、實現數據業務化、進而推進全線業務智能化,實現數據驅動下的企業數據智能創新,全面支撐企業未來大規模業務智能落地。
結語:
20年的大數據發展,讓我們看到了數據湖與數據倉庫的不斷創新與發展,也看到了湖倉一體化的技術架構為企業數據能力帶來的提升。特別是云原生+大數據的時代,湖倉一體更能發揮出數據湖的靈活性與生態豐富性,以及數據倉庫的成長性與企業級能力。
未來,基于湖倉一體的數據架構應用將迎來爆發,以創造數據價值為核心目標,以技術驅動產品創新升級,推動大規模數據智能化落地,將成為數字化轉型的一片“新藍海”。