9月18日,2020云棲大會上,阿里云正式推出大數據平臺的下一代架構——“湖倉一體”,打通數據倉庫和數據湖兩套體系,讓數據和計算在湖與倉之間自由流動,從而構建一個完整的有機的大數據技術生態體系。為企業提供兼具數據湖的靈活性和數據倉庫的成長性的新一代大數據平臺,降低企業構建大數據平臺的整體成本。
大數據技術從本世紀初發展至今演進出了數據倉庫和數據湖兩種趨勢,前者通常指云廠商提供的基于大數據技術的一體化服務,后者通常是由一系列云產品或開源組件共同構成的大數據解決方案。
當企業處在初創階段,靈活性就非常重要,數據湖的架構更適用。當企業逐漸成熟,成長性成為最關鍵因素,數據倉庫的架構就再適合不過了。那么,數據倉庫和數據湖是否只能是一道單選題?能否有一種方案同時兼顧數據湖的靈活性和云數據倉庫的成長性?
阿里巴巴集團副總裁、阿里云計算平臺負責人賈揚清表示,MaxCompute湖倉一體方案打破了數據湖與數據倉庫割裂的體系,在架構上將數據湖的靈活性、生態豐富與數據倉庫的企業級能力進行融合,從而構建數據湖和數據倉庫融合的湖倉一體的全新計算平臺。MaxCompute湖倉一體方案不僅可廣泛用于支持超大規模的機器學習和深度學習,還能幫助企業高效提升自身大數據能力,實現敏捷運營,降本增效。
據悉,MaxCompute在原有的數據倉庫架構上,融合了存儲計算一體化數據倉庫和云上存儲計算分離的數據湖,最終實現了湖倉一體化的整體架構。在該架構中,盡管底層多套存儲系統并存,但通過統一的存儲訪問層和統一的元數據管理,向上層引擎提供一體的封裝接口,用戶可以Join數據倉庫和數據湖中的兩張表,同時整體架構還具備統一的數據安全、管理和治理等中臺能力。
在技術融合過程中,MaxCompute不僅實現了快速接入、統一數據/元數據管理、統一開發體驗、自動數倉四個關鍵技術點,更持續提升了核心性能,在2020 TPCx-BigBench中,MaxCompute基于英特爾至強可擴展處理器在100TB規模保持性能不變的情況下,成本較去年下降了40%;30TB規模下,性能提升50%以上,成本下降了30%以上。
微博是“湖倉一體”的嘗鮮者。此前微博擁有Hadoop數據湖和阿里云大數據及AI兩套異構的大數據平臺,且兩套平臺在集群層面完全割裂,數據和計算無法自由流動。為了解決這些難題,微博基于阿里云構建了湖倉一體化的AI計算中臺,擺脫了繁重的數據搬遷,使得微博的數據工程師和算法工程師輕松無縫的借助阿里巴巴成熟的超大規模算力和算法賦能業務提效。同時,將MaxCompute云數據倉庫(結構化數據)與數據湖(非結構化數據)構成閉環,極大提升了AI類作業效率,產生巨大的業務價值。
阿里云自研云數據倉庫MaxCompute歷經近10年技術沉淀,不僅穩定支撐阿里巴巴集團的數據存儲和數據計算業務,更是云上客戶大數據平臺的重要組成部分。此次湖倉一體發布,為企業提供了一種更靈活更高效更經濟的數據平臺解決方案,既適用于全新構建大數據平臺的企業,也適合已有大數據平臺的企業進行架構升級,切實以技術加速了企業的數字化重構。
據了解,本次云棲大會上,賈揚清還首次發布阿里云云原生數據湖體系,基于對象存儲OSS、數據湖構建Data Lake Formation和云原生開源大數據產品E-MapReduce的強強組合,提供存儲與計算分離架構下,涵蓋湖存儲、湖加速、湖管理和湖計算的企業級數據湖解決方案。以及宣布MaxCompute和Hologres產品融合升級,提供離線、實時、分析、服務一體的數據倉庫。