10月22日上午,2021杭州云棲大會大數據平臺技術論壇中,阿里云和各行業客戶、大數據開發者共同探討大數據平臺技術發展趨勢及最新演進,圍繞業內持續受到關注的數據倉庫、數據湖、湖倉一體架構等技術和云上實戰經驗進行了深入交流,并由阿里云智能計算平臺產品與解決方案總經理高雪峰和阿里云智能研究員、阿里云智能通用計算平臺MaxCompute、機器學習PAI平臺技術負責人林偉分別對阿里云新一代離線實時一體化數倉與湖倉一體進行了全新升級發布,對這兩項大數據技術進行了深入解讀。
阿里云智能研究員、通用計算平臺MaxCompute、機器學習PAI平臺技術負責人林偉
云上數倉離在線一體化,實現分析性能提升
實時化和智能化成為云上數倉服務的發展方向。越來越多的企業無法忍受數據經過T+1的離線處理之后,再產生指導業務數據決策的漫長工作,而是希望能在不斷產生實時數據的同時,與既有的離線數據一起產生實時洞察,從而立即產生業務所需的策略。
據高雪峰介紹,游戲玩家在游戲體驗過程中,按照玩家的即時需求給他推送對當前游戲體驗有很大幫助的禮包,在滿足玩家體驗的同時,也會增加付費轉化率;在證券交易實時數據產生時,通過離在線一體化的數據分析實現交易,滿足監管機構的管理要求,更好的幫助機構控制風險。
阿里云智能計算平臺產品與解決方案總經理高雪峰
云上數倉離在線一體化方案,針對用戶在分析領域各種時效性的需求,按需提供服務。離線大數據分析MaxCompute與實時數倉Hologres實現深度集成,對離線數據的實時化分析可以實現10倍性能的提升。
在實時數倉的內部構件當中,可以通過實時計算Flink版的能力實現事件驅動的實時數倉的構建。向外可以對數據湖中的數據進行高效的分析,實現數據高速入倉,通過對標準開放的 SQL協議的支持,實現對19款主流BI工具的原生支持,幫助客戶快速構建從數據集成到數據分析界面的數倉應用。
數據規模越來越大,集群規模越來越大,一定會對大數據平臺的運維能力產生很大的挑戰,在海量數據可管,可控下,通過查詢優化技術和文件存儲優化技術將大規模集群的優勢發揮到極致,并通過冷熱冰存儲的自動分層,為用戶降低存儲增長帶來的成本的提升。智能數倉解決了大部分企業運維難的問題,真正做到企業大數據平臺的智能駕駛。
湖倉一體新升級2.0,真正做到一份數據,統一管控,多樣分析
最近,數據湖的形態被眾多企業所使用,這種技術形態決定了企業很容易管理數據,并在其之上使用豐富的開源引擎做各種形態的計算。同時,在傳統報表等BI應用催生下,企業已經構建的數據倉庫形成了“數據孤島”,數據間協同分析很難被執行,而且大部分企業沒有將所有數據進行大集中處理的能力。
在應用需求催生下,面向不同的倉和湖形態的數據存儲和分析,企業有了非常強的數據互通需求。這也是“湖倉一體”的產生的背景。去年,阿里云“湖倉一體”打通云上數倉產品“MaxCompute”與數據湖產品“EMR”,經過一年的客戶磨練與沉淀,“湖倉一體”有了2.0的新能力。
從購買體驗上,用戶可以在線上分鐘級打通云上Severless數據倉庫( MaxCompute)和云原生數據湖(EMR+OSS),實現統一元數據、存儲方面的安全互通。不僅更好的支持標準HDFS的數據訪問,而且持續優化對OSS對象存儲高速訪問性能, 擴展支持Hudi、Delta Lake等開源數據湖格式。MaxCompute計算服務通過對智能緩存能力的升級,使訪問EMR數據湖中的數據有10+倍性能的提升。
換句話說,湖倉一體2.0可以幫助企業消除數據孤島,通過DataWorks將不同形態的數據統一管理與治理起來,并對特定應用加速分析。同時也可以幫助企業在新建數倉或者數據湖的同時,對既有系統進行充分利用,在應用需求日趨迫切的時候,為企業規避了進行數據大集中的決策性風險。