HTAP 是 Gartner 在 2014 年提出的概念,是為滿足實時性業務分析場景而存在的融合型數據庫,可以同時支持 OLTP 和 OLAP 場景,在一份數據上保證事務的同時支持實時分析,也省去費時的 ETL 過程。
現代數據棧是近幾年剛剛興起的一個概念,通常是指一系列圍繞數據倉庫而構建的、目的為簡化數據集成的工具,其根本出發點是節省工程師和分析師的時間。
這兩者的聯系可謂是微弱而又密切。微弱在于概念層面,密切則體現在實踐落地中。
“現代數據棧是云上數據中臺架構的新一代提法,但它的定義并未包含融合型數據庫體系。”矩陣起源資深研發工程師徐鵬指出,HTAP 實際上并不包含在現代數據棧概念體系中。
但縱觀二者的最終目標,其實都是為了解決新時代海量數據帶來的系列問題。而數據的存儲和應用成為企業決策的重要依據,HTAP 浪潮勢不可擋。同時現代數據棧必然也是當下傳統數據棧更新中的重要路徑。兩者相融,勢必有益于新一代的數據存儲、處理、分析等。
因此,徐鵬在剛剛過去的 GOTC 2023 峰會上,以 HTAP 為例,探討了現代數據棧應用架構及場景演進的相關內容。
現代數據棧要求下的 HTAP
徐鵬介紹,現代數據棧的核心特征是以云數據倉庫為核心,數據管理更簡單,具體表現在數據庫的云原生化,以及從 ETL 到 ELT 的變化。
HTAP 在業務中臺的場景中,作為支持 AP 的 TP,不需要復雜的 Transformer,同時分析面向的是 Operational 類,可以應對高并發、實時場景。在數據中臺或離線運營業務中臺中,作為支持 TP 的 AP,其事務的主要目的在于保證可靠性和實時更新能力,不需要對事務過度設計影響分析性能,而最終對標的產品主要是各類實時 OLAP。面對 TP+AP 結合的場景,則需要內置 Transformer 能力(增量物化視圖)——HSTAP,其核心價值是實時化與簡化,如云上內置 ELT 替代多項 Pipeline,云下內置 ELT 解決端到端的實時一致性。
在 HTAP 本身的特質之上,徐鵬介紹,實時現代數據棧要求下的 HTAP 需要具備覆蓋云原生、Transformers、多云三方面的相關特性。具體如下圖所示:
MatrixOne 現狀和演進
為了能如何打造一款 HTAP 數據庫,適應未來的變化,矩陣起源打造了一款開源的超融合 HTAP 云原生數據庫 MatrixOne。MatrixOne 與業內諸多數據庫產品非常不同的點是,MatrixOne 的自研之路是從第一行代碼開始的。MatrixOne 的目標是打造一款極簡、高擴展性、高靈活性、高性價比的全新數據庫。
在過去的兩年里,MatrixOne 經歷了一次架構的演進。早期,MatrixOne 更多的是承載了研發團隊早期的探索和研究,通過實驗架構,逐步探索出一條面向未來的架構。隨著開發進度的不斷推進,舊架構的問題開始凸顯出來,主要集中在拓展性不足、性能問題、成本問題。
這三大難題讓 MatrixOne 團隊開始思考,到底什么樣的架構才能滿足未來 HTAP 的需求。最終他們決定重構存算體系,具體從 4 個方面展開:
● 同時從 Share Nothing 遷移到云原生架構
● 從 Append only 存儲切換到 TAE
● 重寫計算引擎(TPCC/TPCH 可同時執行)
● 刪除 40 萬行,新增 30 萬行,累計 50 萬行代碼
最終,歷時 12 個月,1.0 新版本在 2023 年 GA。新的 MatrixOne 實現了從存算一體到計算、事務、存儲三層解耦;從多引擎到單一 TAE 的 HTAP 融合引擎;從因子化算法到 DAG 的計劃構建;從多副本存儲到對象存儲與 Logtail 的引入;靈活調整節點分配帶來的資源隔離。
徐鵬總結,HTAP 本身應該從現代數據棧升級到實時現代數據棧;具體來看,TP/AP 不是 HTAP 的核心,T(Transformer)才是 HTAP 成功的關鍵;此外,云原生數據庫天然可以降低數據棧的復雜度。
在生態圈中成長
MatrixOne 是一款面向未來的超融合異構云原生數據庫管理系統。通過全新設計和研發的統一分布式數據庫引擎,能夠同時靈活支持OLTP、OLAP、Streaming等不同工作負載的數據管理和應用,用戶可以在公有云、自建數據中心和邊緣節點上無縫部署和運行。
為了能夠讓更多開發者參與到 MatrixOne 項目中來,與開發者進行交流和互動,矩陣起源還在 GOTC 大會現場設立了展臺,全方位展示 MatrixOne 的優秀性能和豐富的實例。期待更多開發者能夠加入 MatrixOne 的生態圈,不斷推動 MatrixOne 的發展壯大。
此外,矩陣起源全新推出 MatrixOne Beta Program 計劃,希望與客戶、用戶一起持續提升 MatrixOne 產品和性能體驗優化。加入 MatrixOne Beta Program,可以享受到新功能內測權益、產品設計參與權益、新功能本地環境優先測試權益、開發過程的直接發言權益、專家端到端專業支持權益。無論是對開源感興趣的開發者,還是對現代數據棧、HTAP 數據庫感興趣的開發者,加入一個開源社區共同成長,現在正是行動時刻!
全球開源技術峰會(Global Open-source Technology Conference),簡稱 GOTC,是由開放原子開源基金會、上海浦東軟件園、Linux 基金會亞太區和開源中國聯合發起的,面向全球開發者的一場盛大開源技術盛宴。 5 月 27 日至 28 日,GOTC 2023 于上海張江科學會堂舉辦為期 2 天的開源行業盛會。大會以行業展覽、主題發言、專題論壇、開源市集的形式展現,與會者一起探討元宇宙、3D 與游戲、eBPF、Web3.0、區塊鏈等熱門技術主題,以及開源社區、AIGC、汽車軟件、AI 編程、開源教育培訓、云原生等熱門話題,探討開源未來,助力開源發展。
回顧峰會精彩內容,請訪問: https://gotc.oschina.net/