近期,第39屆IEEE數據工程國際會議(以下簡稱ICDE )在美國加利福尼亞召開,由字節跳動數據平臺和華東師范大學合作提交的論文聚焦數據庫領域,提出 WaLSM架構設計、優化和性能提升的創新技術方案,成功被大會收錄。
ICDE是全球數據庫領域的三大會議之一,重點面向數據工程和數據密集型系統研究人員, 致力于解決設計、構建、管理和評估高級數據密集型系統和應用程序方面的研究問題,也是研究人員、從業者、開發人員和用戶探索前沿思想并交流技術、工具和經驗的領先論壇。
據介紹,本次 ICDE 吸引了大約700人參與,共接收256篇論文,其中14篇為數據庫系統相關研究。作為數據庫系統的研究成果之一,字節跳動數據平臺投遞的論文《Workload-Aware Log-Structured Merge Key-Value Store for NVM-SSD Hybrid Storage 》,重新設計 WaLSM,針對真實負載具備強訪問傾斜性的特點,結合 DRAM-NVM-SSD 存儲系統優勢,提出自適應的 LSM-tree 調優方案,具備極強的技術創新性,因而被ICDE收錄。
字節跳動專家團隊在ICDE 2023展區
該項成果的創新性在于,WaLSM 提出了一種幾乎無額外開銷的數據分區方式,對硬盤上的數據進行分區,降低 Merge 策略調整粒度,增加了針對硬盤上負載捕捉訪問模式的能力。以分區為單位,WaLSM 在真實負載下基于強化學習算法,支持自適應地調整各個分區使用的 Merge 策略,以更好實現寫放大與查詢收益之間的平衡。
值得一提的是,此次論文中的成果未來將通過ByteHouse對外開放。ByteHouse是火山引擎數智平臺旗下的一款云原生數據倉庫,支撐實時數據分析、海量數據離線分析,為用戶提供極速體驗,而WaLSM 的自適應調整算法可以幫助 ByteHouse 根據真實負載中的數據熱點找到全局較優的 Merge 策略,降低 IO 開銷,最終提升MergeTree 存儲引擎的整體吞吐量。
據介紹,字節跳動在2017年就開始大規模啟用ClickHouse,并擁有著國內規模最大的ClickHouse集群。面向ToB市場推出的ByteHouse則是字節跳動在大量經驗實踐上,對ClickHouse深度優化、自研改造的成果。
從架構上來看,ByteHouse采用了自研的高可用引擎,支持數據實時更新、刪除,新增了自研的查詢優化器,并且在集群的運維和多表關聯的場景都做了相應的增強,保證用戶在復雜查詢的場景下具備更高的查詢效能。
目前,海王集團、中國地震臺網中心等行業的客戶都已與火山引擎ByteHouse達成合作,通過海量數據實時分析的極速服務,輔助決策落地,加速業務洞察,更好更快地實現數智化升級。