計算機領域一直流傳一句話——“沒有銀彈”,這句話出自計算機科學家布魯克斯《沒有銀彈》一書,意思是軟件工程是一個超級復雜系統,沒有任何特效的方法,可以一直提高效率。
在數據庫選型當中也是如此。一款面向實時查詢場景的計算引擎,在離線場景的表現可能會稍顯遜色。
以某內容APP對OLAP引擎選型為例。該內容APP基于OLAP引擎構建了支持全公司的數據平臺,覆蓋業務線多、復雜度高,對數據分析的要求也非常高。在APP的直播場景中,主播、商家需要直播間核心實時數據,在直播過程中依據數據做相關決策,比如在流量下降時投流、發福袋等。而OLAP引擎具備高性能、時效性強、彈性擴容的特點,能滿足實時查詢的訴求,成為該內容APP對計算引擎的首選。
但在一些不需要實時數據的場景中,例如內容APP日報、周報、月報等數據,往往是T+1時間產出,OLAP引擎就很難滿足需求,反而需要再搭配Spark、Hive、MapReduce等批處理平臺共同使用。
一方面,這樣的組合方案會導致數據鏈路復雜,操作成本高。為了保證OLAP引擎和其他批處理平臺的數據一致性, 研發團隊要建立穩定的數據同步管道,這將增加開發成本,造成系統復雜度高,對日常運維和故障排查帶來難題。另一方面,兩者都需要占用一定的計算和存儲資源,導致資源消耗較大,同時也會造成數據延遲。
近期,火山引擎云原生數據倉庫ByteHouse上線的“離線加工”能力則解決了這一問題。
ByteHouse 云數倉版一直具備強大的實時數據消費能力,通過設計新的實時消費執行流程、實現 Exactly—once 語義以及對 Memory buffer 的優化,ByteHouse 具備了對 Kafka 流數據的集成能力。
據介紹,ByteHouse 在云數倉版的全新版本中支持了完整的離線加工能力,使得作為輕載數倉的 ByteHouse能同時兼顧實時數據的查詢效率和離線加工任務的穩定性,大大降低運維壓力,簡化數據開發鏈路,為用戶提供更優越的企業級數倉體驗。
性能、效率、成本在行業中一直被認為是“不可能三角”,如果用戶將ByteHouse作為統一的數據分析平臺,則可以最大程度實現性能、效率、成本的“三贏”。
ByteHouse“離線加工”能力架構圖
從性能層面來看,作為高性能的列式數據庫,ByteHouse的查詢引擎和聚合能力能提升離線計算速度,幫助用戶更快進行離線數據處理、聚合和轉換,縮短任務執行時間,提高數據處理效率。
從效率層面來看,ByteHouse將實時查詢、交互式分析與離線數據加工的處理流程整合在同一個平臺,不僅僅能保證數據的一致性和準確性,避免數據在系統流轉中出現不一致的問題,還可以簡化數據處理架構,研發人員不再需要維護和管理多個工具、系統。另外,ByteHouse使用SQL作為查詢語言,研發人員可以利用熟悉的SQL語法進行數據查詢、聚合和轉換操作,無需學習新的編程語言或框架。
從成本層面來看,ByteHouse的列式存儲和壓縮算法在提升查詢速度、縮短響應時間的同時,還可以減少數據存儲的占用空間,降低存儲成本。
隨著數據分析和計算的場景愈多,鏈路愈加復雜,企業更需要統一的平臺、簡單的架構、便捷的運維,才能支撐業務快速發展。ByteHouse不僅專注于強化實時計算能力,還補齊了離線任務加工場景,通過結合任務編排和開發工具,支持復雜的 ETL 處理流程,適用于企業用戶行為分析、人群圈選、風控等更豐富的場景。
此次“離線加工”新能力的發布,僅僅只是ByteHouse產品迭代版圖上的一環。作為源于字節跳動多年積累的云原生數據倉庫,ByteHouse不斷提升用戶體驗,幫助企業更好地構建交互式大數據分析平臺和云原生數據倉庫。目前,中國地震臺網中心、海王集團等已與火山引擎ByteHouse達成合作,率先通過海量數據實時分析的極速體驗,輔助決策落地,加速業務洞察,實現自身數字化升級的進一步加速。