近日,火山引擎數智平臺VeDI直播活動「超話數據」在線舉辦,來自火山引擎的產品及解決方案專家分享了以ByteHouse為代表的云數倉產品在字節跳動的演進過程、關鍵技術以及最佳實踐,并通過五個步驟拆解,帶領開發者快速上手云數倉。
現如今,企業正加速走向數字化、智能化,對數據的應用也提出了全新要求,特別是在數據實時分析、實時部署方面的訴求更加強烈,而云數據倉庫為用戶實現云原生、智能運維、彈性資源等業務需求帶來了很好支撐,成為今天企業數字化基礎設施中的關鍵“底座”。
ByteHouse則是這樣一款云原生數據倉庫。ByteHouse起初是基于開源ClickHouse引擎進行技術架構重構和優化,在字節跳動內部大規模應用,其中部署規模超過1萬8000臺,單集群超過2400 臺,現已通過火山引擎對外輸出。
火山引擎ByteHouse
據ByteHouse產品專家介紹,面對企業級數據處理需求,相比起原生的ClickHouse,火山引擎ByteHouse基于獨家自研的高可用引擎及查詢優化器,可以為企業提供快速、穩定、安全的查詢服務和數據寫入性能。在云原生架構下,火山引擎ByteHouse提供了極致擴展的統一數據分析平臺,具有出色的彈性伸縮和可擴展性,確保資源可以靈活地水平擴展;同時,ByteHouse支持多級資源隔離,為用戶資源提供更安心的安全保障。
除了高可用的基礎能力,火山引擎ByteHouse還從業務角度出發提供了完整的運維監控和排障能力,幫助企業實現業務云上托管,降低運維成本。
不僅僅具備強大的技術能力和易用的產品特性,火山引擎ByteHouse在廣告、氣象、行為分析等領域已經積累豐富的落地經驗。在此次活動中,火山引擎解決方案專家通過廣告、氣象、行為分析3個領域案例,詳細拆解云原生數據倉庫如何能在業務場景中絲滑落地。
首先,在廣告受眾預估領域,為了幫助廣告主確定目標人群,判斷投放價值,廣告平臺需要為廣告主提供受眾篩選能力,即根據不同篩選條件、標簽或人群包,確定每次營銷活動覆蓋的人員類型、人員規模。其難度在于,廣告平臺用戶體量大、人群包數量大,導致單個查詢中涉及多個人群包計算,使得查詢復雜度高;另外,廣告平臺對數據時效性要求高,數據查詢效率要達到秒級響應。
面對此類需求,ByteHouse支持BitMap數據格式,降低人群包數據內存占用,配合uid的數據分片方式,提升數據查詢并發能力,實現高效的人群包交、并、補計算,滿足QPS峰值查詢需求,最終達到查詢秒級響應的效果。
火山引擎ByteHouse在廣告受眾預估領域落地
其次,在氣象領域,ByteHouse幫助AI大模型與數字孿生公司大地量子實現對氣象數據的精準預測。根據風向、濕度、溫度、風力等歷史氣象數據,結合風場、云層等模型能力預測未來能源情況,是大地量子的主要應用場景。大地量子通過將現場采集及大模型生成的氣象數據導入到ByteHouse中,由ByteHouse支撐GEO查詢和空間計算能力,滿足其對預測系統以及交互式查詢需求。目前,大地量子的平均查詢響應時長不僅在50毫秒以內,預測精準度也得到有效提升。
最后,在行為分析領域,極客邦科技則通過ByteHouse實現以用戶為中心的精細化營銷。作為致力于為數字人才提供全方位、高質量新聞資訊、課程內容、大會、指導等服務項目的企業,極客邦科技會根據用戶畫像、在端內的操作行為等數據為用戶精準推送課程、活動,洞察用戶全鏈路行為,以便提供更好服務。但隨著用戶數量變大且持續增長,數據查詢需求愈加復雜,同時也面臨快速響應的問題,在技術層面遇到很多挑戰。
增長分析平臺DataFinder與云原生數據倉庫ByteHouse的組合使用則幫助極客邦科技更好洞悉客戶全鏈路營銷旅途。ByteHouse的高可用引擎和查詢優化器可以將用戶表、事件表等數據高效去重、分析和計算,再通過DataFinder SDK實現事件分析、留存分析、轉化分析等能力,實現用戶精準洞察和營銷能力升級。
不僅僅在廣告、氣象等領域落地,ByteHouse 還將持續通過創新的技術和功能,幫助更多行業構建高效、穩定和可擴展的實時數據分析平臺,提供強大的數據處理和分析能力,助力企業更好實現數字化升級。