8月31日,在剛剛出版的《騰訊大數據構建之道》新書中,騰訊首次對外披露了自身大數據核心技術體系架構和海量業務應用實踐。作為國內大數據領域的一部前沿技術著作,該書匯集了騰訊在大數據領域幾十位技術專家的思考和實戰精髓,通過全面剖析自身在大數據領域的探索以及落地,為國內大數據從業者提供了一份極具價值的參考文獻。
騰訊公司副總裁蔣杰表示:“從第一代的離線計算到以隱私計算、數智融合、云原生為代表的第四代大數據技術,騰訊大數據團隊不斷基于內部海量業務實踐,打造領先的技術和產品服務內外部眾多客戶。未來,騰訊還將通過騰訊云持續開放自身在大數據領域的技術和經驗,攜手合作伙伴,為各行各業客戶創造價值,加速推進數字經濟和實體經濟的融合發展。”
《“十四五”大數據產業發展規劃》提出,當前數據已成為重要的生產要素,大數據產業作為激活數據要素潛能的關鍵支撐,是加快經濟社會發展質量變革、效率變革、動力變革的重要引擎。此次騰訊推出的《騰訊大數據構建之道》,系統性復盤了大數據技術在騰訊內部的應用發展與演進,對促進國內大數據產業的共同進步具有積極意義。
據悉,該書由騰訊數據平臺部與機械工業出版社合作出品,內容總體分為兩大部分:第一部分,主要講述了騰訊大數據平臺的技術體系;第二部分,主要講述了騰訊大數據通過騰訊云對外開放的一系列產品。
在第一部分,騰訊大數據團隊從自身平臺的發展歷程和總體架構切入,深入介紹了各項技術原理,闡述了實戰過程中的挑戰和自研核心技術的設計思想。內容覆蓋了大數據接入、計算、存儲、分析、調度等大量技術組件的整體架構和應用展示,當中不乏數據實時采集TDBank、下一代大數據分布式存儲Ozone、高性能的大數據SQL引擎SuperSQL、自主研發的高性能分布式機器學習平臺Angel等多個重量級產品的詳細剖析。
以分布式計算為例,書中詳細介紹了SuperSQL的關鍵技術,以及在OLAP 數據分析、跨數據中心查詢優化等多個場景中的應用細節。作為騰訊大數據自研的跨數據源、跨數據中心、跨計算引擎的的高性能大數據SQL引擎,SuperSQL致力于優化集群資源的使用,提升使用業務數據的效率,并幫助解決業務數據孤島問題。目前,SuperSQL 在騰訊內網及外部客戶均已部署使用,對接多個跨數據中心集群,每個集群規模達數百臺機器。
圖:騰訊SuperSQL系統架構
在第二部分,大數據團隊主要介紹了騰訊在數據治理、數據應用、機器學習等方面的建設經驗,并對騰訊大數據產品及其在內外部場景的實踐落地進行了解讀。以騰訊自研機器學習平臺Angel為例,其功能涵蓋傳統機器學習、圖挖掘、圖學習、深度學習和隱私計算等,是國內第一個在全球頂級AI開源基金會——LF AI基金會畢業的頂級項目。自 2017 年開源后,已被華為、小米、OPPO等一百多個公司和組織使用。在本書中,騰訊大數據團隊對其系統架構、運行架構以及功能特性進行了逐層剖析,能有效幫助讀者建立起相關的深度認知和理解。
而針對行業人群在大數據運營方面的廣泛痛點,本書還從大數據平臺規劃、平臺治理、 運維體系構建、運營成本優化、數據資產管理等方面系統性地介紹了騰訊積累的經驗。 也是在伴隨海量數據業務爆發式增長過程中,以數據驅動運營,實現平臺高度自治為目標的不斷探索的成果,為有大數據平臺構建和運維需求的企業和團隊提供了實用的直接參考。
圖:騰訊大數據運營分析及應用體系架構
在剛剛召開的首屆騰訊云大數據峰會上,騰訊云副總裁劉煜宏透露,目前騰訊云的大數據平臺算力規模已經突破千萬核,日實時計算量達百萬億級、日運行容器數超億級,日計算數據量數百PB,服務的企業客戶數超2萬家,開源社區代碼貢獻量超800萬行,進一步呈現了騰訊在大數據領域的頂級實力。