近日,快手數據平臺部聯合“快手中學”,專題舉辦“快手大數據平臺架構技術交流會”(Kuaishou Data Platform Architecture Conference),吸引了各行業數據相關開發者的參與。
從hadoop到spark,再到flink,從kylin到druid,再到clickhouse,從離線數倉到實時數倉架構,再到數據湖架構,近10多年中,大數據平臺架構經歷了快速演變。各大互聯網公司或借助開源生態,或通過自研構建大數據架構系統,促進數據相關業務的價值挖掘與發展,為公司的戰略發展、產品改進、用戶增長帶來收益。
作為全球領先的生活分享社區,目前快手日活躍用戶超過 3 億,庫存短視頻數量超過 200 億條,直播日活超過 1.7 億,電商日活超過 1 億。在海量的 UGC 數據、業務數據、用戶數據背后,支撐快手數據業務的大數據平臺架構系統,經歷了幾個階段的高速發展。為此,交流會著重介紹了快手在大數據存儲、調度、計算上的技術挑戰、應用、演進與最佳實踐。
(▲交流現場)
本次交流采取線下線上結合的參會方式。交流會開放了部分線下參會名額,所有現場觀眾需佩戴口罩,確保測溫和健康寶狀態正常,在簽署健康聲明后方可入場,入會就座時也均保持了一定間隔。此外,交流全程還通過“快手APP”直播,觀看總人數超1.5萬人。
交流過程中,該場出品人之一、快手平臺研發&數據平臺負責人韋彬首先致辭。他介紹,快手大數據平臺的使命是以領先的大數據技術,激活數據價值,賦能業務,打造快手核心競爭力。大數據團隊從2011年創立之初沒有全職數據同學,到目前團隊已逐漸完備。在快手做大數據有四個特點,一是數據規模大,對數據治理的要求很高;二是數據驅動的文化深入人心,團隊一直致力于對標行業最好水平打造數據中臺;三是極度重視效率,確保數據平臺靈活可用;四是為滿足快手線上社區的場景,對數據的建模能力、應用能力都有極高要求。
(▲快手平臺研發&數據平臺負責人 韋彬)
第二位出品人、快手大數據架構團隊負責人趙健博介紹,快手大數據架構團隊的領域主要涉及六個方向,分別是:存儲系統、消息隊列、資源調度、實時引擎、離線引擎、OLAP引擎。近幾年,快手大數據架構的技術發展迅猛,從離線計算分析到實時計算,從大集群到超大集群,飛速迭代優化。
(▲快手大數據架構團隊負責人 趙健博)
隨后,來自快手的分布式存儲高級研發工程師徐增強、離線計算引擎方向負責人王磊、分布式消息隊列高級研發工程師陳春斌,以及騰訊數據平臺部數據湖研發負責人邵賽賽,分別帶來主題演講。
徐增強從數據規模、挑戰和實踐等幾個方面,對快手分布式HDFS系統進行了全方位解讀,并詳細介紹了快手EB級HDFS集群發展歷程中遇見一些核心問題的解決思路,如主節點擴展性問題、主節點處理能力瓶頸問題、節點熱點問題、重要任務的分級保障問題等。
王磊介紹了快手Hive元數據在億級分區規模的存儲使用上所面臨的總量多、增速快、壓力大等多方面挑戰,針對上述挑戰給出了快手所采取的系列優化措施,包括讀寫分離、API性能優化、流量分級控制、Federation水平擴容等,從而達到提升Hive元數據服務穩定性和性能的目標。
陳春斌介紹了快手Kafka在業務快速增長過程中遇到的集群擴容瓶頸、集群間資源利用率不均、業務接入效率低等問題,針對上述問題從集群水平擴展性和topic水平擴展性等方面對Kafka進行針對性改造,從而達到平滑支撐業務快速增長和提高資源利用率的目的。
邵賽賽從數據湖技術需要具備的能力,如何構建一個統一的數據湖存儲、并在其上進行多種形式的數據分析角度切入,介紹了Iceberg的設計初衷、優點及能力,使聽眾對表格式這一領域有了充分理解,并深入了解Iceberg的設計、實現、優勢以及使用方式。
(▲演講嘉賓合影:從左至右,分別為徐增強、陳春斌、邵賽賽、趙健博、王磊、李遠策)
快手以技術為核心競爭力,十分重視技術創新和應用,同時也希望通過更多更廣泛的技術交流,和業內開發者分享經驗,碰撞出更多智慧火花,推動技術不斷前進。“快手中學”作為內部專業人才培養平臺,旨在通過提供豐富多樣的專業課堂培訓、比賽、技術交流,助力人才成長,提升專業能力和專業影響力。
今年7—8月,“快手中學”曾聯合快手大前端團隊舉辦“快手大前端技術交流會2020”,受疫情影響僅做線上直播,而隨著疫情防控的逐步穩定,為了給觀眾帶來更好的交流互動體驗,本次技術交流首次開放了部分線下參會名額。未來,由“快手中學”舉辦的技術交流還將以每季度一次的頻次長期開展。