隨著近年來人工智能的飛躍發展,機器學習被廣泛應用于廣告、電商、安全等多個領域。其中,廣告業務因其數據計算量龐大、計算效率要求高的特性,被視作機器學習成果應用的試金石。如何運用機器學習規模化地解決廣告提效難題,亦是業界在技術應用層面的重點課題。目前在騰訊廣告系統的全面升級中,廣告提效的技術應用取得了關鍵進展。
秉承“技術提效”理念,騰訊廣告將北京大學-騰訊協同創新實驗室(以下簡稱:聯合實驗室)兩項入選國際頂級學術會議VLDB 2022與WWW(國際萬維網大會)的前沿機器學習技術應用于廣告業務場景中,為騰訊廣告系統的“太極機器學習平臺”與“千億參數大模型”的落地持續賦能,助力系統成為騰訊廣告全域經營堅實的技術底座。這一次的系統升級,不僅是對“技術提效”理念的充分實踐,更彰顯了騰訊廣告將前沿技術能力轉化為業務價值的行動力。
前沿技術持續提效
“從技術的角度理解業務,從業務的角度審視技術,讓技術演進推動業務增長”是騰訊廣告所秉承的技術原則。借助“騰訊廣告系統全面升級”這一練兵場,騰訊廣告為聯合實驗室的技術成果落地“量體裁衣”:
當下互聯網生態,每天產生至少百億規模的數據樣本,而廣告推薦場景更需要對復雜條件做分析和判斷,其中涵蓋的特征數量可達千億甚至萬億規模。特征的多變性與成長性,亦對廣告系統的學習能力提出了更高的要求。為此,騰訊基于聯合實驗室提出的自動化建模超大規模圖網絡的可拓展圖學習理論(PaSca),自研Angel Graph圖計算框架,降低大規模圖神經網絡模型訓練的門檻,提升了系統的數據學習效率。獲益于此,騰訊廣告系統在不同推薦場景的靈活性與準確性得到極大提高,可根據各個平臺用戶的特點實現快速精準推薦,更能結合頁面和上下文信息,通過強化場景差異性表達,提升投放效果。
另一方面,廣告業務對數據理解與運算的速度、質量要求遠超其他業務場景,甚至要在毫秒間完成復雜的計算與匹配。為提升廣告運算的效率和準確性,當下業界多采用千億和萬億參數規模的超大模型優化對高維特征的理解,并實現組合特征的計算匹配。超大模型的訓練落地與持續推理成長,已經成為當下廣告平臺的一大技術壁壘,而機器學習的訓練推理能力恰好在其中發揮關鍵作用。如果將大模型比作廣告場景賽道上奔騰的賽車,那么機器學習技術就是驅動賽車的引擎,引擎質量的好壞,很大程度上決定了賽車能不能跑得快、跑得穩。為此,技術團隊巧用聯合實驗室成果,從搭基建、提速度兩個思路出發,為大模型訓練落地提供技術支持。
基建層面,依托于聯合實驗室研發的新一代分布式深度學習平臺Angel4.0,騰訊廣告自主研發出AngelPS 技術,并將其作為太極機器學習平臺的核心組件落地應用于廣告系統。在AngelPS的助力下,太極機器學習平臺單模型處理上限提升至10TB級別,更能實現7X24小時的在線深度學習與推理,自此,廣告系統學習、推理海量廣告數據的穩定性與擴展性得到了極大提升,讓超大規模廣告模型的生產和使用成為現實。速度層面,騰訊廣告基于聯合實驗室提出的稀疏大模型訓練加速解決方案AngelRec,自主研發高性能預訓練框架AngelPTM,為超大規模廣告模型的訓練速度、維度與精度加足馬力。
助力廣告主生意增長
在兩項技術的合力加持下,騰訊廣告完成“一大平臺兩大模型”的重要突破——基于太極機器學習平臺,訓練出混元AI大模型與廣告大模型,強化了騰訊廣告系統的理解能力與運算能力,高效達成廣告主最關心的“起量、成本和穩定性”三大指標。
騰訊廣告系統
隨著騰訊廣告系統的全面升級,當下廣告場景效果轉化的確定性與轉化效率均得以提升,為廣告主們帶來生意增長。未來,騰訊廣告亦將持續踐行“技術提效”思路,立足于騰訊與清華大學、中科院計算所等多所高校的產學研布局與研發成果,深挖機器學習、大數據與自然語言處理等多個前沿領域,持續探索廣告業務在產學融合層面的新航圖。