編輯:杜偉
看阿里媽媽如何在數智商業技術新時代把握生成式大模型引領的這股 AI 浪潮。
2023 年已經過半,可以說是屬于生成式 AI 大模型的一年。自 ChatGPT 推出以來,這股新的 AI 技術浪潮迅速席卷了國內外。尤其是國內,科技大廠、初創公司和科研機構陸續推出了近百個通用或特定領域專屬大模型及應用產品。
隨之而來,行業企業也尋求自身業務場景與相關 AI 技術的契合點。以當前企業發展中普遍達成共識的數智化經營為例,也在積極探索大語言模型、多模態技術等對數智化升級和業務經營效率與效果的提升。
在近日于武漢舉行的 2023ACM 中國圖靈大會 SIGAI China 論壇上,阿里媽媽及閑魚 CTO 鄭波分享了他關于數智商業技術的洞見。他認為,在這輪生成式 AI 大模型的驅動下,數智商業技術將進入 2.0 時代,其中知識驅動、邏輯推理和創造性將成為明顯的特征。
在其主題報告《知識、推理和創造,重塑數智商業技術 —— 從北大 - 阿里媽媽人工智能創新聯合實驗室談起》中,鄭波介紹了阿里媽媽技術團隊針對不同業務場景,探索生成式 AI 大模型、多模態、引擎等技術的創新和應用,為商家客戶和消費者提供精準、高效、高質的產品和服務。
以下為鄭波老師的主題分享內容,機器之心在不改變原意的前提下進行了整理。
數智經營技術從 1.0 進入 2.0 時代
阿里媽媽做好了準備
大家知道,自去年 12 月底至今,一波以生成式 AI 大模型和 AIGC 為代表的 AI 技術浪潮正在深刻影響著未來的技術走向,學術界和工業界都在關注相關技術的發展。我將更多地從工業界視角分享阿里媽媽對數智商業技術的一些趨勢判斷和技術進展。
作為直接與商家客戶、消費者互動的平臺,我們觀察到,AI 技術正以前所未有的速度重塑和改變商業場景,技術變革的速度可以用「時新日異」來形容。
面向未來的數智商業技術,我們認為將會呈現三個明顯特征,即知識驅動、邏輯推理和創造性。未來將形成基于認知和常識、端到端鏈路有推理和執行過程的、更有創造性的數智商業技術。
基于此,我們判斷數智商業技術將從 1.0 時代進入 2.0 時代。1.0 時代以在線經營、基于數據統計和經驗判斷的數字經營為主,而 2.0 時代將會是知識經營、基于 AI 的決策執行和因果推斷的創造性智能經營時代。
同時 1.0 時代更多是從領域數據、有監督學習等 AI 技術出發,2.0 時代則將從生成式 AI 大模型、多模態技術以及對數據的更有效運用等新變化出發。除了進一步重塑和改變商業場景之外,2.0 時代將深刻影響商家經營方式、消費者購物體驗等。
在這種新的趨勢下,阿里媽媽立足知識驅動、邏輯推理和創造性三大方向,通過生成式 AI 大模型等領域的技術探索和研究應用,形成領先的全棧式技術體系,將最前沿的 AI 技術應用到多樣化商業場景中來。具體如下:
- 探索大語言模型、多模態、大模型引擎技術在智能營銷 Agent、聯盟廣告分析(智能問答助手)等知識驅動方面的應用;
- 在邏輯推理方面,通過增強分析以及包括 AIDA、Neural Auction、AIGB 等 AIGA 決策智能技術算法體系,幫助商家進行投放決策和精準評估,管理大規模的人群、商品和內容資產;
- 在創造性方面,通過營銷創意工具、智能設計等幫助商家自由生產創意;
- 通過內容風控和防作弊等幫助商家和平臺更精準識別和處理風險,降低損失。
- 接下來一一來看阿里媽媽在知識驅動、邏輯推理和創造性三個方面的應用進展。
知識驅動篇
多模態賦能商品檢測
& 大模型服務引擎貫穿多場景
在知識驅動方面,我首先介紹多模態技術深度應用工業場景的案例 —— 拍立淘。在手機淘寶中,用戶會使用拍立淘拍照搜索來準確表達搜索意圖,通常是想要找同款或者比較價格。因此,充分理解 Query 圖片和商品,實現同款商品準確檢測,不僅影響用戶體驗,也決定了商家對這部分精準用戶的有效投放。
可以說,廣告投放的多個環節都涉及到多模態技術的運用。我們首先針對商品主體檢測,提出基于文本 prompt 的多模態目標檢測方法,通過文本和圖片主體的對齊來提升目標檢測效果,相比單模態方法在檢測 mAP 指標上提升 2.1%。
在識別主體后,我們通過多階段的表征預訓練框架,訓練了面向同款檢索的商品多模態表征,并通過高性能向量化檢索引擎實現在線實時同款商品召回,top100 召回商品同款率超過 98%。
對于商品多模態統一預訓練表征,我們使用了預訓練 + 微調的兩階段訓練范式。第一階段使用超過百億級電商圖文語料,采用圖文掩碼建模任務做無監督預訓練,讓模型在見過更多數據后,學得更好的圖文編碼器;第二階段使用超過十億級拍立淘成交圖文對,采用對比學習任務做有監督微調,并在 loss 上同時對齊圖像、文本和圖文,不同模態之間更好地對齊。
為了支持多模態模型的高效訓練,阿里媽媽技術團隊研發了基于 MDL 訓練框架和 AiLake 存儲系統的大規模多模態訓練平臺。目前基于 100 張 A100 卡,我們可以在兩天內完成 50 億量級樣本的訓練。
除了商品檢索的多模態技術創新,阿里媽媽還針對智能創意、營銷分析、平臺提效、業務反作弊等多樣化商業場景開發了 AI Serving4LM(大模型服務)引擎,具備千億參數規模的大模型服務能力。
邏輯推理篇
決策智能、增強分析助力商家精準投放
在邏輯推理方面,我將首先介紹阿里媽媽的決策智能技術體系。
我們以智能營銷決策大模型 AIGA(AI Generated Action)為核心塑造了智能營銷技術體系,其中 RL-based Bidding(基于強化學習的出價)幫助商家顯著提升營銷效果,Learning-based Auction Design(基于學習的拍賣機制設計)更加高效地統籌優化多方利益。該技術體系完整架構如下圖所示。
智能商業化策略解決的是,什么樣的資源進行拍賣對平臺最高效且最能平衡用戶體驗和商業收入。
智能拍賣機制決定了流量資源分配給哪些廣告主以及扣多少錢,其本身也是一個可決策問題。我們提出并落地了 Deep GSP、Neural Auction、Two-stage Auction 等多個創新算法。
智能出價策略面向精細化出價的決策過程,通過多參出價策略、RL 參數優化或建模范式(如 Max Return 等)進行優化。
底層是基于算法的工程架構,包括海量數據實時處理、ODL(在線深度學習)模型訓練等,它們構成技術體系的基礎。
其實,我們團隊很早就開始嘗試用生成式大模型重塑智能營銷技術體系,并衍生出了 AIGB(AI Generated Bidding)領域技能模型。作為一種基于生成式模型的出價模型優化方案,AIGB 將策略建模作為條件生成模型,消除了以往 RL 學習視角下的復雜性問題。
具體地,我們引入生成式模型將序列決策問題建模為一個序列動作生成問題。模型通過擬合歷史軌跡數據中的行為模式,達到策略輸出的目標。從結果來看,在通用數據集上,相較主流 RL 方法取得較好效果提升,為 Bidding 建模提供了一個可用的迭代方案。
接下來講如何利用數據進行決策。對于淘寶平臺上百萬級中小商家而言,利用數據驅動決策的能力是可望不可及的。因此,我們希望借助 LLM,讓數據轉化為知識,并讓知識普惠所有商家尤其是中小商家的經營決策。
如何實現呢?具體流程可以參考如下 demo。首先利用 LLM 理解客戶意圖、分析任務規劃;然后在分析層,OLAP 引擎對多維數據集進行分析模型的自動化探查,向客戶提供描述性、診斷性、預測性和行動性知識;最后 AI analyst 將這些領域知識和洞見以 Data Story 的形式向客戶解讀。并且,這些功能將在隨后的產品中逐步開放給商家。
總之,通過增強分析,我們希望發揮數據在高質量業務決策中的關鍵作用,獲得更深刻、敏捷的數據洞察。
最后來看智能營銷引擎,我們形成了多模態應用范式驅動的交互式策略生成技術工程體系。在邏輯推理的工程引擎方面,為了更好地提升客戶投放效率和效果,阿里媽媽自研超融合多模智能引擎 HME。
目前我們已經形成覆蓋 OLAP、AI、Streaming、Batch、運籌優化五大方向的智能超融合引擎,圍繞洞察 - 策略 - 投放 - 衡量的全鏈路場景,解決商家多經營目標組合優化的難題。
創造性篇
用創意服務為商家減負和增效
至于阿里媽媽的創造性方面,我將通過以下幾個場景具體展開。
第一個場景是智能圖文創意。針對很多中小商家沒有制作創意圖預算的情況,我們利用內容生成技術為他們制作創意圖片。目前每天為百萬商家制作數以億計的商品創意圖。
同時為了讓創意圖片更美觀且更原生,我們研發一整套圖片制作算法,包括 AI for 底圖生成、圖片智能布局和基于上下文的多模態圖上文案生成。
流程是這樣的:首先對商品建模,利用擴散模型對商品前景生成不同氛圍且融合度高的背景,裁剪尺度合適的圖片;然后選擇適合圖片的文案、襯底、Logo 或其他裝飾元素;最后根據預測出的文本框位置、大小及周圍顏色紋理,預測應該寫什么文字。
第二個場景是虛擬模特。淘寶服飾商家會請模特來試穿,模特本身、布景、拍攝都要花不少錢。針對此,我們利用創意生成技術研發虛擬試裝模特。
下圖左為虛擬模特穿售賣衣服的圖片,其中模特的性別、年齡、膚色、發型以及背景場景都可以個性化選擇。商家基于自售衣服的特點選擇屬性,然后根據投放結果進行優化,時間和制作成本大大減少。
我們在技術上獨創前、背景多次生成的流程,利用局部紋理控制網絡來精細控制生成內容,并根據特有任務定制化訓練基礎模型,解決了目前模特換裝中服飾還原度不夠和前背景邊緣不清晰問題。
第三個場景是多種風格字體生成。商家做創意有時要花錢購買商用字體,我們為他們提供了多款免費、有特色的字體。如何做到呢?我們借鑒古代石碑、書籍中獨具風格的文字,利用 AI 字體風格生成技術學習建模一種字體風格,再推廣到所有常用字,得到一種可用字體。
如下圖左,我們根據東晉著名碑刻拓印「爨 (cuan) 寶子碑」和顏真卿真跡「多寶塔碑」分別訓練成了「阿里媽媽刀隸體」和「阿里媽媽東方大楷」。目前我們一共免費開放了 5 種字體。這些字體采用我們自研的字體風格遷移算法,提出了內容融合和投影字符損失等創新模塊,發表在了 CVPR 2023 上,遷移效果業界領先。
除了通過上述多個創意性產品來為中小商家「減負」和「增效」,阿里媽媽一直希望推動 AI 技術普惠,讓更多中小商家享受科技紅利。這里我要談一談阿里媽媽的 AI 技術產品 —— 萬相臺,從媒體流量變現切換到商家經營需求視角,通過 AI 技術在全域流量上最大化滿足商家拉新、上新、大促等不同營銷需求,助力生意增長。
萬相臺的全鏈路流程。
除了深耕于融合業務場景的技術創新和應用,我們也非??粗毓I界與學術界的深度融合、相互促進。我認為現在也是學術界和工業界更加緊密聯系的一個契機,雙方通過產學研等合作方式,可以實現從 AI 理論到工業實際應用場景的落地。
因此, 阿里媽媽正和國內眾多知名高校、研究機構開展多個方向、多個項目的產學研合作,其中代表性的是 2022 年 9 月成立的「北大 - 阿里媽媽人工智能創新聯合實驗室(PAAI)」,重點攻關 AI 理論和創新算法研究。自成立以來,實驗室已在大規模圖模型、決策智能和智能音樂生成等方向有了一些研究成果和應用。
目前實驗室已有 5 篇以上論文被 KDD、IJCAI、WWW 等國際一流頂會接收,大規模圖模型和決策智能技術在阿里媽媽應用場景的落地也在有序上線準備中,智能音樂生成方向也完成了廣告配樂小樣的生成。
感興趣的讀者可以訪問該實驗室網站:http://paai.pku.edu.cn