7月27日,由中國互聯網協會指導、微博和新浪新聞主辦的“融合生態 價值共創”2022新智者大會召開,中國互聯網協會理事長尚冰、微博CEO王高飛為大會致辭。據了解,首屆新智者大會匯集了來自中國工程院、清華大學、復旦大學等學界的頂尖專家,以及阿里巴巴、百度、360公司、微博等知名企業的創始人或高管,他們圍繞數字化轉型、AI安全、云科技、AI倫理、元宇宙等熱門技術話題向觀眾們分享了各自的研究與思考。
在“智驅萬物:AI推動萬物互聯的加速到來”議題中,微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍發表了題為《云為數智 技術融合應用賦能微博復雜業務場景》的主題演講,向觀眾們分享了云計算、人工智能、大數據等技術在微博業務中的融合應用。
微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍做主題演講
以下為王巍先生演講實錄,內容經編輯略有刪減:
各位來賓、各位媒體同仁,正在觀看視頻的觀眾朋友們,大家上午好!我是王巍,今天很高興能夠代表新浪和微博跟大家分享交流。首先作為主辦方,我要感謝尚冰理事長、鄔賀銓院士以及各位嘉賓,對我們新智者大會的鼎力支持。另外,我還要感謝正在收看視頻的媒體和觀眾朋友 對我們的厚愛。由于疫情原因,很遺憾這次沒能跟大家在線下相聚,我們只能通過視頻的方式,跟大家匯報智能信息時代,AI發展的一些前沿技術和應用成果。
接下來,我會花點時間,跟大家分享,云計算、大數據、人工智能的前沿應用,并以微博的核心業務為例,向大家介紹一下,在實踐中,我們是如何利用技術創新,為微博的復雜業務場景賦能的。
在分享之前,我想,先來回顧下互聯網的發展歷程。
如果說PC互聯網是網絡世界的開端,那么移動互聯網的興起則是順勢而為,讓網友將這無形的信息空間裝進了口袋。
移動互聯讓信息傳輸呈現出便捷即時化、垂直碎片化、云端化等特點,這使得信息的傳播效率、范圍和影響力等,都發生了根本變化。此后,隨著大數據、云計算、人工智能等技術,與移動互聯網的疊加融合,我們逐漸過渡到了智能信息時代。
我們說,智能信息時代有四個特征——場景化、智能化、萬物皆媒和以人為本。
首先是場景化,體現在信息傳播的精準度。比如我們微博的一個用戶,正在環球影城游玩,在得到用戶授權后,我們就會根據用戶所處的場景,向他推送環球影城相關的新聞、資訊、游玩攻略等。
第二個智能化,智能化體現在人與技術的全方位交互,通過數據建模、算法訓練、機器學習等工作,實現人機協同的良性互動。
第三個萬物皆媒,萬物皆媒主要體現在,信息傳播終端的變化。現在我們獲取信息的渠道,已經不僅僅局限在手機上。在智能家居、智能穿戴、車聯網等方面,都成為了我們獲取信息的通道。這些智能設備廠商、智能汽車廠商,自然就成為了媒介的組成部分。
最后,我來講一下以人為本。其實這也是對以上三個特征的總結。無論技術發展得多么先進,它最終都要在人類社會中落地,都必須要考慮,終端用戶的需求和體驗。所以,以人為中心的AI發展道路,才能讓技術真正成為我們的伙伴,幫助我們生活得更加美好。
大家看到,我的PPT里,還有一個元宇宙。從去年開始,元宇宙就引發了廣泛的討論,比如數字孿生、數字人、XR、區塊鏈技術等,包括微博在內的很多公司也都在做布局。今天下午的元宇宙專題論壇,我們也會聽到來自元宇宙領域創業者、投資等專業人士的分享。我認為目前基于AI、區塊鏈、XR等前沿技術的應用場景,已經體現了一些元宇宙的雛形。諸如游戲、社交等領域,都是元宇宙非常好的應用場景,我相信這些應用場景,會引爆大家參與元宇宙的熱情。
當前我們處在智能信息時代。新一代智能信息技術蓬勃發展,協同創新所驅動的智能經濟,打破了原有的社會聯結架構,相應的這些技術,也驅動著互聯網生態格局發生著巨變。
我們微博搭建的技術架構,也是以云計算為基礎、以大數據為依托、以人工智能為中樞的技術架構,用來應對微博眾多且復雜的業務場景,比如微博的社交關系、用戶的多元興趣、以及全民關注的熱搜產品等等。而在這些復雜業務場景背后,起到至關重要作用的則是我們的技術研發團隊 對于技術的創新賦能。下面我就圍繞熱點應對、算法推薦、內容安全這三塊微博比較核心的業務,來分享一些我們的探索與創新。
第一部分,跟大家分享,我們如何利用云計算架構的優勢和技術創新,在短時間內聚集大量算力,從而幫助微博,從容應對熱點帶來的的流量洪峰。
我先介紹一下IT建設的發展過程。IT建設所依賴的基礎資源經歷了從服務器到云化資源的發展歷程,目前正在快速進入云原生階段。
我們先看服務器階段。這個階段IT建設的特點是以硬件設備為中心,業務應用隨不同廠商設備、操作系統的差異化進行定制;設備的安裝和調試,應用的部署和運維,基本靠人力完成,自動化程度低,缺乏統一的設備和應用管理能力。
來到云化階段,傳統模式下分布離散的設備 被統一起來,實現了各類資源如計算、存儲、網絡的池化。然后企業通過統一的虛擬化平臺,為上層業務提供資源管理接口,實現資源管理能力的自動化,從而屏蔽一部分基礎設施的差異,使得應用的通用性增強。但因為云平臺軟件的差異化,這個虛擬平臺無法在不同云廠商間進行能力共享,所以企業的應用部署還是以資源為中心。
那么在云原生階段,企業的關注點才開始從以資源為中心轉移到以應用為中心,包括應用敏捷交付、快速彈性、平滑遷移、無損容災等。因此,企業開始考慮如何將基礎設施與業務平臺融合,為業務應用提供標準的運行、監控、治理平臺,并將業務的應用能力下沉到平臺側,更好的幫助企業實現應用的自動化。
微博目前就處在從云化向云原生轉變的過程中,通過技術創新,在快速彈性和資源容災等方面都取得了很好的效果。下面我們來看應用案例。
熱點應對一直是微博業務中面臨的最大挑戰,微博作為全民關注的社交媒體平臺和輿論廣場,全社會的重大事件都會在這里發酵,很多事件都成為了全民關注的超級熱點,這些熱點事件通常是不可預知的。
以最近全民關注的“唐山事件”為例,事件當天的熱點流量較日常流量峰值翻了一倍。
如果按常規方案,微博除了采購應對日常流量的服務器之外,還要額外常備大量的服務器以應對這種突發熱點,這會造成日常服務器大量閑置,付出較高的成本。
如何用更小的資源成本,應對突發的熱點流量。這是我們面臨的第一個挑戰。
那么,隨著微博用戶體量的不斷增加,微博上面的熱點也越來越多,而且用戶逐漸養成了來微博消費熱點、“吃瓜”的習慣。進而帶來的是熱點流量越來越高,熱點流量洪峰到來的速度也越來越急。
如何更快的把擴容服務器部署到線上,這是我們面臨的第二個挑戰。同時,只要擴容速度足夠快,我們日常的服務冗余就可以降到更低,能夠大幅節約成本。
我們通過不斷的技術創新和應用,來應對這些挑戰。
微博很早就應用了微服務+Docker容器化技術,提升服務運維的效率, 實現了服務動態擴縮容能力。并且搭建了以“私有云+公有云”為資源底座的混合云平臺,通過這個平臺抹平自有實體服務器和多個公有云資源的差異,實現了高效的彈性部署和自動擴縮容能力。
當前我們已具備10分鐘調度超過一萬臺的擴容能力,用較低的成本,獲取足夠的服務器來應對熱點流量,從而解決了上面說到的第一個挑戰。
另外,我們建立了熱點監測機制和熱點聯動體系,并通過微博自研的Weibo Mesh技術,實現不同服務間跨語言的高效調用,提升整體服務的性能,和聯動擴容效率。
微博從公有云獲取服務器、部署服務鏡像、啟動服務及預熱、直到線上流量承接全流程,擴容時間大幅縮短,很好的解決了第二個挑戰。即使面對冬奧期間,多個熱點事件疊加爆發的影響,也能夠從容應對,超級流量洪峰。
當然,在當前技術架構下,調用公有云還是需要時間的,所以日常常備服務池,仍需要一定資源冗余,這樣做能為動態擴容爭取一些時間。那么,熱點來的越急,需要冗余的資源就要更多。同理,如果我們能讓擴容效率更高,對應的資源冗余就能夠降到較低水平。
針對這個問題我們采用了在離線實時混合部署技術。利用CPU實時搶占式調度技術與容器化技術相結合,實現微博服務在離線實時混合部署能力。混合部署池變成核心在線服務的臨時動態資源池;日常流量期間正常執行離線任務和服務,熱點流量到來時,可以秒級承接核心服務的熱點流量。
上面講了熱點應對,接下來,我想以微博的推薦業務為例,和大家分享在智能信息時代,我們如何用AI新技術,驅動平臺業務的智能化發展。
首先我們來看人工智能的技術發展趨勢。如果我們回顧機器學習的發展歷程,可以看出AI的總體發展趨勢是:訓練數據的海量化及多樣化,AI模型的復雜化及通用化,算力的高效化及規模化。
我們看屏幕上展示了四個相對具體的AI發展方向。
首先,是多模態數據融合。隨著5G網絡等通信技術的快速發展,圖片、視頻類型模態內容,在網絡內容中占比越來越高,所以進行模態融合非常必要,比如同時對微博的文本、圖片、視頻進行多模態融合,可以更好理解微博所講的內容。
其次,是超大規模圖計算。相對其他機器學習模型,超大規模圖計算有個特殊的優勢:通過信息在網絡中的傳遞,促進信息的流動、匯聚與集成,比如對于行為少的冷啟動用戶,我們可以通過他關注列表中的人,以及這些人發布的內容,通過信息傳播來推導這個用戶的興趣。
第三,我介紹下AI研發的啞鈴模式。目前的AI研發重點,一個是越來越大的超級大模型,一個是模型小型化技術。我們都知道,目前隨著模型參數規模越來越大,模型效果越來越好,高精度模型仍然在持續增大,比如2018年Google的Bert剛出來的時候,模型參數規模是3億,不算太大,但是之后這個數字快速增長,Open AI 研發的GPT2模型,參數規模15億,GPT3模型,參數規模1750億,2021年Google發布Switch Transformer,參數規模1.6萬億。另一方面,雖然說模型越大效果越好,但是因為模型過大,有時會導致無法落地實際應用。所以研發的另外一個重點,是將這些大模型小型化、輕量化,比如模型蒸餾、模型剪枝等技術,也是業界特別關心的。
另外一個趨勢,是AI模型從專用模型走向通用模型。谷歌在2021年下半年公開的Pathways模型框架,首先提出這一構想,希望通過構造一個通用的大模型,達到“一個模型做千萬件事”的目標。具體的思路是,不同任務數據輸入后,通過路由算法,選擇神經網絡的部分路徑,到達模型輸出層。不同任務既有參數共享,也有任務獨有的模型參數,通過這種方式來達成“一個模型做千萬件事”的目標。
講完行業趨勢,下面,我介紹一下我們的微博推薦業務。微博環境下做推薦系統,既具有鮮明的微博特色,同時又面臨著復雜的業務場景。這種特點及復雜性 主要體現在三個方面:
首先是無處不在的社交關系。我們知道,微博作為國內最大的社交媒體網絡,目前月活用戶達到5.82億,這樣的用戶規模構建起了多樣的復雜網絡。
其次,微博內容具有時效性強、多樣性高的特色,很多網絡事件都是第一時間在微博引爆的,而且作為綜合媒體,微博涵蓋了幾十個高質量的垂直領域內容。
第三,是多元化場景的推薦需求。我們微博有很多場景,比如關系流、熱點流、視頻流等,都有很強的推薦需求,要給用戶分發他們感興趣的“千人千面”的內容。
那么,面對復雜的業務場景,我們是如何應用AI和大數據對推薦系統賦能的?微博推薦系統整體由三部分構成:內容理解、用戶理解,以及推薦系統。下面我展開來講。
首先,我們來看在微博內容理解方面做的一些工作:要想搞明白一個微博到底在說什么,僅僅理解文本內容是不夠的,必須采用多模態理解技術,融合博文、圖片、視頻等多種媒體信息。我們結合微博特色,訓練了自己的微博多模態預訓練模型,通過“對比學習”,這種自監督學習方法,來進行多模態預訓練。
以圖中展示的例子來簡單介紹下: 大家可以看到,我們可以利用微博自帶的‘話題‘,來自動構造訓練數據。比如我們可以把兩個都寫著 “訓練中的拉什福德”的微博當作正例,隨機選擇一些不同話題的微博作為負例,這樣就能自動構造訓練數據。對于某條微博,其中的文本內容通過Bert編碼,圖像和視頻內容通過ViT編碼,然后通過fusion子網絡進行信息融合,形成微博的embedding編碼。這是一種預訓練過程,經過預訓練,學好的微博編碼器可以拿來對新的微博內容進行多模態編碼,形成embedding,應用在推薦等下游任務中。
在微博用戶理解方面,我們采取了超大規模圖計算,來更好地理解用戶的閱讀興趣是什么。微博的社交媒體屬性天然匹配大規模圖計算,可以表達用戶之間的關注關系、用戶和博文的轉評贊等互動行為。我們以用戶和博文作為圖中的節點,以用戶間的關注關系、用戶和博文的閱讀及轉評贊等互動行為構造圖中的邊,建立起包含10億規模節點、100億規模邊的超大規模圖。通過大規模圖計算中的信息傳播、匯聚和集成,形成表征用戶興趣的embedding向量,可以更好地理解用戶興趣。
當我們理解了微博在講什么,理解了微博用戶的興趣,那么就會通過微博推薦系統,將高質量的微博,個性化地分發給對此感興趣的用戶。我在前面提到過,微博在多元場景都有推薦需求,比如推薦流、關系流、視頻流等,每個場景都需要個性化的用戶體驗。
那么,如何在這種復雜場景下構造高效率的推薦系統呢?我們在這里采取了多場景建模的方式。我們希望只構建一個推薦模型,用它來服務多個場景。那么如何表示場景間的共性和個性呢?我們通過網絡參數在場景間共享,或者場景自己獨享私有網絡參數,來體現場景的共性與個性。比如看這張模型圖,在模型的底層特征輸入層,以及網絡中間的一部分“專家子網絡”,這些網絡參數是各個場景共享的;而其他子網絡參數則是某個場景所獨有的。通過這種方式,就可以兼顧場景的共性與個性,能夠通過一個模型服務多個場景,節省模型資源。
上面我分享了我們技術創新對熱點應對和算法推薦的賦能,接下來我要跟大家介紹下,微博在內容安全層面所做的一些技術創新和應用。
微博結合自身復雜的業務場景,自研圖神經網絡的分布式訓練框架,結合對比學習,對用戶特征和社交圖網絡編碼,學習用戶高階特征。由于海量標注數據的成本非常高,我們基于無監督的方法,學習用戶的embedding,構建用戶圖網絡模型。然后基于小規模的標注數據進行監督微調訓練,支持離線挖掘、實時預測,實現了對潛在風險信息的主動預警。
另外,在日常的運營中,微博嚴格貫徹執行《網絡安全法》、《數據安全法》、《個人信息保護法》等法律法規和相關管理規定,投入大量資源,對有害不良信息進行清理整治,以凈化網絡環境。隨著治理不斷深入,黑灰產也呈現出激烈對抗的態勢,違規圖文信息更加多樣、手段更加隱蔽,難以通過單模態判斷有害信息,所以我們必須通過圖文多模態算法,利用NLP模型(如Bert)和CV模型(如:VIT),深層次融合圖片+文本特征,然后通過特征融合網絡進行編碼, 對內容合規性作出及時有效地評估,從而有效控制灰黑產的違規行為。
此外,為了進一步貫徹落實2022年“清朗”系列專項行動的相關要求,全面整治飯圈拉踩引戰、網絡暴力等問題。我們依托海量的微博文本語料,自研預訓練模型,對站內數據進行深度語義理解、情感分析,建立了性別對立、粗俗冒犯、網暴預測等方面識別能力,對可能遭受言論攻擊的用戶進行保護,幫助國家和社會來營造安全、文明、和諧的網絡生態環境。在這里,我還想再補充說下微博對于技術的態度。曾有人說,算法沒有價值觀,但我們認為,算法的價值觀體現的是背后掌握算法的人的價值觀。所以多年來,我們也一直踐行著這樣的價值理念,用資深的運營團隊和審核團隊,努力去訓練AI,努力使我們的算法具有正確的價值觀。
以上,我們談了微博在利用云計算應對突發熱點、運用AI和大數據為算法推薦、內容安全賦能的一些探索和成果。最后回到大會的主題“融合生態 價值共創”,我想說,技術的發展速度有時超乎我們的想象。曾經我們暢想的未來已經站在眼前。無論是互聯網企業還是傳統企業,都應該在萬物互聯的格局下,重新思考未來的發展戰略,用AI思維去思考,用更加開放的心態與新技術去融合,讓云計算、AI、大數據等技術,成為我們發展的基礎底色,為社會創造更大價值。
以上就是我分享的全部內容,感謝大家的收看,最后預祝大會圓滿成功。謝謝大家!