6月6日,由中國人工智能學會(以下簡稱CAAI)主辦,新浪新聞聯合中國傳媒大學共同承辦的2021全球人工智能技術大會(GAITC 2021)“發展與挑戰”專題論壇在杭州舉行。微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍,CAAI智能傳媒專委會副主任、中國傳媒大學腦科學與智能媒體研究院院長、教授曹立宏共同擔任論壇主席。
復旦大學計算機學院教授、博士生導師黃萱菁女士在本次專題論壇上,與來自業界、學術界的嘉賓們分享了《基于深度學習的智能社會媒體挖掘》。
黃萱菁作主題演講。
黃萱菁認為,對社會媒體發布的信息進行處理,首先需要理解媒體發布的文字內容,并在其中發現各種各樣有價值的信息,即價值發現,隨后在進行傳播趨勢預測。
她提到,價值發現和傳播趨勢預測實際上需要有很多基礎支撐。比如通過自然語言處理技術讓語言可計算,對社會媒體上非規范的語言結構進行分析,對不同語言的文字信息進行處理,以及利用技術手段對文字信息進行情感處理。
以下為黃萱菁演講實錄,內容經編輯略有刪減:
各位嘉賓下午好,很高興和大家分享我們在智能社會媒體挖掘上的一些工作和看法。
我們知道,今天中國有十億多的互聯網用戶,用戶、媒體從起床到睡覺,長時間沉浸在各種內容中間,進行各種內容消費。貫穿全天最重要的內容消費方式就是我們的社會媒體,統計表明過去幾年間,人們消磨在社會媒體的時間越來越多,按照2019年的數據,人們每天有兩個半小時在玩各種各樣的社會媒體。
那我們要消費什么內容呢?首先,我們要和自己的親人、朋友聊天,這是一類。然后我們要娛樂,我們要獲取各種各樣的信息,包括新聞信息、社交信息。我們分享自己發生的事情,跟大家分享自己的觀點。
在社會媒體上面存在各種各樣有價值的信息。首先是商業信息。有統計結果表明,在社交媒體上進行銷售,它的轉化率很高,大概有55%能最終轉換為銷售的行為。
除了商業價值,我們看一下社會媒體的社會價值,通過社會媒體可以向總理說話,可以建言獻策。通過關注學術媒體我們可以知道會議的信息,比如投稿延期了,還可以宣傳自己的工作,獲取各種各樣的信息。
過去幾年,我們在社會媒體信息處理開展了一些研究,主要分成下面幾塊,第一塊是理解社會媒體的內容,我是搞自然語言處理的,所以我們說的主要是文字內容。我們從社會媒體上發現有價值的信息,預測社會媒體未來的趨勢。
主要工作分為兩類,一類是價值發現,一類是傳播預測。價值發現是在社會媒體發現各種各樣有價值的信息,以日本地震這個話題為例,我們可以識別時間、地點、對象、范圍等實體,能夠判別實體的關系,還能夠判斷情感傾向,比如是譴責發生核泄漏的行為,對受害者表示同情,稱之為價值發現。
在價值發現之后我們進行傳播趨勢預測,我們利用社會媒體構造一個異構網絡,由信息空間和社交空間組成,在信息空間之上我們可以得到社會媒體的各種內容信息,通過社交空間,我們可以分析普通用戶,網紅、機構等用戶,通過他們之間的互動形式,跟信息空間的交互,可以得到很多有價值的信息,從而進行各種各樣的預測,比如可以預測謠言等各種各樣的行為。
為了做價值發現和傳播預測,我們需要有很多基礎支撐,需要讓字詞句子篇章的語義可計算。語義的計算需要自然語言處理,作為社會媒體的語言信息處理還要考慮社會媒體的特殊性,比如字詞不同的表現形式。另外中文也有中文的特殊性。
我們的研究主要是以自然語言處理作為基礎支撐研究社會媒體的新聞發現,預測它的傳播趨勢。
首先是語義表示。所謂的向量,或者叫嵌入,指的是在統一語義空間用統一的方式去表示知識、文檔、句子、詞匯,便于進行語義分析、句法分析、詞法分析等下游業務,其目的是為了解決大數據自然語言處理帶來的數據稀疏問題,實現跨領域的遷移。
過去幾年隨著深度神經網絡的發展,在詞嵌入方面我們取得了很多的進展,大致上可以分成兩個階段,比如早期的,我們稱之為上下文無關的詞向量,它對每一個詞產生可計算的、分布式的向量表示。但是它有一個缺點,不能處理一詞多義的情況,比如說蘋果,可以說我在蘋果公司工作,也可以說我吃了蘋果,這是兩種“蘋果”。用一個向量表示一個詞是不夠的,所以近年來更時髦,比如說基于BERT和ETMO的一些方法,能夠生成上下文相關的詞向量,根據一個詞所在的句子判斷整個句子的語義。
對我們來說,在社會媒體之上進行語言處理還面臨更多挑戰,比如首先社會媒體上例如“OMG”這樣非規范的形式讓語言結構難以分析,難以擬合;各種各樣的網絡用語,比如“C位出道”等,基本上每天都有新的詞語出現,給語義分析帶來了難度。
還有我們現在統計方法、神經網絡的方法需要大量數據,尤其是人工標注的數據,但是社會媒體上標注數據的規模和我們常見的新聞領域相比可能只是1%的規模,可用的數據少了,必然帶來社會媒體應用性能的下降,面對這樣的挑戰我們需要開展很多的改進措施。
第一個工作是視覺信息增強的詞嵌入。舉個例子,象形字的形狀是有語義的,另外形聲字,偏旁部首也是有語義的。我們希望在詞和字建模語義的時候還要結合形狀信息,具體做法是增加了卷積神經網絡層,因為這個網絡能夠捕捉視覺信息。我們把視覺信息跟后面的文本語義信息結合在一起,試圖對社會媒體之上的語言行為做一些建模,也確實取得了不錯的效果。
下面一個工作是動態跳邊的長短時記憶網絡。剛剛我們提到,社會媒體的依賴關系難以捕捉。對語言來說經常是長距離的依賴關系。像“姚明出生在上海”,“上海”跟“出生”有關聯關系,而不是跟前面的詞有關聯關系。傳統的方法一般是利用句子的線性序特征,但很難捕捉非常復雜的依賴關系。我們提出一個方法,在找詞語依賴時不是去找前一個詞,而是往前翻,看哪個詞相關性特別明顯。至于怎么樣找最好的詞,我們通過強化學習的方法取得,最終這樣的表示方式,讓整個語言模型的困惑度下降了,可以更加精準地預測未來要說的話。
我們要處理中文漢字,西方語言的處理方法不能簡單用到中文信息處理上。在中文信息處理上,我們經常會把詞表示和字表示結合到一起,這樣保留字信息和詞信息就可以取得更好的性能。
所以我們需要引入詞典加強語義表示能力,我們提出了兩種神經網絡,第一種采用卷積神經網絡,它是一種暴力方法,試圖把句子中間所有可能的詞和實體都找出來。比如我們找到更長的實體“廣州市”,就可以抑制其他有交叉的較短的實體“廣州”和“市長”。
另外我們還可以用圖來表示整個神經網絡結構,這個網絡用節點表示字,詞表示邊,這樣的話可以一次性把句子中間所有的字和詞建模在一起。通過這樣對神經網絡進行改進,我們可以更好地從中文提取實體信息,這就是剛剛說的價值發現的重要內容。
另外中文沒有窮盡的詞典,碰到詞典中沒有的詞很難辦,這種情況我們提出了“教師-學生網絡”,這樣即使我們碰到一個不認識的詞,我們也能抓到它的部分語義。
這塊工作是基于Transformer的中文NER。大家知道這兩年自然語言處理大量采用Transformer模型。它的好處有兩點,第一點是全連接結構,不需要去做動態的結構表征,速度會非???;模型的可并行性也很高,可以解決傳統方法信息傳遞效率不高的問題。
另外的思路將中文詞典信息結合到輸入表示層。為什么識別實體的時候需要詞的信息,因為它們可以提供實體的邊界信息。比如李明是一個人名,中山西路是一個地點。其中,李可能代表人名的開始,路可能代表地名的揭示出,根據這樣的信息,可以更加有效地判斷這樣一個實體。
另外一個工作是利用遷移學習解決標記數據稀缺,我們講到在社會媒體上現在訓練數據特別稀缺,可能只有新聞媒體的1%,怎么辦?只能盡量用手上有的信息。比如我現在有一個英文的詞性標注語料庫,同時還有推特的數據,雖然沒有人工標注詞性但也存在大量可用的未標注信息,然后通過這兩種信息可以把現有的模型很好地遷移到推特領域,從新聞領域中提取領域不變的特征,用到推特分詞和詞性標注,還能夠保持推特特有的模式。我們這塊工作在英文詞性標注排行榜上長期排名前兩位。
這塊是情感詞典指導的情感分類的作,剛剛說情感傾向也是社會媒體上的重要的信息。傳統上通過神經網絡方法是很難去利用我們現有的詞典信息的,我們在訓練詞的情感極性、判斷正面負面強度多少的時候,可以加入情感詞典,如果我們能夠正確判斷句子中哪些詞是情感詞,并且情感的強度是多少,就能夠更加精準的提升情感分類性能,這個文章拿到了COLING的領域主席推薦獎。
下面開始介紹在社會媒體推薦方面的工作?,F在我們已經有了自然語言處理技術,我們對詞進行表示,對文章進行表示。我們還考慮到了社會媒體之上詞和字的一些特殊性,中文的特殊性,我們識別實體,能夠判斷情感,能夠抽取有價值的信息,我們基于深度學習開展智能社會媒體挖掘,我們采用了自然語言處理的神經網絡方法,該網絡包括詞嵌入層,還有編碼層,解碼層,最終得到判斷的結果。
除了社會媒體上的文字內容以外,我們需要利用各種有價值的信息,比如網絡的結構信息,用戶行為,比如我們知道在社會媒體上用戶可以發貼、分享、點贊、轉推、評論甚至下載、訂閱,我們可以利用這些顯式和隱式的行為幫助我們分析和判斷。
社會媒體的用戶行為受到各種因素的影響,分析社會媒體用戶行為,一方面要看用戶發了什么內容,這個稱之為聽其言;另一方面我們還要觀其行,看他的行為,比如他是如何跟別人發生交互的,看他的朋友圈,看他的社交圈,看他社交關系的影響力、粉絲數量多少。
我們還要看用戶在什么樣的一個客觀條件下做出某些行為的,比如平時不是一個體育迷,但到了世界杯、奧運會還是會關注,要受社會熱點的影響,;圈外還要看環境因素的影響,看時間、空間、有了聽其言、觀其行之后,可以做各種各樣的傳播趨勢預測工作。
比如說可以做微博的標簽推薦,可以給微博推薦大V,可以預測微博貼子會不會被轉發,客戶接下來會參加什么話題,也可以在社會媒體挖掘當中融入多模態的信息。
這是關于用戶畫像的工作,我們需要構建社會話題、用戶屬性,有了屬性之后才可以進行各種分析和挖掘,比如說我們知道用戶的性別、地域、發貼數等。去年我們在新冠肺炎疫情期間做了一個用戶畫像,包括情感分析等。
我們也做了一些關于謠言檢測的工作,說一下我們的結論,經過研究發現對待社會媒體上的謠言怎么辦?要讓子彈飛一會兒,一開始謠言可能有人相信,但隨著時間的推移,謠言一定會有很多人質疑、會有人證偽,我們要相信群眾的眼睛是雪亮的,經過時間能夠判斷出來。
下一個是微博標簽推薦,比如說明天是高考了,我希望可以有一個系統幫我自動推薦一下,比如說打一個標簽,參加哪一個話題。在給微博打標簽的時候,除了考慮微博的內容,比如說同樣是“蘋果”要打“iPhone”的標簽還是吃的“蘋果”,要根據用戶的歷史信息,比如說是農村互聯網的用戶可能是種蘋果的,是“蘋果”標簽,如果是手機的粉絲是要打另外一個標簽。要根據用戶的歷史微博挖掘用戶的興趣,判斷如何給微博打更合適的標簽。
有的時候我們發一個貼子,比如說我要求助,求助某個機構或者大V,我發一個貼子,希望增加權威度,我應該@誰,這里面我們就提出了一個算法,如何@微博給合適的人。
我們的工作就是結合微博的內容,結合用戶歷史微博,結合用戶感興趣的話題,這是用戶方面的渠道信息。我為什么要把我的微博推薦給某些大V,也許他的發言內容和我這條微博的內容相關,也許我寫的東西可能是他感興趣的內容,所以我們就可以用這種匹配網絡,從這兩個渠道進行分析,最后可以提升消息被轉載的概率。
我們發現同樣給用戶推薦標簽,不太經常發微博的用戶好推薦,但如果有一個用戶是重度微博用戶,有成千上萬條微博,怎么給他加標簽,是不是要看過去所有的信息,這樣效率不高。所以我們提出了一個基于強化學習的方法,這個方法會自動從用戶歷史微博當中找出哪些微博跟當前微博關系密切,我們進行有針對性的推薦。這就是基于大規模用戶范圍歷史的推薦。
這想工作的話是轉發預測。對于一條學術界微博,帖子內容非常重要,提到投稿時間馬上要到了,24小時之內就應該馬上投稿,但是只有一個轉推,六個點贊,可能科學家會比較矜持;而對于明星,他的轉發已經到了上限。所以在預測轉發行為上要看這是誰發的微博,還要看內容,不是說干貨越多越容易被轉發。為此我們建立了一個微博的數據集,訓練了一個轉發預測系統。
除了看到用戶行為,還要看到用戶所在的時間信息、時空信息。比如說世界杯期間因為墨西哥在某一場比賽贏了德國隊,墨西哥人大量轉發各種各樣關于足球的新聞,即使原來不是足球的粉絲。我們提出了一個熱點話題預測轉發算法,當所提到的話題是熱門話題時,用戶更有可能轉發你的貼子。
還可以判斷用戶會不會參與某一個話題,比如說今天的熱門話題“廣州疫情”,怎么判斷用戶是不是會參加這個話題,我們也是根據用戶本身發貼的歷史,還有這個話題內有哪些重要的微博信息,根據他們之間的匹配關系判斷用戶是否會參加這個話題。
最后再介紹一下,觀其言并不是只看語言文字,還可以看各種各樣的多模態信息,以@用戶為例, mac可能是電腦也可能是時尚品牌,我們有了圖片信息就知道應該@給化妝品牌而不是蘋果廠商,所以我們可以在推薦的時候不僅可以看文字信息還可以看圖片信息。
這是我們前些天做的一個工作有個人發了一條文字推文“每個人都很快樂”,但是他同時也發了一張陰郁的圖片,可以看出這個人有一點抑郁傾向。而這是光看文字是不能夠發現的,如果把圖文結合成兩個信道,一個信道是文字信道,一個信道是圖片信道,就可以得到比較準確的結果。
總結一下,我們在新浪微博等社會媒體上,用自然語言技術開展研究,進行語義計算,從中發現有價值的信息,也做了一些傳播方面的粗淺預測,謝謝大家。