日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

6月6日下午,由中國人工智能學會(以下簡稱CAAI)主辦,新浪新聞聯合中國傳媒大學共同承辦的2021全球人工智能技術大會(GAITC 2021)“發展與挑戰”專題論壇在杭州拉開帷幕。羅徹斯特大學教授、ACM/AAAI/IEEE/SPIE/IAPR Fellow羅杰波在本次專題論壇上,以視頻接入的方式與來自業界,學術界的嘉賓們分享了《矛與盾:虛假信息的甄別與散布之戰》的報告。

羅徹斯特大學教授、ACM/AAAI/IEEE/SPIE/IAPR Fellow羅杰波。

羅杰波教授提到,社交媒體由于它的通用性和開放性,同時也帶來了其他問題。最大的問題就是虛假信息,包括謠言以及不實的消息,從而成為巨大的社會問題。為了控制謠言的散布增強新聞的可信度,我們必須用自動檢測的方法來檢測這些虛假信息。

以下為羅杰波教授演講實錄,內容經編輯略有刪減:

大家好,今天給大家報告的題目是《矛與盾:虛假信息的甄別與散布之戰》。社交媒體近年來已經成為獲取新聞和了解輿情的重要渠道。社交媒體由于它的通用性和開放性,同時也帶來了其他問題。最大的問題就是虛假信息,包括謠言以及不實的消息, 已經成為巨大的社會問題,為了控制謠言的散布增強新聞的可信度,我們必須用自動檢測的方法來檢測這些虛假信息。

今天給大家介紹一下我的研究小組在這方面的工作,包括在一些重大的事件中謠言的影響。

眾所周知社交媒體上充滿各種謠言和虛假新聞。虛假信息檢測有很多的應用,對于社交媒體平臺來說,這有助于保證他們的可信度;對于新聞、媒體來說,有助于保證新聞的可信度。

謠言檢測具體的做法有兩個重點:一點就是特征提取,另外一點就是建立一個檢測模型。從特征提取來說有這么幾大類:有文本的特征、有圖像的特征、有用戶的特征也有傳播的特征,這些特征都是有用的。

對于檢測模型來說有兩大類的方法,前期大家用的都是檢測模型,也就是說建立一個模型把任何一條新聞分類成要么是真實要么是虛假的。這是針對內容來的,針對內容的方法有一個缺點,它忽略了謠言傳播上的特性。

所以后來有以傳播模型為主的檢測方法,把新聞傳播中的各種entity變成了網絡,通過網絡的分析進行謠言檢測。這樣的方法比前面根據內容的方法一般來說要準確的多。但我們可以證明把這兩種方法結合在一起,以取得最高的檢測度。

今天我大概介紹一下前期的三個工作和我們最近正在做的工作。前期三個工作第一個工作是AAAI2016的,它代表的是用graph-based傳播模型進行檢測的。.ACM Multimedia 2017這個工作主要是對多媒體的內容和特征進行檢測。

先講第一個:我們想通過社交媒體上消息傳播過程中自然會產生的對立的觀點來進行謠言檢測。 圖示這個就是框架,有一條消息傳播的過程中有人支持這個消息有人反對這個消息。

有三條消息,這兩條消息互相支持,這兩條消息互相反對。 對互相支持的消息來說,如果我們知道其中一條是可信的,那么另外一條也是可信的。反之,對立的觀點如果其中一個是真實的,那么另外一個就是虛假的。 這個特性在以前的工作中沒有被采用,我們在這個工作中利用互相支持和互相反對的關系來做謠言檢測。

第一步首先要把互相支持和互相沖突的觀點找出來。 首先有Topic Model,然后有傳播網絡,傳播網絡中把沖突的觀點找出來,也就是互相支持的消息就把它標成綠的,互相反對就標成紅的。

有了這樣的網絡之后可以計算這個可信度,具體的可以參見這篇論文,通過互相支持和互相反對的關系在網絡中把謠言要么證實要么證偽。

這是具體怎么計算傳播中權重的公式。下面講一下結果,我們會看到這兩個工作是前面的工作,是基于內容的,第三個工作是我們計算所合作者組里早先的工作,他們考慮到了傳播中的特性。 CPCV就是我剛剛介紹的方法,是考慮到了傳播過程中消息之間互相支持互相反對的關系,因而我們取得了最好的效果。 值得一提的是這個方法CPCV有一個特點:謠言傳播的早期它的檢測的正確率很高,比起前人的工作來說很高。 我們要控制謠言,當然最好控制在早期和萌芽之中。 這種方法給我們很重要的工具就是可以盡早地控制謠言,這就是我剛剛指出的優點。

第二個工作是2017年的工作,就是怎么樣用多媒體的特征來進行謠言檢測。 我想強調一下我們是用圖像信息的,因為我們是多媒體信息。 為什么圖像信息很重要?圖像在社交多媒體中越來越廣泛的應用,新浪微博有一個統計,超過一半新浪微博的消息有圖片的。 有圖片消息的傳播更為迅速,有統計表明,有圖片的微博和沒圖片的微博傳播的速度和數量差一個數量級。

我給大家舉個例子說明一下圖像在虛假消息中的價值,有的是張冠李戴,把早先出現的圖片安到新的事件上,有的是容易引起誤解的圖片。

還有一個虛假圖片,圖片是造出來。 在帶圖片消息中文本和圖像都有可能暴露消息的虛假性,有的在圖片里,有的在文字里也是聳人聽聞的,因此暴露虛假性。

這個框架有三個部分:第一部分是通過LSTM來Model文本消息,當然LSTM同時把文本和社交上下文信息整合在一起。第二部分這個網絡是提取視覺的特征,第三個部分的模塊通過注意力機制把文本信息,上下文信息和圖片的信息整合到一起進行統一的訓練。 上下文我們指的是標點符號的應用和鏈接等等,這個看起來不是很多信息,但反而能夠暴露虛假信息。

最后這個注意力機制,把文本和視覺信息進一步整合起來。 我們做的實驗就是用兩個都是多媒體的數據集,一個是從微博抓取的,一個是從推特抓取的。比如說單模態的做法,我們把三個模態分別拿來做監測能做到什么效果。 還有一個比較簡單、直觀的融合模型。還有,我們做了兩個以神經網絡為基礎整合的方式,一個是借用了VQA,另外一個是借用了NeuralTalk。我們把所有的其他方法跟我們提出的框架進行對比,這些就是實驗結果。 有意思的是社交上下文的信息在微博里面比圖像和文本更有效,在推特就不是很有效,這說明文化上的差異。

我們也做了消融實驗。 一些用詞也會幫助我們檢測謠言,還有一些通過兩個模態分別不是很確定,加在一起就可以確信這個是虛假消息。

為了檢查相似度, 第一大類方法是term based, 主要是TF-IDF。 有一個改進的版本是BM25,是改進了TF-IDF,是把數據進行了歸一化。

講一下最新的工作,是針對新冠流行病的。這個工作還沒有發表,我們抓取了大概有160萬條關于新冠疫苗的推文。 我們通過一些手段知道這些推文是不是發真實的消息或者謠言,要么是假的要么是正常的。我們借用美國CDC打疫苗的tracker還有統計局的數據,包括疫情的一些死亡率陽性率,最后用回歸進行分析。有關疫苗的虛假信息占比情況大概是1%左右,平均下來大概不到1%是謠言。

下面用了time window計算謠言的數量。這邊time window用的是四天,另外正常發的消息用的是五天。為什么用四天和五天呢?是通過Granger Causality test決定的。關于疫情或者疫苗用的是七天,這些做法都是為了去除噪聲。

我們怎么把這些變量加到回歸關系中去?早先被另外一個研究組用的時候,他們考慮一些用戶的特性,比如說性別、年齡等等。 我們同時也考慮了用戶的經濟能力等等。

最后提一下另外的相關工作。 現在網絡上有很多散布仇恨的言論,有一個現象就是這些散布仇恨言論的人,他們會試圖逃避檢測軟件。 檢測軟件會靠關鍵字檢測仇恨言論,為了逃避這些檢測,他們用了代碼,這個是比較狡猾的方法。

我們做了一個工作,我們檢測這些仇恨言論,是通過仇恨代碼,而不是根據關鍵字。 而且是根據文字上下文來檢測是不是仇恨言論。 還有一個特點, 這個方法可以繼續跟蹤仇恨代碼演變。 這些散布仇恨的人很狡猾,當他們知道軟件發現是這樣用的時候會改仇恨代碼。我們怎么樣持續地跟蹤?我們是用自然語言理解的方法分析經常出現在一起別的信息,只要這些別的信息同時出現,可以反推,繼續跟蹤。

最后我做個小結。 第一,虛假信息檢測是非常重要的研究方向,同時對社會有很大的應用價值。第二,虛假信息檢測中多媒體內容的分析非常重要,而且可以和信息傳播的分析一起結合來提高檢測率。 第三, 現在講可解釋的AI,對虛假信息檢測而言可解釋性也很重要,我們要知道為什么算法說它是虛假信息。

最后,在重大事件期間通過檢測和發現虛假信息,我們可以發現很重要的公共意見和輿情信息。關于虛假信息散布和甄別的戰爭是長期的戰爭,將會是一個持續的研究課題。

分享到:
標簽:自動檢測 虛假 專題 論壇 信息 GAITC 羅杰
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定