近日,第三屆中國人工智能大賽的最終結果出爐,網(wǎng)易易盾斬獲雙賽道冠軍。至此,網(wǎng)易易盾已連續(xù)3年成功奪得大賽冠軍。
憑借在音視頻AI技術的積累及與黑灰產(chǎn)對抗的豐富經(jīng)驗,網(wǎng)易易盾AI實驗室-音視頻團隊在「說話人相關的音頻深度偽造檢測」和「深度偽造視頻生成方法識別」雙賽道中榮獲最高級A級證書,并在「深度偽造視頻檢測」賽道中獲得B級證書。
經(jīng)過近5年的發(fā)展,網(wǎng)易易盾一直利用人工智能(AI)技術不斷深耕,在內(nèi)容安全領域的多樣場景下適應落地,以信息技術賦能互聯(lián)網(wǎng)時代的數(shù)字風險治理。
一、角逐數(shù)月,交出最新成績單
由國家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部、國家廣播電視總局、廈門市人民政府聯(lián)合主辦的第三屆中國人工智能大賽近日正式收官。
本屆大賽歷時近3個月,集結了來自全國的164支隊伍,重點聚焦算法治理、深度偽造音視頻檢測、網(wǎng)絡安全等方向,以競賽方式解決現(xiàn)實場景中需求問題,發(fā)掘一批人工智能領域的技術領先團隊,推動人工智能與傳統(tǒng)行業(yè)深度融合與跨界應用。
2021年是網(wǎng)易易盾參加競賽的第三年。在工程師的創(chuàng)新性探索下,網(wǎng)易易盾分別在前兩個年度一舉拿下“旗幟識別”與“視頻深度偽造檢測”賽道最高級A級證書。
以深度偽造為代表的網(wǎng)絡安全問題屢禁不止,也給社會公共治理帶來嚴峻挑戰(zhàn)。與往年相比,本屆競賽的一個關鍵點在于AI技術的落地性與成熟應用,讓深度偽造的技術檢測成為監(jiān)管治理的利器。
二、兩大方向上的創(chuàng)新工作
1音頻方向:聲紋鑒偽技術
為了兼顧高性能與低功耗,易盾AI實驗室團隊設計了“聲紋識別”與“分類模型結果”相融合的解決方案,發(fā)揮兩者優(yōu)勢識別千變?nèi)f化的偽造音頻。在驗證集上,團隊通過深度學習的方式,學習了融合兩個模型輸出的最佳方案,以此作為最終的鑒偽系統(tǒng),獲取更準確的檢測結果。
01 跨語種干擾消除
數(shù)據(jù)一直是通用智能發(fā)展的阻礙。在多語種的場景下應用,常規(guī)的解決方案是加多種語種的數(shù)據(jù)進行訓練,面臨不同語種的標注數(shù)據(jù)收集的難題:一是,部分小語種獲取標注數(shù)據(jù)成本大,二是,出現(xiàn)各個語種樣本數(shù)量不平衡的問題,三是,難以完全覆蓋測試數(shù)據(jù)的語種范圍。為了突破多語種數(shù)據(jù)受限的瓶頸,易盾團隊引入了創(chuàng)新的“對抗訓練”方式。簡單而言,就是讓學習到的聲紋特征不具備語種信息,同時在高維空間中有一個類內(nèi)緊湊,類間距離大的一個表達。通過技術升級,在比賽的驗證集中,等錯誤率(EER)成功降低2%左右。在業(yè)務場景中,可以支持跨語種的聲紋識別,在提供覆蓋面更廣的服務的同時,提高模型在小語種與語種混雜場景下魯棒性。
02 標簽噪聲糾正
在訓練聲紋模型時,一旦標注數(shù)據(jù)出現(xiàn)誤標注,即標簽噪聲,就會影響最終訓練得到的模型的精度。傳統(tǒng)的解決方案依靠于人工挑揀,去除錯標數(shù)據(jù),而人工成本大,時間周期長,并不是良策。對此,易盾團隊做了重大突破。團隊引入subcenter-arcface損失函數(shù),它通過為每個類劃分多個子中心,只要求訓練數(shù)據(jù)離任意一個子中心小于一定距離即可。高效抑制標簽噪聲的方法,不要求模型強行去擬合那些噪聲標簽,同時又能學習到好的聲紋特征,極大地提高了對錯誤標簽的判別力度,助力錯誤率(EER)有效降低1%左右。
03 模型結構的探索
易盾團隊對聲紋識別的模型結構做了重大升級。在light-cnn的基礎上,加入各種attention的結構,并采取了多頻段分別建模再特征聚合的方式。引入attention的目的在于讓模型更好地關注對分類有幫助的頻率和時間模式上,而多頻段分別建模再特征聚合的引入,讓分類更細致。與直接用CNN做分類的傳統(tǒng)方式相比,在比賽驗證集上等錯誤率降低3%左右。
2視頻方向:視頻偽造檢測
視頻深度偽造檢測技術,面臨著偽造方法多樣、持續(xù)對抗、數(shù)據(jù)分布廣泛、后處理方式多樣等難點。針對這些問題,易盾AI實驗室團隊從數(shù)據(jù)、特征、訓練方式、持續(xù)迭代等多角度出發(fā),設計了“基于域泛化多特征融合”的解決方案,持續(xù)的提升鑒偽模型對于未知偽造方法、多樣的后處理方式、持續(xù)對抗的魯棒性。
01 基于半監(jiān)督學習的數(shù)據(jù)挖掘方法
針對上述偽造方法多、后處理方式多、數(shù)據(jù)分布廣泛的問題。從數(shù)據(jù)層面,團隊基于半監(jiān)督學習技術,設計了完整的數(shù)據(jù)挖掘、帶噪學習、持續(xù)迭代的解決方案。從提高難例占比和提升精確度的角度出發(fā),保證數(shù)據(jù)挖掘的有效性和準確性,讓數(shù)據(jù)分布更多的覆蓋未知域,從而更好的提升模型的泛化能力。從帶噪學習的角度出發(fā),提升模型對噪聲標簽的“容忍度”,從而更加高效的提升模型的泛化能力。
02 基于多特征融合的鑒偽識別方法
深度鑒偽的識別方法往往有比較強的“針對性”,一種特征或者識別方法往往對一種或者一系列生成方法有比較好的魯棒性,但是面對一個完全的開集問題,面對一個數(shù)據(jù)和生成方式都未知的偽造方式,單一的特征和方法往往很難取得很好的泛化性和識別效果。所以,我們在縱向對每個識別方法和特征進行深入研究和改進的同時,橫向的融合和選擇多種的特征,包括embedding特征、頻域特征、序列特征、人工定義特征、偽造痕跡特征等等。
03 基于域泛化的模型訓練方法
從鑒偽的角度來看,識別的數(shù)據(jù)有明確的“域”的概念。一種偽造方式與一種后處理方式的結合,就等于一個特定的識別“域”。換句話說,模型的訓練和測試數(shù)據(jù)很難滿足獨立同分布的前提假設,并且可能有非常大的域偏移。因為偽造的方式和后處理的方式多樣,并且持續(xù)發(fā)展和對抗,所以想從生成的角度窮盡所有的“域”來提升鑒偽模型的泛化能力基本是不可行的。基于以上分析,我們從域泛化和域自適應的角度出發(fā)進行模型訓練,提升模型對未知域的泛化能力、提升模型對未知分布的魯棒性。
三、持續(xù)發(fā)力深偽防范,守護清朗網(wǎng)絡
“換臉變聲”的深度偽造應用不少,幾乎具備以假亂真的迷惑性,通過AI技術對圖像、聲音、視頻的篡改、偽造和自動生成,形成高度逼真的效果。
易盾AI實驗室的“視頻偽造檢測”與“聲紋識別”能力,不僅在比賽中取得最低錯誤率,并且已經(jīng)嘗試應用在點播、直播視頻等場景下的內(nèi)容安全檢測能力中。我們助力線上圖像、語音、視頻等內(nèi)容的檢測,阻斷作惡者的內(nèi)容傳播鏈,全力以赴阻止科技作惡,如判斷內(nèi)容是否涉及敏感人員及其惡搞、是否存在深度偽造的嫌疑。
01 保護敏感人物
明星與政治人物往往成為深偽的重災區(qū),因其具備充分的圖像、聲音等公開數(shù)據(jù)用于假音頻和假視頻的仿制。在真實場景下,易盾針對敏感人員聲音的特點、應對不同清晰度、不同膚色的人像案例,對解決方案做了多輪的迭代優(yōu)化,被多家客戶應用于“深度偽造”專項清理,并且申請多項專利。
02 阻止深偽作惡
“深度偽造”的風險事件屢見不鮮,引發(fā)淫穢色情、詐騙、惡搞與侵權等問題。易盾積極跟進最前沿的偽造技術,探索泛化能力更強的音視頻“深度偽造”對抗技術,精準鑒別音視頻深度偽造,已經(jīng)可應用于多行業(yè)、多場景、多問題范疇的守護。
四、開發(fā)者共思同行,不斷給出新答案
回顧過去,網(wǎng)易易盾連續(xù)3年在中國人工智能大賽奪冠,技術持續(xù)進步的背后,浸透著工程師們的辛勤汗水,離不開默契的配合。在電腦之間穿梭的他們,是人工智能的訓練師,也是互聯(lián)網(wǎng)數(shù)字內(nèi)容的把關人。每天的大部分時間,AI實驗室的工程師們都待在一起共思同行,也隱藏著許多有趣的故事。
五、每天一個新點子的產(chǎn)生與執(zhí)行攻略
技術探索是波浪式的前進,既需要站在巨人的肩膀上思考,也需要結合當下實際的創(chuàng)新。團隊長期致力于智能聲學研究,能更輕松應對各項比賽任務,得益于平日常在業(yè)務需求中得到的鍛煉。
在比賽截止的最后一周時間里,音頻組的兩位技術搭檔正處于機器模型搭建、數(shù)據(jù)訓練、效果優(yōu)化的沖刺中。所有工作都在井然有序的節(jié)奏中完成了。
某天晚上,一位工程師結束了一天繁忙的工作,離開了自己的工位。在回家路上,他看到路上有人倒著走路健身,突然腦子里靈光一閃,冒出一個算法優(yōu)化的想法。
倒著行走的人是不是等于問題可以反過來看。他在挨過興奮且充滿討論欲望的夜晚之后,第二天一早醒來就給拍檔發(fā)了消息。幾人一番商討,重新分析了賽題,新視角下的聲學模型對偽造的反應更敏銳。
“這個想法快速成為現(xiàn)實,反而一躍成為三個參賽模型中取得最好結果的一個,錯誤率最低,也幫助我們奪冠。”他說,對團隊而言,比賽是一個發(fā)現(xiàn)問題、優(yōu)化問題的過程,基于每天測試過程中發(fā)現(xiàn)的問題,尋找解決方法,擇最優(yōu)方案而為。
未來,網(wǎng)易易盾的AI工程師們將始終堅持技術創(chuàng)新戰(zhàn)略,改進關鍵核心技術,不斷進行一個又一個課題的探索,為企業(yè)客戶帶來業(yè)界領先的技術,支持真實場景下的新功能。