近日,在國際語音頂級會議INTERSPEECH 2022首屆Spoofing-Aware Speaker Verification(SASV)挑戰賽中,由昆山杜克大學與OPPO小布助手團隊聯合組建的隊伍“DKU-OPPO”,在與全球23支頂尖隊伍同臺競技鏖戰后脫穎而出,榮獲大賽亞軍。
INTERSPEECH是由國際語音通訊協會創辦的頂級旗艦國際會議,是全球最大的綜合性語音信號處理領域的科技盛會之一。作為INTERSPEECH 2022的特別會議,首屆SASV由韓國、法國、芬蘭等國家多個研究機構共同組織,旨在促進同時集成聲紋識別和偽造音檢測兩項技術的聯合系統的進步。
領跑國際競賽,開啟聲紋識別和偽造音檢測聯合系統新征程
在聲紋識別領域,大多數研究機構要么關注聲紋識別技術,要么關注偽造音檢測技術,很少同時關注兩個技術,并在技術層面進行聯合優化。隨著聲紋識別技術和偽造音檢測技術的發展和進步,同時集成兩項技術的聯合系統亟需提上議程。
針對上述挑戰,DKU-OPPO憑借在實際應用場景中獲得的豐富經驗,對參賽系統進行了級聯設計Cascade-ASV-CM,針對聲紋識別模型和偽造音檢測模型分別進行聯合優化,在得分層面進行邏輯融合。
在激烈角逐下,DKU-OPPO最終以各項領先的成績奪得亞軍,并顯著領先于第三名團隊,為同時集成聲紋識別和偽造音檢測兩項技術的聯合系統提供了優異的解決方案。
合力突破聲紋識別瓶頸,推動行業技術發展
聲紋識別也稱為說話人識別,是從一段語音中自動識別出說話人身份的一門技術。按照任務不同,可以分為說話人確認和說話人辨識。說話人確認(Automatic Speaker Verification),即判別出一段語音是否為某個人所講;說話人辨認(Automatic Speaker Recognition),即識別出一段語音具體為哪個人所講。
近些年,隨著深度學習的快速發展,聲紋識別的性能得到了顯著提升。然而,在實際場景中,聲紋識別仍面臨著諸多挑戰,在技術攻克與落地應用中并非易事。例如聲紋欺詐,即利用技術手段達到讓偽造目標說話人的聲音欺騙并通過聲紋識別系統的目的。
聲紋欺詐手段主要包括三點:1、利用特定人語音合成技術生成被攻擊者高質量語音;2、利用變聲技術模擬并生成被攻擊者的聲音;3、錄音重放,即錄制被攻擊者的聲音,并使用錄音設備進行重放。
在此背景下,相關學者于2015年開始組辦ASVSpoof比賽,以吸引更多的人加入偽造音檢測技術研究的隊伍。但正如前文所提到的,同時集成聲紋識別和偽造音檢測兩項技術的聯合系統在需求日益增長的聲紋識別領域仍是一片空白。
首屆SASV挑戰賽的成功落地,不僅創造性地為同時集成聲紋識別和偽造音檢測兩項技術的聯合系統提供了解決方案,還進一步推進了聲紋識別技術的安全性提升。在突破聲紋識別技術瓶頸的同時,讓更安全可信的服務成為可能。
持續開放創新,共建人工智能技術生態
在本屆SASV挑戰賽上,與昆山杜克大學聯合組隊并獲得亞軍,是小布助手持續開放創新的一個縮影。近年來,小布助手積極擴展合作生態,以產學研布局帶動跨界融合創新,與昆山杜克大學、清華大學、北京智源人工智能研究院等高校及機構組織建立緊密的產學研合作,并在行業權威的中文語言理解測評基準(CLUE)等國際競賽中取得了亮眼的成績。
伴隨著5G、人工智能、云計算、物聯網等前沿技術的發展,小布助手將持續深耕技術領域,積極參與行業生態建設,以關鍵成果在實際業務場景中的應用落地推動技術創新,共建人工智能新時代。