ICASSP是由IEEE電氣電子工程師學會主辦的信號處理領域的頂級國際會議,是IEEE
下語音方向最具代表性、最高榮譽的會議,在國際上享有盛譽并具有廣泛的學術影響力。
今年是ICASSP的第47屆會議,會議主題為“以人為本的信號處理”。
本屆大會同時在線上和線下(新加坡)舉辦。“云知聲-上師大自然人機交互”聯合實驗室提出的語音分離-DPCCN和目標語音分離-sDPCCN技術論文被收錄且在線上會議平臺展示了相關算法細節,代表了云知聲在語音信號處理領域的底層技術的創新,與國際學術界對云知聲技術創新的認可。
此外,這已經不是云知聲在語音信號處理方向第一次獲得國際認可,早在2020年就已獲得ICASSP DNS國際評測第四,2021獲得Interspeech 2021 DNS 第二,Interspeech 2021 AEC Challenge 第二等多項國際肯定。
此次被錄取的論文主要利用語音分離的技術突破來處理雞尾酒會問題,涉及語音識別、降噪、語音質量分析等諸多方向。
雞尾酒會問題:在復雜場景下,人類可以輕易地關注于自身感興趣的語音,但是對于機
器來說卻顯得尤為困難,這種現象被稱為雞尾酒會問題。
在本次論文中,聯合實驗室團隊從時頻域的角度出發,提出了一種基于U-Net結構的
語音分離模型DPCCN(Densely-connectedPyramidComplexConvolutionalNetwork),并在DPCCN基礎上,設計了一個特殊的目標說話人聲紋編碼模塊來對目標說話人的注冊語音進行聲紋信息提取,從而監督DPCCN分離網絡提取出相應的目標說話人語音sDPCCN。在業界公開帶噪帶混響的LibriSpeech數據集合上,實驗結果顯示所提出的DPCCN方法顯著超過了目前業界主流技術。
另外,目前大多數主流的目標語音提取系統都是受監督學習驅動的,它們對訓練數據
有著很強的依賴。由于源域和目標域的聲學特性之間存在著一定程度的不匹配,域內和跨域
條件下的目標語音提取之間通常有著巨大的性能差異。因此,論文還提出了一種Mixture-Remix機制(Fig2所示)來提高跨域條件下的目標語音提取性能。
在Libri2Mix和Aishell2Mix構建的英文-中文跨域目標語音分離任務上,文中提出的
Mixture-Remix機制不管在sDPCCN還是經典的TD-SpeakerBeam(TSB)結構上都體現
出了顯著效果。
在此之前,云知聲就已經在語音識別,降噪領域有了諸多建樹,并將相關技術在多個領域、多個項目、多個產品、多款芯片中落地。比如云知聲的遠場陣列處理技術已被廣泛應用于多種智能家電,(如智能音箱、智能空調、智能抽油煙機);智慧交通設備(如智慧軌交、8mic大陣列地鐵問詢機、購票機),三代共6款專用AI語音芯片(截止目前,已達到千萬級出貨)等產品。
其中智慧交通的相關產品與設備已在上海、廣州、徐州、深圳、合肥、三亞、蘇州、昆明、無錫、南寧等全國10余個城市、20余條地鐵線路的200余個地鐵站落地,其中包括云知聲傾力打造的全國首個智慧軌交標桿示范站——廣州地鐵廣州塔(“小蠻腰”)站,以及無人地鐵示范線路——深圳地鐵20號線等。
另外,針對低功耗可穿戴設備,云知聲基于深度學習技術構建了近場降噪技術,語音質
量客觀指標SNR、PESQ、STOI已處于國際領先水平,在目前大火的智能AR工業眼鏡,藍牙智能眼鏡等產品中都有它的身影。
未來,云知聲將不斷探索科技新高度,促進AI系統的“智力”提升,讓后者更好地應用于千行百業,為用戶締造更加出色的智能體驗。