近日,全球頂級音頻技術會議 ICASSP 2022 公布了論文入選名單。網易云信音頻實驗室論文——《一種針對實時通信的基于神經網絡的嘯叫檢測方法》(A Neural Network-based Howling Detection Method for Real-time Communication Applications)被大會接收,并受邀于今年5月在會議上向學術和工業界做研究報告。
這是網易云信音頻實驗室創新成果連續兩年受到世界頂級學術會議認可。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學、語音與信號處理會議,是IEEE信號處理協會主辦的全球最大、最全面的音頻領域頂級會議,具有權威、廣泛的學界及工業界影響力,在國際上享有盛譽。
隨著AI的迅速發展,深度神經網絡在聲音場景分類(ASC, Acoustic Scene Classification)和聲音事件檢測(AED, Acoustic Event Detection)任務中的應用已越來越多,并且明顯優于傳統的信號處理方法。網易云信音頻實驗室本次研究則是將AI技術應用于嘯叫檢測中,該論文為AI嘯叫檢測領域在全球范圍內首個公開發表的研究成果。
當揚聲器和話筒之間的聲學耦合產生正反饋時,嘯叫便會產生。傳統的公共廣播系統和助聽器設備利用傳統的嘯叫功能檢測和抑制嘯叫。然而,實時通信(RTC)中的傳統嘯叫功能會受到非線性和不確定性的影響,如各種揚聲器/麥克風響應、多種非線性音頻處理、不穩定的網絡傳輸抖動、聲學路徑變化和環境影響等。在嘯叫檢測中,使用特定時間-頻率特征的信號處理方法對RTC場景是無效的。
云信音頻實驗室提出了一種基于卷積遞歸神經網絡(CRNN)的方法,用于RTC應用中的嘯叫檢測,實現了出色的準確性和低誤報率。該篇文章使用不同的移動設備收集和標記嘯叫數據集用于模型訓練,并選擇對數梅爾譜作為輸入特征,實現了 89.46% 的檢測率和 0.40% 的誤報率。 此外,所提出方法的模型大小僅為 121kB,并且已在實時運行的移動設備中實現。
作為行業內首批音視頻 AI 實驗室之一,網易云信音頻實驗室不斷探索“AI+音頻”前沿技術方向,連續取得業界權威認可。2021年,實驗室在 AI 音頻降噪和 AI 音樂檢測的研究成果被第 50 屆國際噪聲控制工程會議(INTER-NOISE 2021)收錄,自建的國內行業中首個 AI 音樂檢測模型受到了高度關注。本次AI嘯叫檢測成果被 ICASSP 2022接收,再次證明了網易云信在音頻技術領域的頂尖研究實力。
未來,網易云信音頻實驗室將持續引領新技術發展方向,并將先進的算法模型應用于產品和場景中,為全球用戶打造極致聽覺體驗。