2022年9月18日-22日,全球語音領域頂級會議INTERSPEECH 2022在韓國仁川舉辦。“云知聲-上師大自然人機交互”聯合實驗室攜提出的關于聲音事件檢測、單通道語音增強方向的2篇論文參會。這是繼2022年6月亮相ICASSP2022(技術論文被收錄)之后,云知聲在2022年再一次獲得國際語音頂會的認可。
INTERSPEECH在國際上享有極高盛譽并具有廣泛的學術影響力,是由國際語音通訊協會(ISCA)創辦的旗艦級國際會議,也是全球最大的綜合性語音領域的科技盛會,對參會企業和單位有著嚴苛的準入門檻,歷屆INTERSPEECH會議都倍受全球各地語音研究領域人士的廣泛關注。
本屆會議以“Human and humanizing speech technology”為主題,內容涵蓋信號處理、語音識別、自然語言處理、神經機器翻譯等領域,收到近萬篇投稿論文。會議研究成果代表著語音相關領域的最新研究水平和未來的技術發展趨勢。此次論文入選,代表云知聲在語音交互領域持續的技術創新。
聲音事件檢測
在聲音事件檢測方向,研究團隊提出了一個教師-學生(Teacher-Student)半監督學習框架,充分利用強標簽數據、弱標簽數據與大量無標簽數據訓練模型,有效解決標簽數據匱乏的問題。為了提高模型的檢測能力,研究團隊提出通過兩階段的訓練策略并聚焦于難以分類的事件,以及利用一種深度特征蒸餾方法,更詳細地關注到時間軸上細致的聲學信息。
同時,研究團隊還提出語音分離技術輔助聲音事件檢測系統建模的方法,通過使用分離數據與混合數據聯合調整訓練模型的方式,有效解決事件重疊與背景噪聲干擾對系統建模帶來的影響。在DCASE2019 Task4 數據集上,研究團隊所提出的方案在F1, PSDS1 and PSDS2得分上分別達到了46.5%, 44.5%以及75.4%,相比baseline提高了2.2%, 7.2%以及20.5%,充分體現了所提出方案的優勢。
單通道語音增強:
在單通道實時語音增強方向,研究團隊提出了一個基于PercepNet模型并感知語音相位與信噪比的實時語音增強方案(PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement),該方案提取多種聲學特征,以獲取語音包括幅度,相位,基音周期在內的多種聲學屬性。這些特征被進一步在模型中使用提取時間相關性和頻率相關性的GRU網絡層進行融合,以提升該語音增強系統的性能。
同時,研究團隊還提出一種基于信噪比的后處理機制,旨在改善語音增強中的過度抑制問題。該機制利用網絡估計得到的語音信噪比為閾值條件,決定基于MMSE-LSA的后處理方法是否被應用于當前輸入語音。研究團隊的模型在VCTK測試集上達到了2.65 (PESQ) 的得分,相比原PercepNet模型的得分相對提升了8%,充分驗證了所提出方案的有效性。
人工智能成功的關鍵在于應用。為不斷拓寬自身基礎能力邊界,云知聲深入探究語音領域中的語音識別、語音增強、信號處理、聲紋識別、聲音事件檢測等諸多方向,形成豐富技術積累,并將相關技術在多個領域以及行業進行應用,取得諸多成功案例。比如云知聲的ASR技術被廣泛應用于音視頻翻譯、會議系統、同聲傳譯、三代共6款專用AI語音交互芯片等相關產品與場景。
其中,云知聲輸出的軟硬一體的語音交互芯片產品,覆蓋各種形態的多品類產品,市占率領先,出貨量不斷增長。為國內傳統行業迅速實現智能化產品升級與改造,提供了技術保障。
本次在 INTERSPEECH 2022 大會上提出的原創技術,也將進一步夯實云知聲全棧+硬核的人工智能技術“底座”,提高云知聲在語音交互領域的技術領先性,推動人工智能系統以更人性化、高效的方式服務于千行百業,為用戶帶來更好的交互體驗。