近日,第 50 屆國際噪聲控制工程會議(INTER-NOISE 2021)通過在線方式舉辦,由網易云信音頻實驗室完成的兩篇論文被大會收錄,獲得國際公開認可。
本次入選的兩篇論文聚焦在 AI 音頻降噪和 AI 音樂檢測兩個方向,突破多個音頻核心技術問題,自建國內行業中首個 AI 音樂檢測模型,引起了從業者的強烈關注。與會者認為,隨著 AI 應用的不斷加深,音視頻處理技術會隨之提高,將帶動產業朝著高質量方向發展。
(郝一亞博士正在進行論文演講)
在大會期間,網易云信音頻算法專家郝一亞博士連續兩天發表論文演講,進一步闡釋網易云信在將 AI 深入應用音視頻方面所做的努力和嘗試,探討 AI 助力音視頻技術發展的可能性,并表示愿意與業內同仁共同進步,推動音視頻的長足發展。
INTER-NOISE:物理聲學歷史最悠久的國際學術會議
國際噪聲控制工程大會(INTER-NOISE)是由國際噪聲控制工程學會(I-INCE)主辦的系列國際學術與技術交流大會,是物理聲學歷史最悠久的國際學術會議。主辦方 I-INCE 成立于 1974 年,由代表著噪聲控制專業的國際專業協會和機構組成,目前成員包括來自40多個國家的50多個組織。
作為知名國際專業會議,INTER-NOISE 大會每年在美洲、歐洲和非洲以及亞太地區輪流舉行,主題聚焦在世界各地的噪音控制問題上,并且因其專業性和覆蓋范圍而有著巨大影響力——比如1972年在華盛頓第一次召開時,美國噪音控制法案(US Noise Control Act)正在審議之中,與會人員的積極交流和呼吁推動了后續法案的通過。
隨著技術和各項基礎能力的發展,現在的音頻技術關注點和幾十年以前,甚至十幾年以前都有很大差別,噪聲控制在現在及未來應該如何發展,發揮怎樣的作用都是近年來在著重思考的問題,2019 年的會議主題是“噪聲控制工程的影響”,2020 年的主題則是“噪音控制以改善環境,噪音和振動控制技術的進步”。
本屆大會繼續由 I-INCE 發起,美國噪聲控制工程學會(INCE-USA)和 Pro Acustica (巴西)共同主辦,美國聲學學會、SAE 國際、西班牙聲學學會和韓國噪聲與振動工程學會參與聯合舉行。雖然因疫情原因,今年的活動只能以線上方式進行,但大會還是進行了精心策劃和準備——包括在第一屆會議活動地點舉辦儀式,紀念自 1972 年第一屆國際噪聲大會以來噪聲控制取得的 50 年進展,以及通過聚焦的議題展望和推測未來 50 年可能取得的成就,會議主題也定為“噪聲控制的下一個 50 年”。
2篇技術論文:突破多個音頻核心技術問題
作為會議最重要的事項之一,本屆大會按照已有的嚴格文章審核流程和標準——由三位細分領域的專家匿名交叉審核,最終再由 Technical Chair 最終選拔——收錄了來自 25 個國家和地區的作者的 635 篇學術論文。
網易云信音頻實驗室被 INTER-NOISE 2021 收錄的兩篇論文分別是《一種基于神經網絡的針對瞬時噪聲控制的低計算復雜度噪聲抑制方法》(A Neural Network Based Noise Suppression Method for Transient Noise Control with Low-Complexity Computation)和《一種使用梅爾頻譜和頻譜通量的基于卷積神經網絡的實時音樂檢測方法》(A Real-time Music Detection Method based on Convolutional Neural Network using Mel-Spectrogram and Spectral Flux)。
(來源:INTER-NOISE 2021官網)
第一篇論文聚焦在 AI 抑制“瞬間噪聲”的問題,“瞬時噪聲”是指鍵盤聲、敲門聲等這類突發性的聲音。網易云信音頻實驗室針對 RTC 場景,成功研發落地了輕量級的、適合全平臺終端的 AI 音頻降噪算法。該算法使用了優化的諧波相關性(Modified Harmonic-Correlation),和獨創的損失函數(Loss Function),在一個 RNN(Recurrent Neural Network)模型上進行訓練。在終端運行時,算法結合了網易云信自研的 NENN 推理框架,在大幅提升降噪效果(SNRI and Speech Quality)的同時,保持了一個極低的運算復雜度。整體而言,網易云信研發的 AI 音頻降噪算法同時兼顧了算法效果和計算開銷,不僅適合實時處理,還能落地到各種運算能力有限的終端設備中,可以應用在包括會議場景、語聊房場景等目的僅為語音通話的場景中。目前,該算法已經應用在網易 POPO、網易有道樂讀等具體的場景,并取得良好的效果。
第二篇論文聚焦在利用卷積神經網絡算法對“有用信號”的檢測和減損。通常來說,在 WebRTC 在音頻處理中,大量的算法都是針對 Speech 信號進行設計,整體是一個 Speech EnHancement 系統,但是在 RTC 的場景中,有用信號(Desired Signal)不僅僅只有 Speech,還有一種常見信號就是音樂(比如音樂主播、音樂教學等場景中)。網易云信落地國內行業中首個 AI 音樂訓練檢測模型,這是結合了自研的幀間頻域特征和一個輕量級神經網絡,訓練出了一個音樂檢測率高、魯棒性強、且計算開銷小,適合在各個端側落地的 AI 模型;通過對環境聲音的檢測,區分出音樂和非音樂場景,并基于此先驗信息,對 RTC 中音頻 APM 處理進行有針對性的調整,在保證語音信號質量的同時,大幅提高音樂信號的質量,可以應用在包括音樂教學、音樂直播等目標傳輸信號包含音樂的場景中。
(Music和Noise的檢測準確率可以達到93%以上)
網易云信音頻實驗室:立足前沿厚積薄發
本次兩篇論文被業內頂尖學術大會期刊收錄,證明了網易云信音頻實驗室厚積薄發的技術實力:不僅能在國際上被同行認可,前沿技術獲得突破,還能通過具體的場景發揮技術的價值,帶領行業不斷向前。
從行業角度看,RTC 行業發展至今已經有二十年左右的時間,從小眾產品變成幾乎人人都會接觸到的巨大產業,自然也帶來激烈的市場競爭。隨著行業逐漸成熟,粗放的市場環境過去之后,誰能帶給用戶更好的體驗誰就具有核心競爭力,技術的重要性越來越突出。另外,實時音視頻技術個性化場景要求越來越高,應對的環境也愈加復雜,傳統的技術已經很難有大的優化空間,所以實時音視頻企業傾向于成立 AI 實驗室或 AI 項目組,專門負責 AI 在音視頻中的應用研究,為客戶提供更加便捷、易用、專業的音視頻服務。
作為行業內首批音視頻 AI 實驗室之一,網易云信音頻實驗室自成立之初便秉承“把身臨其境的音頻感受帶給用戶”的使命感,不斷把握前沿技術方向,攻克業內最難的技術瓶頸,將行業頂尖技術應用到產品中,進而實現用戶體驗的全面升級。
(網易云信音頻實驗室一角)
當前,網易云信音頻實驗室擁有 9 名核心成員,來自北大、中科院、南大、中科大等國內外頂尖高校及科研機構,100%擁有碩博學歷。實驗室重點研究 RTC 產品相關的音頻處理技術,例如回聲消除、降噪、自動增益控制等通話中長期應用的算法。同時,對最新技術方向也保持關注,例如空間音效、基于統計機器學習和深度學習的AI降噪、場景檢測、嘯叫檢測等。
自成立以來,網易云信音頻實驗室除了保障產品的算法研發和優化需求之外,已提交專利數十項,獲得網易集團創新獎「0-1 創新獎」。此次兩篇論文被 INTER-NOISE 2021 的收錄更是進一步奠定了網易云信在音頻技術領域的領軍者地位。接下來,網易云信音頻實驗室將在基礎算法、模型方面加強研究,結合具體行業和應用場景,以技術創新引領產品創新,以技術升級驅動用戶體驗升級。