一、噪聲降低通訊質(zhì)量
噪聲在我們?nèi)粘I钪惺殖R姡纾髽?biāo)點(diǎn)擊聲、鍵盤聲、空調(diào)聲、廚房碗碟碰撞聲。所以音頻質(zhì)量往往決定了在音視頻通訊場景中的通話體驗(yàn),而噪聲又是決定了音頻質(zhì)量是否良好的關(guān)鍵因素,如何對音頻進(jìn)行噪聲處理,是工程師們繞不開的問題。
以兩個(gè)簡單的用戶場景為例,了解下日常生活中我們經(jīng)常受到困擾的時(shí)刻:
場景一:Eric 在家中進(jìn)行視頻會議,受到來自鄰居的裝修噪音干擾,導(dǎo)致對方聽不清 Eric 的線上會議報(bào)告;
場景二:Lily 是某平臺音樂主播,在一次直播中進(jìn)行了吉他彈唱,該平臺將吉他伴奏的聲音識別為噪音并進(jìn)行降噪,導(dǎo)致聽眾端收聽體驗(yàn)不佳。
以上為我們在日常生活中經(jīng)常會遇到的噪音場景,那么用戶在面對這種噪音問題時(shí),是否無解?
二、ZEGO 首發(fā)業(yè)內(nèi)“場景化 AI 降噪”解決方案
ZEGO 即構(gòu)科技在本次 Express SDK 3.0 升級方案中,針對以往 AI 降噪能力進(jìn)行了重磅升級,并針對不同用戶場景在業(yè)內(nèi)首次推出場景化 AI 降噪解決方案。
即構(gòu)場景化 AI 降噪方案可以自動識別不同場景,可進(jìn)行無感知切換,智能調(diào)整 AI 降噪策略提供給用戶最佳的降噪效果。本次升級,不僅對之前 AI 降噪的效果進(jìn)行了優(yōu)化,還首次針對音樂場景推出智能 AI 降噪,還原高保真音質(zhì)。
1.通訊場景,消除人聲以外的全部噪聲
針對一般通訊場景,ZEGO 提出輕量級的神經(jīng)網(wǎng)絡(luò)降噪方法 —— ZegoAIDenoise。ZegoAIDenoise 采用傳統(tǒng)算法和深度學(xué)習(xí)相結(jié)合的 Hybrid 方法,為了降低性能開銷,采用頻域分成子帶方案,并無限縮小深度學(xué)習(xí)網(wǎng)絡(luò)模型,用盡量小的網(wǎng)絡(luò)模型達(dá)到更好的降噪效果。
在實(shí)時(shí)處理的性能測試方面,默認(rèn)采樣率 32kHz,幀長 10ms,在 1.4G Hz主頻的 iPhone 6上,CPU 性能開銷為 1% 左右,與 WebRTC 的通用降噪相當(dāng)。所以,ZegoAIDenoise 無論在降噪效果、泛化能力,還是性能開銷上,都取得了長足的進(jìn)步。
ZegoAIDenoise 對于平穩(wěn)和非平穩(wěn)噪聲都有很好的降噪效果,保證了語音的質(zhì)量和語言清晰度,同時(shí)將性能開銷控制在一個(gè)很低的量級,與傳統(tǒng)降噪算法相當(dāng),成功覆蓋大部分中低端機(jī)型,保留純凈語音,提升用戶的通話體驗(yàn)。
處理聲音類型:主要處理包括鼠標(biāo),鍵盤聲,敲擊,空調(diào),廚房碗碟、嘈雜餐廳、環(huán)境風(fēng)聲,咳嗽、吹氣等非人聲噪聲以及去除小房間的人聲混響。
通訊場景下的降噪前后對比
2.音樂場景,還原高保真音質(zhì)
在音樂場景中,AI 降噪容易將音樂識別成噪聲,并對其進(jìn)行降噪處理,這樣會對音樂造成極大的損傷,嚴(yán)重影響音樂場景中的用戶體驗(yàn),因此,即構(gòu)在本次場景化 AI 降噪方案中也包含了針對音樂場景的降噪處理。
首先,即構(gòu)為了提高對于音樂場景的識別準(zhǔn)確率,對數(shù)十種歌曲風(fēng)格(如輕音樂、古典音樂以及流行音樂等)、樂器(如吉他、鋼琴、小提琴等)采集了上萬條音頻數(shù)據(jù),并對現(xiàn)有數(shù)據(jù)進(jìn)行數(shù)據(jù)增廣以增加模型的泛化性并進(jìn)行特征提取和訓(xùn)練。
同時(shí),為了減少非音樂的誤判問題,即構(gòu)采集了豐富的噪聲和人聲數(shù)據(jù)進(jìn)行對比訓(xùn)練,同時(shí)區(qū)分不同信噪比下的音樂加以識別以保證最優(yōu)音質(zhì),最終完成 99% 的識別率。并且,在極高識別率的情況下可達(dá)到音頻處理 0 延時(shí),無額外性能消耗。
為了全面覆蓋音樂場景,提升全程體驗(yàn),我們采用多幀平滑后處理技術(shù),使識別速度達(dá)到 400ms,保證音樂能夠從伴奏的“第一個(gè)旋律”起,就能被快速識別。
最終,即構(gòu)場景化 AI 降噪利用自研音樂檢測算法對 mic 輸入進(jìn)行音樂識別,在聲卡、近場彈唱或其他外放設(shè)備播放音樂的場景下自動調(diào)整降噪等級,保證音樂的高保真音質(zhì),降低對音樂的音質(zhì)損傷。
處理聲音類型:支持識別音樂元素豐富的場景,如伴奏/樂器等。
音樂場景下的降噪前后對比
觀看上方視頻后我們可以明顯的感受到,一般降噪處理的過程中會將音樂/伴奏誤識別為噪音,進(jìn)行降噪處理,而在即構(gòu)場景化 AI 降噪處理中,通過智能識別并調(diào)整處理策略,真實(shí)還原音樂現(xiàn)場,避免了對于噪音場景的誤判。
三、場景應(yīng)用
上述提到的兩個(gè)用戶場景,在接入即構(gòu)場景化 AI 降噪解決方案后可取得明顯改善:
場景1:去除線上會議中除人聲外的噪音后,Eric 和同事們獲得了良好的線上會議體驗(yàn)
場景2:避免了在彈唱場景中主播的伴奏被識別為噪音的痛苦,Lily 讓聽眾端收獲了和主播端音質(zhì)無差別的收聽體驗(yàn)。
關(guān)于 ZEGO 即構(gòu)科技本次發(fā)布的場景化 AI 降噪解決方案的使用場景可以歸納為:
五、總結(jié)
ZEGO 即構(gòu)科技場景化 AI 降噪,無論是在穩(wěn)態(tài)還是非穩(wěn)態(tài)的噪聲環(huán)境、一般通訊場景或者音樂場景,都能取得飛躍般的降噪效果,旨在用高質(zhì)量的音頻降噪有效提升用戶的實(shí)時(shí)互動體驗(yàn)。
目前,ZEGO Express 3.0 SDK 已正式提供場景化 AI 降噪功能,開發(fā)者可以在使用麥克風(fēng)采集聲音時(shí)對聲音進(jìn)行降噪處理,獲得高保真音質(zhì),提升用戶通話體驗(yàn)!
“RTI ”代表一切為實(shí)現(xiàn)媲美甚至超越現(xiàn)實(shí)的實(shí)時(shí)互動場景下所需要用到的所有產(chǎn)品和技術(shù)組合,除了核心的 RTC、IM、直播之外,還包括 Avatar、Al 視覺、狀態(tài)同步等等。相較于 RTC 更強(qiáng)調(diào)互動,不以予以信息的交換為唯一目標(biāo),旨在以數(shù)字化方式,創(chuàng)造用戶所需的共享時(shí)空,滿足其精神需求,并輔以配套的可視化服務(wù)體系保障更好的互動。