在近期揭榜的2021國際音頻檢索評測大賽(MIREX)上,網(wǎng)易數(shù)帆易智語音團(tuán)隊攜手網(wǎng)易云音樂音視頻實驗室,憑借生產(chǎn)級AI技術(shù)創(chuàng)新能力,在歌詞識別和歌單識別兩個賽道大幅打破世界紀(jì)錄奪得冠軍。
MIREX是國際音頻檢索領(lǐng)域的頂尖賽事,為音頻信息檢索及音樂信號處理領(lǐng)域中的各種前沿技術(shù)提供公正、可信的評估,自2005年啟動以來吸引了世界知名大學(xué)、研究機(jī)構(gòu)和科技公司企業(yè)的廣泛參與。領(lǐng)域內(nèi)知名的團(tuán)隊,如新加坡國立大學(xué)、倫敦大學(xué)瑪麗皇后學(xué)院等都參加過此項賽事。
大幅刷新世界紀(jì)錄
MIREX 2021中,網(wǎng)易數(shù)帆攜手云音樂團(tuán)隊參加了Automatic Lyrics Transcription(歌詞識別)和Set List Identification(歌單識別)兩個賽道的比賽,后者任務(wù)為針對給定演唱會現(xiàn)場音頻和歌手的studio歌曲版本,按時間順序輸出演唱會中演唱的歌曲曲目(task1),以及每首曲目的開始和結(jié)束時間(task2)。
在歌詞識別賽道,網(wǎng)易實現(xiàn)了WER(詞錯誤率,Word Error Rate)從37.02(2020年最佳成績)到11.45的突破。于實驗而言,這是2倍以上的提升,但對于產(chǎn)品化,這是不可用和可用的巨大區(qū)別。
歌單識別賽道則由于領(lǐng)域技術(shù)沉寂曾缺席MIREX數(shù)年,于本屆恢復(fù)并成了網(wǎng)易表演的舞臺。如下表所示,網(wǎng)易提交模型的各項指標(biāo)較往年均有顯著提升,單項指標(biāo)的差別甚至超過了12倍。
其中,ED為task1中預(yù)測出的song序列和ground truth的編輯距離,數(shù)值越小越好;sBD和eBD分別為task2中預(yù)測出的song的開始時間和結(jié)束時間的評價誤差,單位秒,也是越小越好。
多項創(chuàng)新提升模型抗干擾能力
網(wǎng)易數(shù)帆易智團(tuán)隊參賽人員介紹,這項賽事的任務(wù)與語音識別不同,歌詞識別賽道的數(shù)據(jù)集來自國外K歌APP,這意味著訓(xùn)練數(shù)據(jù)有更嘈雜的背景,更多的噪音干擾,更低質(zhì)量的歌詞音頻,如漏唱、錯唱、即興對白/獨(dú)白等,此外同樣的詞語在不同曲風(fēng)不同節(jié)奏下往往呈現(xiàn)出不同的音高、音調(diào)和語速。如此復(fù)雜的場景,對模型訓(xùn)練帶來了巨大的挑戰(zhàn),模型必須具備很強(qiáng)的針對背景音樂及噪音的抗干擾能力,才能正確識別歌詞。
針對歌詞識別,網(wǎng)易在數(shù)據(jù)和模型方面做了大量針對性的優(yōu)化,基于語音識別技術(shù)方案進(jìn)行細(xì)化,把框架用到極致,采用預(yù)訓(xùn)練語言模型的思想提升抗干擾能力,并分階段進(jìn)行調(diào)優(yōu),以提升模型精度,從而大幅刷新世界紀(jì)錄。
針對歌單識別,業(yè)界傳統(tǒng)的方案是基于信號處理技術(shù),網(wǎng)易此次將歌詞識別+文本檢索的方案引入這一領(lǐng)域,從而取得了飛躍式的提升。
基于音樂業(yè)務(wù)的生產(chǎn)級創(chuàng)新
大幅破紀(jì)錄并不是全部的結(jié)果,網(wǎng)易數(shù)帆這套技術(shù)方案還具有良好的可擴(kuò)展能力,在訓(xùn)練數(shù)據(jù)充足情況下(比賽所用數(shù)據(jù)集不是很大)會有更好的表現(xiàn),也可以非常方便地擴(kuò)展到日韓歌詞/歌單領(lǐng)域。事實上,這些技術(shù)已經(jīng)在網(wǎng)易云音樂業(yè)務(wù)落地應(yīng)用。換言之,這是工業(yè)界生產(chǎn)級的技術(shù)突破,而非實驗室的AI學(xué)術(shù)研究。
網(wǎng)易云音樂自2016年末上線“網(wǎng)易音樂人”產(chǎn)品服務(wù),到2021年年底聚集了超過40萬原創(chuàng)音樂人。網(wǎng)易云音樂不斷改善產(chǎn)品功能和體驗,拓展音樂的價值,如社區(qū)視頻歌曲檢索、look直播等,2020年就在線上系統(tǒng)使用了歌詞識別的功能。在此過程中,網(wǎng)易云音樂與網(wǎng)易數(shù)帆易智團(tuán)隊合作,通過技術(shù)創(chuàng)新來提升產(chǎn)品體驗。
網(wǎng)易云音樂音視頻實驗室專家介紹,兩個團(tuán)隊攜手將參賽方案中所包含的歌詞識別、文本檢索技術(shù),與網(wǎng)易云音樂團(tuán)隊研發(fā)的哼唱識別、翻唱識別、音頻指紋及旋律提取等技術(shù)相互結(jié)合取長補(bǔ)短,在云音樂落地,實現(xiàn)了節(jié)省人力成本和提升業(yè)務(wù)效果等業(yè)務(wù)價值。
節(jié)省人力成本方面,音樂曲庫的需求之一是將逐行歌詞升級為逐字歌詞(如卡拉OK效果) ,技術(shù)實現(xiàn)是給每個字加上一個時間戳,通過歌詞識別技術(shù)創(chuàng)新,結(jié)合旋律提取做到歌詞和旋律邊界對齊,節(jié)省了大量的人力。另一個場景是曲庫安全,網(wǎng)易云音樂基于歌詞識別技術(shù)開發(fā)的敏感歌詞返檢系統(tǒng),從而低成本、自動化地將敏感詞檢測出來。
提升業(yè)務(wù)效果方面,一個典型場景是哼唱識別,網(wǎng)易云音樂通過旋律匹配+歌詞識別的技術(shù)方案,有效提升了識別效果。其次是將歌單識別技術(shù)方案用于mlog的視頻識曲,結(jié)合音頻指紋、翻唱識別形成統(tǒng)一的識曲方案,針對網(wǎng)易云音樂用戶發(fā)布在mlog的視頻,該方案可以有效識別視頻中所唱的歌曲,并匹配曲庫中對應(yīng)的歌曲,從而實現(xiàn)該視頻和曲庫里的歌曲關(guān)聯(lián),進(jìn)而相互引流。此外在look直播場景,基于該技術(shù)也可以準(zhǔn)確識別主播所唱的歌曲。
展望未來,兩個團(tuán)隊參賽人員預(yù)測,本次大賽中的技術(shù)將能夠在安全檢測、音樂版權(quán)檢測、音樂內(nèi)容提供商、傳媒行業(yè)探索等場景大放異彩。