大幅刷新世界紀(jì)錄，網(wǎng)易數(shù)帆×云音樂奪得MIREX兩冠軍-魔扣目錄

在近期揭榜的2021國際音頻檢索評測大賽（MIREX）上，網(wǎng)易數(shù)帆易智語音團(tuán)隊攜手網(wǎng)易云音樂音視頻實驗室，憑借生產(chǎn)級AI技術(shù)創(chuàng)新能力，在歌詞識別和歌單識別兩個賽道大幅打破世界紀(jì)錄奪得冠軍。

MIREX是國際音頻檢索領(lǐng)域的頂尖賽事，為音頻信息檢索及音樂信號處理領(lǐng)域中的各種前沿技術(shù)提供公正、可信的評估，自2005年啟動以來吸引了世界知名大學(xué)、研究機(jī)構(gòu)和科技公司企業(yè)的廣泛參與。領(lǐng)域內(nèi)知名的團(tuán)隊，如新加坡國立大學(xué)、倫敦大學(xué)瑪麗皇后學(xué)院等都參加過此項賽事。

大幅刷新世界紀(jì)錄

MIREX 2021中，網(wǎng)易數(shù)帆攜手云音樂團(tuán)隊參加了Automatic Lyrics Transcription（歌詞識別）和Set List Identification（歌單識別）兩個賽道的比賽，后者任務(wù)為針對給定演唱會現(xiàn)場音頻和歌手的studio歌曲版本，按時間順序輸出演唱會中演唱的歌曲曲目（task1），以及每首曲目的開始和結(jié)束時間（task2）。

在歌詞識別賽道，網(wǎng)易實現(xiàn)了WER（詞錯誤率，Word Error Rate）從37.02（2020年最佳成績）到11.45的突破。于實驗而言，這是2倍以上的提升，但對于產(chǎn)品化，這是不可用和可用的巨大區(qū)別。

歌單識別賽道則由于領(lǐng)域技術(shù)沉寂曾缺席MIREX數(shù)年，于本屆恢復(fù)并成了網(wǎng)易表演的舞臺。如下表所示，網(wǎng)易提交模型的各項指標(biāo)較往年均有顯著提升，單項指標(biāo)的差別甚至超過了12倍。

其中，ED為task1中預(yù)測出的song序列和ground truth的編輯距離，數(shù)值越小越好；sBD和eBD分別為task2中預(yù)測出的song的開始時間和結(jié)束時間的評價誤差，單位秒，也是越小越好。

多項創(chuàng)新提升模型抗干擾能力

網(wǎng)易數(shù)帆易智團(tuán)隊參賽人員介紹，這項賽事的任務(wù)與語音識別不同，歌詞識別賽道的數(shù)據(jù)集來自國外K歌APP，這意味著訓(xùn)練數(shù)據(jù)有更嘈雜的背景，更多的噪音干擾，更低質(zhì)量的歌詞音頻，如漏唱、錯唱、即興對白/獨(dú)白等，此外同樣的詞語在不同曲風(fēng)不同節(jié)奏下往往呈現(xiàn)出不同的音高、音調(diào)和語速。如此復(fù)雜的場景，對模型訓(xùn)練帶來了巨大的挑戰(zhàn)，模型必須具備很強(qiáng)的針對背景音樂及噪音的抗干擾能力，才能正確識別歌詞。

針對歌詞識別，網(wǎng)易在數(shù)據(jù)和模型方面做了大量針對性的優(yōu)化，基于語音識別技術(shù)方案進(jìn)行細(xì)化，把框架用到極致，采用預(yù)訓(xùn)練語言模型的思想提升抗干擾能力，并分階段進(jìn)行調(diào)優(yōu)，以提升模型精度，從而大幅刷新世界紀(jì)錄。

針對歌單識別，業(yè)界傳統(tǒng)的方案是基于信號處理技術(shù)，網(wǎng)易此次將歌詞識別+文本檢索的方案引入這一領(lǐng)域，從而取得了飛躍式的提升。

基于音樂業(yè)務(wù)的生產(chǎn)級創(chuàng)新

大幅破紀(jì)錄并不是全部的結(jié)果，網(wǎng)易數(shù)帆這套技術(shù)方案還具有良好的可擴(kuò)展能力，在訓(xùn)練數(shù)據(jù)充足情況下（比賽所用數(shù)據(jù)集不是很大）會有更好的表現(xiàn)，也可以非常方便地擴(kuò)展到日韓歌詞/歌單領(lǐng)域。事實上，這些技術(shù)已經(jīng)在網(wǎng)易云音樂業(yè)務(wù)落地應(yīng)用。換言之，這是工業(yè)界生產(chǎn)級的技術(shù)突破，而非實驗室的AI學(xué)術(shù)研究。

網(wǎng)易云音樂自2016年末上線“網(wǎng)易音樂人”產(chǎn)品服務(wù)，到2021年年底聚集了超過40萬原創(chuàng)音樂人。網(wǎng)易云音樂不斷改善產(chǎn)品功能和體驗，拓展音樂的價值，如社區(qū)視頻歌曲檢索、look直播等，2020年就在線上系統(tǒng)使用了歌詞識別的功能。在此過程中，網(wǎng)易云音樂與網(wǎng)易數(shù)帆易智團(tuán)隊合作，通過技術(shù)創(chuàng)新來提升產(chǎn)品體驗。

網(wǎng)易云音樂音視頻實驗室專家介紹，兩個團(tuán)隊攜手將參賽方案中所包含的歌詞識別、文本檢索技術(shù)，與網(wǎng)易云音樂團(tuán)隊研發(fā)的哼唱識別、翻唱識別、音頻指紋及旋律提取等技術(shù)相互結(jié)合取長補(bǔ)短，在云音樂落地，實現(xiàn)了節(jié)省人力成本和提升業(yè)務(wù)效果等業(yè)務(wù)價值。

節(jié)省人力成本方面，音樂曲庫的需求之一是將逐行歌詞升級為逐字歌詞（如卡拉OK效果），技術(shù)實現(xiàn)是給每個字加上一個時間戳，通過歌詞識別技術(shù)創(chuàng)新，結(jié)合旋律提取做到歌詞和旋律邊界對齊，節(jié)省了大量的人力。另一個場景是曲庫安全，網(wǎng)易云音樂基于歌詞識別技術(shù)開發(fā)的敏感歌詞返檢系統(tǒng)，從而低成本、自動化地將敏感詞檢測出來。

提升業(yè)務(wù)效果方面，一個典型場景是哼唱識別，網(wǎng)易云音樂通過旋律匹配+歌詞識別的技術(shù)方案，有效提升了識別效果。其次是將歌單識別技術(shù)方案用于mlog的視頻識曲，結(jié)合音頻指紋、翻唱識別形成統(tǒng)一的識曲方案，針對網(wǎng)易云音樂用戶發(fā)布在mlog的視頻，該方案可以有效識別視頻中所唱的歌曲，并匹配曲庫中對應(yīng)的歌曲，從而實現(xiàn)該視頻和曲庫里的歌曲關(guān)聯(lián)，進(jìn)而相互引流。此外在look直播場景，基于該技術(shù)也可以準(zhǔn)確識別主播所唱的歌曲。

展望未來，兩個團(tuán)隊參賽人員預(yù)測，本次大賽中的技術(shù)將能夠在安全檢測、音樂版權(quán)檢測、音樂內(nèi)容提供商、傳媒行業(yè)探索等場景大放異彩。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

大幅刷新世界紀(jì)錄，網(wǎng)易數(shù)帆×云音樂奪得MIREX兩冠軍

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績評定2018-06-03