在近期揭榜的2021國(guó)際音頻檢索評(píng)測(cè)大賽(MIREX)上,網(wǎng)易數(shù)帆易智語(yǔ)音團(tuán)隊(duì)攜手網(wǎng)易云音樂(lè)音視頻實(shí)驗(yàn)室,憑借生產(chǎn)級(jí)AI技術(shù)創(chuàng)新能力,在歌詞識(shí)別和歌單識(shí)別兩個(gè)賽道大幅打破世界紀(jì)錄奪得冠軍。
MIREX是國(guó)際音頻檢索領(lǐng)域的頂尖賽事,為音頻信息檢索及音樂(lè)信號(hào)處理領(lǐng)域中的各種前沿技術(shù)提供公正、可信的評(píng)估,自2005年啟動(dòng)以來(lái)吸引了世界知名大學(xué)、研究機(jī)構(gòu)和科技公司企業(yè)的廣泛參與。領(lǐng)域內(nèi)知名的團(tuán)隊(duì),如新加坡國(guó)立大學(xué)、倫敦大學(xué)瑪麗皇后學(xué)院等都參加過(guò)此項(xiàng)賽事。
大幅刷新世界紀(jì)錄
MIREX 2021中,網(wǎng)易數(shù)帆攜手云音樂(lè)團(tuán)隊(duì)參加了Automatic Lyrics Transcription(歌詞識(shí)別)和Set List Identification(歌單識(shí)別)兩個(gè)賽道的比賽,后者任務(wù)為針對(duì)給定演唱會(huì)現(xiàn)場(chǎng)音頻和歌手的studio歌曲版本,按時(shí)間順序輸出演唱會(huì)中演唱的歌曲曲目(task1),以及每首曲目的開(kāi)始和結(jié)束時(shí)間(task2)。
在歌詞識(shí)別賽道,網(wǎng)易實(shí)現(xiàn)了WER(詞錯(cuò)誤率,Word Error Rate)從37.02(2020年最佳成績(jī))到11.45的突破。于實(shí)驗(yàn)而言,這是2倍以上的提升,但對(duì)于產(chǎn)品化,這是不可用和可用的巨大區(qū)別。
歌單識(shí)別賽道則由于領(lǐng)域技術(shù)沉寂曾缺席MIREX數(shù)年,于本屆恢復(fù)并成了網(wǎng)易表演的舞臺(tái)。如下表所示,網(wǎng)易提交模型的各項(xiàng)指標(biāo)較往年均有顯著提升,單項(xiàng)指標(biāo)的差別甚至超過(guò)了12倍。
其中,ED為task1中預(yù)測(cè)出的song序列和ground truth的編輯距離,數(shù)值越小越好;sBD和eBD分別為task2中預(yù)測(cè)出的song的開(kāi)始時(shí)間和結(jié)束時(shí)間的評(píng)價(jià)誤差,單位秒,也是越小越好。
多項(xiàng)創(chuàng)新提升模型抗干擾能力
網(wǎng)易數(shù)帆易智團(tuán)隊(duì)參賽人員介紹,這項(xiàng)賽事的任務(wù)與語(yǔ)音識(shí)別不同,歌詞識(shí)別賽道的數(shù)據(jù)集來(lái)自國(guó)外K歌APP,這意味著訓(xùn)練數(shù)據(jù)有更嘈雜的背景,更多的噪音干擾,更低質(zhì)量的歌詞音頻,如漏唱、錯(cuò)唱、即興對(duì)白/獨(dú)白等,此外同樣的詞語(yǔ)在不同曲風(fēng)不同節(jié)奏下往往呈現(xiàn)出不同的音高、音調(diào)和語(yǔ)速。如此復(fù)雜的場(chǎng)景,對(duì)模型訓(xùn)練帶來(lái)了巨大的挑戰(zhàn),模型必須具備很強(qiáng)的針對(duì)背景音樂(lè)及噪音的抗干擾能力,才能正確識(shí)別歌詞。
針對(duì)歌詞識(shí)別,網(wǎng)易在數(shù)據(jù)和模型方面做了大量針對(duì)性的優(yōu)化,基于語(yǔ)音識(shí)別技術(shù)方案進(jìn)行細(xì)化,把框架用到極致,采用預(yù)訓(xùn)練語(yǔ)言模型的思想提升抗干擾能力,并分階段進(jìn)行調(diào)優(yōu),以提升模型精度,從而大幅刷新世界紀(jì)錄。
針對(duì)歌單識(shí)別,業(yè)界傳統(tǒng)的方案是基于信號(hào)處理技術(shù),網(wǎng)易此次將歌詞識(shí)別+文本檢索的方案引入這一領(lǐng)域,從而取得了飛躍式的提升。
基于音樂(lè)業(yè)務(wù)的生產(chǎn)級(jí)創(chuàng)新
大幅破紀(jì)錄并不是全部的結(jié)果,網(wǎng)易數(shù)帆這套技術(shù)方案還具有良好的可擴(kuò)展能力,在訓(xùn)練數(shù)據(jù)充足情況下(比賽所用數(shù)據(jù)集不是很大)會(huì)有更好的表現(xiàn),也可以非常方便地?cái)U(kuò)展到日韓歌詞/歌單領(lǐng)域。事實(shí)上,這些技術(shù)已經(jīng)在網(wǎng)易云音樂(lè)業(yè)務(wù)落地應(yīng)用。換言之,這是工業(yè)界生產(chǎn)級(jí)的技術(shù)突破,而非實(shí)驗(yàn)室的AI學(xué)術(shù)研究。
網(wǎng)易云音樂(lè)自2016年末上線(xiàn)“網(wǎng)易音樂(lè)人”產(chǎn)品服務(wù),到2021年年底聚集了超過(guò)40萬(wàn)原創(chuàng)音樂(lè)人。網(wǎng)易云音樂(lè)不斷改善產(chǎn)品功能和體驗(yàn),拓展音樂(lè)的價(jià)值,如社區(qū)視頻歌曲檢索、look直播等,2020年就在線(xiàn)上系統(tǒng)使用了歌詞識(shí)別的功能。在此過(guò)程中,網(wǎng)易云音樂(lè)與網(wǎng)易數(shù)帆易智團(tuán)隊(duì)合作,通過(guò)技術(shù)創(chuàng)新來(lái)提升產(chǎn)品體驗(yàn)。
網(wǎng)易云音樂(lè)音視頻實(shí)驗(yàn)室專(zhuān)家介紹,兩個(gè)團(tuán)隊(duì)攜手將參賽方案中所包含的歌詞識(shí)別、文本檢索技術(shù),與網(wǎng)易云音樂(lè)團(tuán)隊(duì)研發(fā)的哼唱識(shí)別、翻唱識(shí)別、音頻指紋及旋律提取等技術(shù)相互結(jié)合取長(zhǎng)補(bǔ)短,在云音樂(lè)落地,實(shí)現(xiàn)了節(jié)省人力成本和提升業(yè)務(wù)效果等業(yè)務(wù)價(jià)值。
節(jié)省人力成本方面,音樂(lè)曲庫(kù)的需求之一是將逐行歌詞升級(jí)為逐字歌詞(如卡拉OK效果) ,技術(shù)實(shí)現(xiàn)是給每個(gè)字加上一個(gè)時(shí)間戳,通過(guò)歌詞識(shí)別技術(shù)創(chuàng)新,結(jié)合旋律提取做到歌詞和旋律邊界對(duì)齊,節(jié)省了大量的人力。另一個(gè)場(chǎng)景是曲庫(kù)安全,網(wǎng)易云音樂(lè)基于歌詞識(shí)別技術(shù)開(kāi)發(fā)的敏感歌詞返檢系統(tǒng),從而低成本、自動(dòng)化地將敏感詞檢測(cè)出來(lái)。
提升業(yè)務(wù)效果方面,一個(gè)典型場(chǎng)景是哼唱識(shí)別,網(wǎng)易云音樂(lè)通過(guò)旋律匹配+歌詞識(shí)別的技術(shù)方案,有效提升了識(shí)別效果。其次是將歌單識(shí)別技術(shù)方案用于mlog的視頻識(shí)曲,結(jié)合音頻指紋、翻唱識(shí)別形成統(tǒng)一的識(shí)曲方案,針對(duì)網(wǎng)易云音樂(lè)用戶(hù)發(fā)布在mlog的視頻,該方案可以有效識(shí)別視頻中所唱的歌曲,并匹配曲庫(kù)中對(duì)應(yīng)的歌曲,從而實(shí)現(xiàn)該視頻和曲庫(kù)里的歌曲關(guān)聯(lián),進(jìn)而相互引流。此外在look直播場(chǎng)景,基于該技術(shù)也可以準(zhǔn)確識(shí)別主播所唱的歌曲。
展望未來(lái),兩個(gè)團(tuán)隊(duì)參賽人員預(yù)測(cè),本次大賽中的技術(shù)將能夠在安全檢測(cè)、音樂(lè)版權(quán)檢測(cè)、音樂(lè)內(nèi)容提供商、傳媒行業(yè)探索等場(chǎng)景大放異彩。