近年來,遷移學習、風格遷移、聲碼器、聲學模型等方面的最新進展,為低資源語音克隆的提供了潛在的解決方案。愛奇藝聯合西北工業大學音頻語音與語言處理研究組、新加坡國立大學、清華大學深圳國際研究生院、起源智能、希爾貝殼在ICASSP2021舉辦了多說話人多風格音色克隆大賽——M2VoC。
M2VoC挑戰賽旨在提供一個通用的數據集以及一個公平的測試平臺,對語音克隆任務進行研究。作為2021年聲學、語音和信號處理國際會議(ICASSP2021)信號處理挑戰旗艦任務之一,吸引了多支學術界和工業界的研究人員加入了挑戰。
本周,在ICASSP2021峰會上,M2VoC挑戰賽順利落幕,并公布了比賽成果。共153只隊伍注冊參賽了本次挑戰賽,其中有多家學術機構和互聯網公司共同參與其中,學術機構包括北京大學,清華大學,浙江大學,上海交通大學,國立臺灣大學,哈工大,University of Crete,中科院自動化所,University of Tsukuba,Nagoya University,復旦大學,香港中文大學,中科院大學,電子科技大學等;參與互聯網公司包括虎牙,微軟,滴滴,騰訊,網易等。
愛奇藝多說話人多風格音色克隆大賽分為少樣本賽道和極少樣本賽道兩大任務。在少樣本賽道方面,主辦方針對每個說話人提供100句不同說話風格的訓練樣本;在極少樣本賽道方面,主辦方針對每個說話人提供5句不同說話風格的訓練樣本;同時,主辦方提供了兩個基礎庫,分別包含5000句不同說話風格的訓練樣本,供參賽者訓練基礎模型。最終,主辦方經過“說話人相似度、語音質量、風格/表現力、發音準確率”四大標準加權作為比賽評判標準。
針對提交成果,愛奇藝組委會進行了兩輪主觀評估:第一輪包括所有團隊的提交,第二輪則對幾個得分最高的團隊進行了進一步評估。每個賽道的最終獲勝者是根據兩輪比賽的綜合結果選出的。考慮到在短時間內對質量、風格和相似度進行主觀評價的巨大成本,組委會采用了抽樣評價方法。第一輪和第二輪主觀聽力測試分別有66名和30名專業聽測人員參加。所有的聽測人員都是以漢語為母語,由語言學專業的大學生和專業的語音注釋員組成。
圖:賽道一提交的MOS
圖:賽道二提交的MOS
比賽匯集了業內頂尖團隊,作為業內首個多說話人多風格音色克隆比賽,體現了當前業內和學界最高水平。本次挑戰賽共收錄18篇相關論文,其中,6篇論文被ICASSP2021收錄。
圖:ICASSP 2021本次挑戰賽收錄論文
參賽隊伍在Acoustic model、Speaker representation、Vocoder、Speaker adaptation strategy等多個方面都提出了創新,并取得了很好的效果。相關成果應用于APP口播、UGC配音、有聲書、風格化語音合成等多個應用場景,能夠滿足不斷變化的聲音定制場景,特別是基于多風格低質量語料場景下的聲音的定制。
圖:各賽道第一輪評估中所有提交的MOS。
本次愛奇藝多說話人多風格音色克隆大賽(M2VoC)是世界上第一個小資源音色克隆挑戰賽,旨在為語音克隆任務的研究提供一個通用的數據集和一個公平的測試平臺。挑戰展示了當前語音克隆技術的性能:隨著深度學習的進步,少樣本語音克隆已經取得了相當好的性能,但單樣本語音克隆仍然是一個未解決的問題。在現實世界的語音克隆應用中,低質量(嘈雜)音頻和訓練/適應/推理的時間/成本限制也是不可忽視的重要因素。
愛奇藝也在ICASSP2021發布了相關論文,總結本次大賽的情況。希望通過本次大賽的成果,為音色克隆、語音識別等前沿技術的創新探索提供更多機會,進一步拓寬人工智能技術的應用空間,為視聽行業發展提供新的可能。
福利:在愛奇藝后臺回復“papers”,獲取18篇挑戰賽論文合集。