【ITBEAR】趣丸科技與香港中文大學(深圳)聯手打造的語音大模型MaskGCT,近日宣布在Amphion系統中開源,供全球用戶使用。該模型憑借其獨特的技術,在聲音克隆、跨語種合成及語音控制等領域展現出顯著優勢。
MaskGCT采用掩碼生成模型與語音表征解耦編碼技術,實現了秒級超逼真的聲音克隆,僅需3秒音頻樣本即可復刻各種音色,包括人類、動漫等,同時完整保留語調、風格和情感。該模型還支持更精細可控的語音生成,可靈活調整語音的長度、語速和情緒。
MaskGCT的訓練基于香港中文大學(深圳)與趣丸科技等機構聯合推出的10萬小時數據集Emilia,這是全球最大且最為多樣的高質量多語種語音數據集之一,涵蓋了中英日韓法德6種語言。
在官方實驗中,MaskGCT在語音質量、相似度和可理解性方面均表現出色,優于當前大部分TTS模型。其兩階段模型設計,使得在推理過程中,模型能以并行方式生成指定長度的標記,大幅提高效率。
目前,MaskGCT已在多個領域展現出廣泛應用前景,如短劇出海、數字人、智能助手等。趣丸科技基于MaskGCT開發了多語種速譯智能視聽平臺“趣丸千音”,旨在降低翻譯成本,縮短制作周期,助力國產內容出海。
《2024年短劇出海白皮書》顯示,海外市場規模遠超國內市場,短劇出海正成為新藍海。趣丸千音有望幫助國產短劇以更低成本、更快捷的方式走向世界,提升中國文化內容的出海效率。