【ITBEAR】趣丸科技與香港中文大學(深圳)近日攜手宣布,其共同研發的語音大模型“MaskGCT”已在Amphion系統中開源,供全球用戶使用。這一創新模型融合了掩碼生成與語音表征解耦編碼技術,展現了在聲音克隆、跨語種合成等領域的卓越性能。
MaskGCT在多個TTS基準數據集上均達到了頂尖水平,超越了當前最先進的同類模型。其獨特之處體現在秒級超逼真的聲音克隆、精細可控的語音生成以及基于全球最大且多樣的高質量多語種語音數據集Emilia的訓練。
MaskGCT的研發團隊在語音領域擁有深厚積累,依托趣丸科技的音頻技術服務和香港中文大學(深圳)的師資力量,實現了技術范式的創新。該模型采用非自回歸掩碼生成Transformer,無需文本與語音對齊,突破了傳統TTS模型的限制。
MaskGCT已在多個領域展現出廣闊的應用前景,特別是在短劇出海、數字人、智能助手等方面。趣丸科技推出的多語種速譯智能視聽平臺“趣丸千音”,便是基于MaskGCT技術的實際應用,旨在降低翻譯成本,加速內容出海。
隨著MaskGCT技術的不斷成熟和應用,中國AI企業在全球舞臺上的競爭力將進一步提升,同時推動中華文化在全球的傳播。