說到聲音克隆,大家都不陌生。開車時聽“志玲姐姐”為你導(dǎo)航,看書時“喜歡的愛豆”給你講故事,聽“AI孫燕姿”唱膾炙人口的流行歌曲,聽“馬三立”講相聲等等,這都是聲音復(fù)刻技術(shù)在生活中的具體應(yīng)用。
聲音克隆,也稱聲音復(fù)刻,通過使用AI模型對大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練,從而得到與用戶本人在音色和發(fā)音風(fēng)格上非常相似的聲音模型,快速“復(fù)刻”個性化聲音。用以彌補(bǔ)傳統(tǒng)語音合成技術(shù)在數(shù)字化人聲上的不足,生成紋理更為真實豐富的聲音。
近年來,隨著智能語音產(chǎn)業(yè)的快速發(fā)展,語音合成技術(shù)得到了廣泛應(yīng)用,而聲音復(fù)刻作為語音合成拓展出的個性化應(yīng)用,也在不斷取得進(jìn)展。目前,聲音復(fù)刻已經(jīng)在語音導(dǎo)航、小說閱讀、影視配音、虛擬人音色生成、AI歌曲等領(lǐng)域廣泛落地應(yīng)用。
標(biāo)貝科技聲音復(fù)刻
事實上,得益于AI技術(shù)的發(fā)展,還原人聲已經(jīng)是非常基礎(chǔ)的事了。但通過一般聲音復(fù)刻軟件克隆出來的聲音往往機(jī)械感重,缺乏語調(diào)、情感的變化,在交互過程很難帶入。想要實現(xiàn)1:1的高質(zhì)量聲音克隆,更需要耗費大量時間以及高昂的定制成本。
此前,為了滿足多場景音色需求,標(biāo)貝科技推出普通聲音復(fù)刻和精品聲音復(fù)刻兩種方案。 普通聲音復(fù)刻僅需5分鐘音頻數(shù)據(jù),便可實現(xiàn)與真人語氣音調(diào)基本接近的合成音色。而精品復(fù)刻則是基于30-60分鐘的音頻數(shù)據(jù),提取說話人的音色和發(fā)音特征,經(jīng)過2-3天的模型訓(xùn)練及效果調(diào)優(yōu),實現(xiàn)用戶個性化的音色定制。
近日,為了進(jìn)一步降低聲音復(fù)刻使用門檻,標(biāo)貝科技在保留普通聲音復(fù)刻方案的基礎(chǔ)上,依托核心的語音大模型遷移學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)技術(shù),對原有的精品聲音復(fù)刻方案進(jìn)行升級迭代。用戶僅需提供30分鐘的音頻數(shù)據(jù),經(jīng)過3個小時訓(xùn)練出高相似度的聲音模型,即可將目標(biāo)說話人的聲音復(fù)刻下來,高保真還原真人發(fā)音,還富有鮮明的情感表現(xiàn)力和人格化魅力。
相對于原有的方案,升級后的精品聲音復(fù)刻技術(shù)增加了音色的多情感表現(xiàn)能力,可以支持開心、憤怒、悲哀、驚訝、恐懼、厭惡等多種情緒,適用于不同情境下的語意表達(dá)。同時訓(xùn)練周期縮短90%以上,整體復(fù)刻成本降低近40%。
、
▲新老版聲音復(fù)刻對比
個性化音色定制 讓合成聲音更便捷普惠
伴隨著語音合成技術(shù)應(yīng)用不斷深入,使用場景的日益多樣化也對聲音提出了更高的要求,以標(biāo)準(zhǔn)音色合成、聲音復(fù)刻、聲音轉(zhuǎn)換等為代表的聲音定制服務(wù)開始成為發(fā)展趨勢。
實際上,AI語音定制在智能語音產(chǎn)業(yè)中始終具有高度的競爭優(yōu)勢。音色,是每個人獨有的聲音特色。AI聲音不僅是一項基本人機(jī)交互能力,更被賦予了很多品牌屬性。強(qiáng)大的音色定制能力能夠賦予機(jī)器人擁有媲美真人的聲音屬性,基于領(lǐng)域和場景的要求,打造更為鮮活的品牌形象。
經(jīng)過多年的行業(yè)積累沉淀,標(biāo)貝科技已逐步形成了一套成熟的技術(shù)方案,覆蓋從聲音畫像設(shè)計、數(shù)據(jù)采集標(biāo)注、模型優(yōu)化和最終部署上線的全流程,實現(xiàn)一站式TTS商業(yè)化定制服務(wù)。面向不同層面的用戶需求,標(biāo)貝科技可以基于普通聲音復(fù)刻、精品聲音復(fù)刻、標(biāo)準(zhǔn)化定制等多層級技術(shù)方案,提供從底層數(shù)據(jù)、到核心技術(shù),再到場景應(yīng)用的全鏈路TTS音色定制支持,客戶無需耗費過多時間和資源,即可實現(xiàn)專屬IP音色。
目前,標(biāo)貝科技已經(jīng)為湖南電信、恒生電子、信雅達(dá)、慧捷科技、人民日報、風(fēng)平智能、穿山甲等客戶提供音色定制方案,覆蓋智能客服、金融券商、新聞媒體、社交娛樂、虛擬數(shù)字人、IOT機(jī)器人等領(lǐng)域。
未來,AIGC時代,生成式AI成為新風(fēng)潮,聲音定制服務(wù)也會迎來更為廣闊的發(fā)展空間和潛力。標(biāo)貝科技將不斷優(yōu)化和完善聲音定制服務(wù),提供更加全面和智能的語音交互體驗,為用戶帶來更多驚喜和便利。