說到語音合成,大家都不陌生。從語音導(dǎo)航到智能客服,從智能手機到智能家居,基于AI的合成語音無處不在。特別是今年以來,以GPT大模型為代表的AIGC技術(shù)迅猛發(fā)展,AI語音生成作為其中的重要一環(huán),正受到越來越多人的關(guān)注和探索。
語音合成 (Text-to-speech, TTS) 是將文本轉(zhuǎn)換為自然語音,服務(wù)于人機智能語音交互場景的核心技術(shù)。過去十年,通過神經(jīng)網(wǎng)絡(luò)和端到端建模技術(shù)的發(fā)展,語音合成技術(shù)也取得了巨大突破,自然度和音質(zhì)得到了極大提升。
伴隨大模型時代的到來,引發(fā)了新一輪的AI革命浪潮,更自然、更智能的人機交互逐漸進入到我們的生活中。人們越來越需要機器給予“情感”回饋,越來越多的企業(yè)開始致力于追求語音合成在情感、韻律、高保真等方面的高表現(xiàn)力。
標(biāo)貝科技深耕AI語音交互領(lǐng)域多年,致力于語音交互技術(shù)的創(chuàng)新研發(fā)和商業(yè)化應(yīng)用,推出高品質(zhì)通用語音方案和特色語音定制服務(wù),能夠滿足虛擬人、有聲閱讀、短視頻、智能客服等多種場景需求。
為了賦予聲音更多的情感表現(xiàn)力和個性化風(fēng)格,標(biāo)貝科技依托于先進的深度學(xué)習(xí)技術(shù)和多情感風(fēng)格大語言模型,在情感生成、風(fēng)格拓展等方面的取得重要突破,實現(xiàn)了合成效果的全面提升,讓新一代語音合成系統(tǒng)4.0適配到各種標(biāo)準(zhǔn)化和個性化場景中。最終的合成音色保真度更高,情感更真實豐富,合成效率更快更穩(wěn)定,有效提升用戶對生成聲音的“粘性”。
TTS4.0全面升級 打造極致聲音體驗
●支持多情感、歌聲合成
標(biāo)貝科技TTS4.0基于成熟的深度神經(jīng)網(wǎng)絡(luò)技術(shù)及全新的高音質(zhì)合成系統(tǒng),可提供商業(yè)級情感合成以及歌聲合成方案。
情感合成支持超過20余種情緒和風(fēng)格的音色表達(dá),同時我們還引入細(xì)粒度控制能力,通過對情感強弱、語速、停頓,音量等關(guān)鍵音色屬性的控制調(diào)節(jié),使得合成的情感聲音更具表現(xiàn)力,適應(yīng)不同情境下的語意表達(dá)。
歌曲合成方案支持用戶自由填詞,然后選擇合適的音色,利用成熟的AI歌唱合成技術(shù)實現(xiàn)歌曲合成。用戶一鍵即可體驗短視頻填詞成曲的玩梗樂趣,適用于短視頻、廣告配音等各種泛娛樂場景。
●合成效果更優(yōu)
標(biāo)貝科技TTS4.0采用全新的深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型架構(gòu)和聲碼器結(jié)構(gòu),與上一代語音技術(shù)相比,聲音質(zhì)量再創(chuàng)新高,MOS得分可以達(dá)到4.5以上,主要體現(xiàn)在發(fā)音更準(zhǔn)確、韻律更自然、高保真效果更完美。
●合成效率更快更穩(wěn)定
通過算法和模型優(yōu)化,標(biāo)貝科技TTS4.0對于硬件算力的要求更低,可以大大縮短訓(xùn)練時間,提高合成效率。據(jù)介紹,首包合成時間提升至少50%,實現(xiàn)更快的響應(yīng)速度。在語音聊天、語音助手等實時應(yīng)用場景下,給帶來用戶更加流暢的交互體驗。
此外,標(biāo)貝科技面向私部署場景下提供了不同類型的高可用部署方案。既支持少量服務(wù)器的輕量級多機高可用,也支持實現(xiàn)彈性擴容的大規(guī)模容器集群的部署。讓應(yīng)用程序開發(fā)和部署變得更加簡單和可靠,確保語音合成系統(tǒng)平穩(wěn)順滑。
●功能更豐富
(1)長文本、短文本支持流式合成:用戶輸入文本的同時,可以逐段生成并輸出相應(yīng)的語音數(shù)據(jù),讓用戶實時聽到合成內(nèi)容。例如在實時交互的虛擬人場景下,需要虛擬人對用戶指令快速做出應(yīng)答,否則會消耗用戶的耐心、降低用戶體驗。此時就需要流式語音合成系統(tǒng),在保障合成質(zhì)量的同時提高響應(yīng)速度。
(2)更多類型時間戳:標(biāo)貝科技TTS4.0支持字級別、音素級別和句子級別等不同顆粒度的時間戳輸出,滿足多場景展示和口型呈現(xiàn)需求,給用戶帶來更便捷的畫音同步體驗。
多層級音色定制,適應(yīng)不同業(yè)務(wù)場景需求
基于成熟的語音合成技術(shù),標(biāo)貝科技上線了上百種覆蓋不同語言和場景的可商用音色,支持西語、韓語、日語、英語、美語、維語、東北話、粵語等多語言,影視配音、賽事解說、直播帶貨、自然對話、老年人等多風(fēng)格的場景音色,快速匹配各業(yè)務(wù)場景需求。
為進一步拓寬語音使用場景,滿足各行業(yè)客戶的多元化需求,標(biāo)貝科技也在不斷探索新的服務(wù)和能力。在產(chǎn)品日益同質(zhì)化的當(dāng)下,標(biāo)貝科技提供一站式TTS音色定制服務(wù),包括普通聲音復(fù)刻、精品聲音復(fù)刻、標(biāo)準(zhǔn)化音色定制等方案,為企業(yè)打打造專屬IP音色,實現(xiàn)品牌價值的最大化。
●普通聲音復(fù)刻
僅需5分鐘音頻數(shù)據(jù),無需開發(fā)人員,機器自動進行音頻標(biāo)注,對聲音進行快速的模型訓(xùn)練,即可實現(xiàn)與真人語氣音調(diào)基本接近的合成音色。
●精品聲音復(fù)刻
基于30-60分鐘的音頻數(shù)據(jù),提取說話人的音色和發(fā)音特征,然后人工對標(biāo)注結(jié)果進行檢測。經(jīng)過2-3天的模型訓(xùn)練及效果調(diào)優(yōu),實現(xiàn)客戶個性化的情感音色定制。適用于虛擬數(shù)字人音色定制場景,賦予數(shù)字人更加鮮明的人格化魅力。
●標(biāo)準(zhǔn)音色定制
專業(yè)錄音棚采集不少于4小時的高質(zhì)量語音數(shù)據(jù),并通過人工進行專業(yè)的聲學(xué)層面的精細(xì)化標(biāo)注,2-3周的優(yōu)化定制,生成高度還原發(fā)音人聲音的情感合成音色,滿足不同層面客戶的定制需求。
實際上,在智能語音產(chǎn)業(yè)中,AI語音定制的能力始終被報以高度期待。音色,是每個人獨有的聲音特色,也是機器人表達(dá)情感、對外溝通不可或缺的部分。強大的音色定制能力能夠賦予機器人擁有媲美真人的聲音屬性,個體形象更為鮮活。
然而,當(dāng)前市場上傳統(tǒng)人工合成音色定制服務(wù)通常流程較為復(fù)雜,高昂的定制成本與定制周期,遠(yuǎn)遠(yuǎn)無法滿足高頻應(yīng)用的需求。
標(biāo)貝科技TTS4.0支持聲音自選或提供語料定制,提供全鏈路深度語音合成定制服務(wù),讓AI語音定制不再需耗費過多時間和資源,滿足不同層面企業(yè)用戶的個性化需求,以更普惠的方式賦能千行百業(yè)。同時,標(biāo)貝科技不忘支持國家信創(chuàng)產(chǎn)業(yè)發(fā)展,當(dāng)前,語音合成系列產(chǎn)品已經(jīng)完成全棧的國產(chǎn)化ARM服務(wù)器適配。
專注AI語音技術(shù)探索 引領(lǐng)行業(yè)變革
在AIGC蓬勃發(fā)展的關(guān)鍵時期,語音合成扮演著不可或缺的重要角色,賦能機器的語言更逼真、自然、流暢,全面提升用戶體驗。
成立多年來,標(biāo)貝科技始終將技術(shù)引領(lǐng)作為發(fā)展第一要位,專注于產(chǎn)品的研發(fā)與創(chuàng)新。如今,標(biāo)貝科技正利用全新推出的多情感、多風(fēng)格、多語種的語音合成技術(shù)助力各領(lǐng)域企業(yè)快速擁有更具競爭力的語音產(chǎn)品,為用戶創(chuàng)造更加逼真、個性化的語音體驗。
目前,標(biāo)貝科技TTS產(chǎn)品已覆蓋智能客服、語音交互、有聲閱讀、導(dǎo)航播報等眾多應(yīng)用場景,并助力中國銀行、人民日報、湖南電信、恒生電子等多家行業(yè)頭部企業(yè)實現(xiàn)AI語音能力的應(yīng)用與拓展。未來,隨著語音技術(shù)的進一步迭代發(fā)展,標(biāo)貝科技將持續(xù)釋放自己的勢能,引領(lǐng)行業(yè)變革。