李秀林,中科院聲學(xué)所博士,10余年語(yǔ)音相關(guān)技術(shù)研發(fā)和相關(guān)的學(xué)術(shù)研究,專利數(shù)30多項(xiàng),涉及文本處理、韻律預(yù)測(cè)、聲學(xué)模型、拼接系統(tǒng)、模型自適應(yīng)、神經(jīng)網(wǎng)絡(luò)、情感合成等多個(gè)關(guān)鍵領(lǐng)域。曾作為百度語(yǔ)音合成技術(shù)負(fù)責(zé)人帶領(lǐng)團(tuán)隊(duì)折桂百度百萬(wàn)美元最高獎(jiǎng)。現(xiàn)任標(biāo)貝科技聯(lián)合創(chuàng)始人&CTO。
【導(dǎo)讀】近幾年AI人工智能迅猛發(fā)展,語(yǔ)音識(shí)別技術(shù)也逐漸走向成熟,2020年疫情防控更是加速了智能語(yǔ)音交互技術(shù)在多場(chǎng)景落地。致力于智能語(yǔ)音交互和AI數(shù)據(jù)服務(wù)的標(biāo)貝科技近日也完成了語(yǔ)音合成TTS3.0解決方案的升級(jí)迭代,在使用全新的聲學(xué)模型和聲碼器優(yōu)勢(shì)下,深度學(xué)習(xí)端到端系統(tǒng),可以實(shí)現(xiàn)承載更多的聲音細(xì)節(jié),顯著提升TTS語(yǔ)音合成穩(wěn)定性及表現(xiàn)力,助力更多場(chǎng)景落地。
語(yǔ)音合成,讓機(jī)器人開口說(shuō)話
語(yǔ)音合成技術(shù)解決的是從文本到語(yǔ)音轉(zhuǎn)換,為服務(wù)機(jī)器人擔(dān)當(dāng)“嘴巴”的角色。為了讓機(jī)器開口說(shuō)話,與人類更進(jìn)一步交流,語(yǔ)音合成的自然度、多語(yǔ)種能力、快速定制能力也就十分重要。
從技術(shù)架構(gòu)來(lái)看,語(yǔ)音合成主要經(jīng)歷了三次大變革。
九十年代初,隨著PSOLA方法的提出和計(jì)算機(jī)能力的發(fā)展,基于大語(yǔ)料庫(kù)的單元挑選與波形拼接合成方法出現(xiàn),可以合成出高質(zhì)量的自然人語(yǔ)音。法語(yǔ)、德語(yǔ)、英語(yǔ)、日語(yǔ)等語(yǔ)種的文語(yǔ)轉(zhuǎn)換系統(tǒng)相繼研制成功。但波形語(yǔ)音合成法是一種相對(duì)簡(jiǎn)單的 TTS語(yǔ)音技術(shù),通常只能合成有限詞匯的語(yǔ)音段。
由于波形拼接方法需要的語(yǔ)音語(yǔ)料庫(kù)非常占用資源而且要求設(shè)計(jì)精細(xì),訓(xùn)練模型的時(shí)間長(zhǎng),為了解決這個(gè)難題,20世界末,隱馬爾科夫模型(HMM)結(jié)合諧波加噪聲模型一起面世了。這種方法也被看作是最有用的統(tǒng)計(jì)建模方法,靈活度高、庫(kù)小、建構(gòu)時(shí)間也少,非常適合移動(dòng)嵌入式平臺(tái)。
第三個(gè)階段就是利用深度神經(jīng)網(wǎng)絡(luò)了,這是語(yǔ)音合成技術(shù)的一次飛躍式進(jìn)步。深度學(xué)習(xí)的算法可以更好地模擬人聲變化規(guī)律,音色、情感上的改善讓語(yǔ)音合成效果越來(lái)越接近真人水平,使合成的聲音更加自然和個(gè)性。谷歌的 WaveNet、Tacotron,百度的 ClariNet,都是基于深度神經(jīng)網(wǎng)絡(luò)的TTS系統(tǒng)。
標(biāo)貝TTS語(yǔ)音合成技術(shù),打造更溫暖的聲音
事實(shí)上,也是隨著智能語(yǔ)音音質(zhì)的提升,越來(lái)越多新的場(chǎng)景開始出現(xiàn)對(duì)語(yǔ)音技術(shù)的強(qiáng)烈需求,智能語(yǔ)音市場(chǎng)初現(xiàn)規(guī)模。也正是看準(zhǔn)了這一時(shí)機(jī),標(biāo)貝科技作為一家專注于做語(yǔ)音技術(shù)的創(chuàng)業(yè)公司,在積累了豐富的語(yǔ)音合成數(shù)據(jù)基礎(chǔ)上,于2018年正式推出語(yǔ)音合成TTS1.0行業(yè)解決方案。
李博士介紹,為了提高語(yǔ)音合成的自然流暢度,標(biāo)貝科技的語(yǔ)音合成技術(shù)在聲學(xué)、韻律上采用了基于Attention機(jī)制的深度神經(jīng)網(wǎng)絡(luò)技術(shù)模型,充分利用文本數(shù)據(jù),構(gòu)建前端模塊、選擇合適的聲碼器,降低運(yùn)算量,創(chuàng)新語(yǔ)音合成模型,實(shí)現(xiàn)合成的語(yǔ)音發(fā)音自然、清晰、韻律感流暢,讓機(jī)器與人的互動(dòng)顯得更親近。
而隨著市場(chǎng)的發(fā)展,人們對(duì)智能語(yǔ)音技術(shù)有了更高的要求。比如企業(yè)的智能客服需要嗓音輕柔甜美,新聞虛擬主播需要吐字清晰流暢,兒童有聲讀物則需要親切可人等。為了滿足不同客戶群體需求,標(biāo)貝科技在音色和場(chǎng)景豐富度上持續(xù)發(fā)力。基于海量語(yǔ)音數(shù)據(jù)的優(yōu)勢(shì),標(biāo)貝科技對(duì)音色庫(kù)進(jìn)行充分?jǐn)U容,推出可以支持男女老幼多音色,中文、英文、中英混讀、小語(yǔ)種等多語(yǔ)種的TTS2.0解決方案,可以根據(jù)用戶個(gè)性化需求定制,滿足多場(chǎng)景業(yè)務(wù)需求。
“其實(shí)我們第二版的TTS技術(shù)相對(duì)來(lái)說(shuō)已經(jīng)算是很成熟了,不管市場(chǎng)需求如何變化,我們始終聚焦AI語(yǔ)音的應(yīng)用價(jià)值,在語(yǔ)音合成技術(shù)的基礎(chǔ)上,不斷拓展場(chǎng)景應(yīng)用邊界,打造豐富的技術(shù)產(chǎn)品及方案,構(gòu)建更加完善的業(yè)務(wù)體系。“李博士表示。
“例如,在語(yǔ)音技術(shù)方面,我們打造聲音復(fù)刻、情感合成、聲音轉(zhuǎn)換與AI歌曲等多元化語(yǔ)音技術(shù)服務(wù)。其中,聲音復(fù)刻與情感合成是語(yǔ)音技術(shù)本身的創(chuàng)新應(yīng)用,通過(guò)復(fù)刻聲音和讓聲音更富有情感的表現(xiàn)力,來(lái)挖掘合成語(yǔ)音的個(gè)性化價(jià)值,更好的匹配有聲閱讀、AI教育場(chǎng)景應(yīng)用,而聲音轉(zhuǎn)換和歌曲合成,則是語(yǔ)音技術(shù)延展能力的體現(xiàn),在虛擬偶像、短視頻方等方面有巨大的市場(chǎng)應(yīng)用空間。“說(shuō)到標(biāo)貝科技語(yǔ)音交互技術(shù)的落地應(yīng)用,李博士很自豪。
”在解決方案上,我們?nèi)峦瞥隽薃I數(shù)字虛擬人、智能客服、智慧媒體等一站式解決方案;在產(chǎn)品方面,推出標(biāo)貝悅讀、恐龍貝克兩大C端產(chǎn)品,從原有的單點(diǎn)語(yǔ)音技術(shù)升級(jí)至語(yǔ)音、圖像、虛擬人等多點(diǎn)技術(shù)融合。“
標(biāo)貝TTS升級(jí),實(shí)現(xiàn)端到端完美融合
2020年是智能語(yǔ)音交互技術(shù)加速落地的一年。防疫常態(tài)化的要求下,遠(yuǎn)程會(huì)議、在線教育、在線辦公的已成為人們生活中的標(biāo)配,智能語(yǔ)音交互技術(shù)規(guī)模化發(fā)展由此得到了極大的推動(dòng)。為了賦予聲音更豐富的情感表現(xiàn)力和個(gè)性化特點(diǎn),讓語(yǔ)音合成技術(shù)能夠“恰好”適配到各種非標(biāo)準(zhǔn)化的場(chǎng)景中,在原有的技術(shù)基礎(chǔ)上,標(biāo)貝再一次進(jìn)行“升級(jí)改造”。
“我們這次TTS3.0的迭代采用了全新的聲學(xué)模型和聲碼器,同時(shí)也保持對(duì)TTS2.0舊模型的全部兼容,最大程度地保證無(wú)縫升級(jí)。”李博士強(qiáng)調(diào)。
全新升級(jí)的TTS3.0技術(shù)采用全新的聲學(xué)模型在發(fā)音效果上有了顯著提升,普通人自然講話、刻意帶情緒講話、角色模仿講話等場(chǎng)景下,對(duì)角色和情感表達(dá)的判斷更加準(zhǔn)確,輸出的音質(zhì)穩(wěn)定、清晰、順暢,音色富有表現(xiàn)力;聲碼器則采用GAN結(jié)構(gòu),可以高效且真實(shí)的還原波形,增加了合成聲音的真實(shí)質(zhì)感。
此外,李博士還介紹到,此次TTS3.0升級(jí)在一些細(xì)節(jié)及專業(yè)領(lǐng)域的發(fā)音上也進(jìn)行了優(yōu)化。“例如,對(duì)多音字的處理,我們基于Mask-based Model神經(jīng)網(wǎng)絡(luò)多音字模型,對(duì)所有多音字進(jìn)行統(tǒng)一建模,提升了語(yǔ)音合成時(shí)多音字發(fā)音的準(zhǔn)確率。在韻律方面,采用多任務(wù)的神經(jīng)網(wǎng)絡(luò)模型,利用韻律間的層次關(guān)系,在同個(gè)模型結(jié)構(gòu)下對(duì)多個(gè)韻律等級(jí)進(jìn)行建模,在朗讀時(shí)高低音、停頓處更加自然流暢。“
如今,標(biāo)貝科技語(yǔ)音合成解決方案已經(jīng)實(shí)現(xiàn)全面支持中文普通話、中文方言、粵語(yǔ)、英語(yǔ)等多種語(yǔ)言。不論是溫柔甜美的女聲,清爽端正的男聲,活波可愛(ài)的童聲,標(biāo)貝科技的語(yǔ)音合成技術(shù)都能快速實(shí)現(xiàn)企業(yè)個(gè)性化需求,打造專屬“聲音”形象。
“需要注意的是,合成一個(gè)理想的聲音的前提是要有足夠多的不同特征的語(yǔ)料,也就是聲音樣本。標(biāo)貝科技以數(shù)據(jù)服務(wù)起家,在這方面擁有顯著優(yōu)勢(shì)。我們擁有400余種音庫(kù),大量?jī)?yōu)質(zhì)發(fā)音人的資源儲(chǔ)備,比如普通音庫(kù)、明星音庫(kù)以及深受小朋友熱捧的卡通IP音庫(kù)等。用戶可通過(guò) SDK、API 技術(shù)接口隨時(shí)調(diào)取自己中意的語(yǔ)音數(shù)據(jù)進(jìn)行使用,快速搭建自己的語(yǔ)音產(chǎn)品。“說(shuō)到這里,李博士不忘夸一下自家強(qiáng)大的語(yǔ)音數(shù)據(jù)基礎(chǔ)。
打破有聲內(nèi)容生產(chǎn)壁壘 強(qiáng)勢(shì)助推有聲場(chǎng)景落地
在最后,李博士還結(jié)合當(dāng)下趨勢(shì)提到了今年標(biāo)貝產(chǎn)品布局的主要方向。“TTS升級(jí)是結(jié)合了我們最新的語(yǔ)音技術(shù)、海量的文本和聲學(xué)數(shù)據(jù)以及大規(guī)模計(jì)算能力,對(duì)語(yǔ)音合成技術(shù)進(jìn)行的一次全面優(yōu)化,讓機(jī)器的聲音情感表現(xiàn)力更加真實(shí)自然,這也是為我們發(fā)力有聲讀物和虛擬人的應(yīng)用場(chǎng)景打下基礎(chǔ)。”
據(jù)中國(guó)新聞出版研究院發(fā)布的2020年第十七次全國(guó)國(guó)民閱讀調(diào)查報(bào)告顯示,成年國(guó)民和未成年人有聲閱讀繼續(xù)較快增長(zhǎng),成為國(guó)民閱讀新的增長(zhǎng)點(diǎn),移動(dòng)有聲App平臺(tái)已經(jīng)成為聽書的主流選擇。在碎片化信息時(shí)代,有聲讀物越來(lái)越受到更多人的青睞。在此背景下,有聲書、音頻已成為出版業(yè)數(shù)字化轉(zhuǎn)型的重要發(fā)展方向。
“其實(shí)去年我們推出的情感合成技術(shù)已經(jīng)在有聲閱讀場(chǎng)景得到落地應(yīng)用,例如面向兒童有聲內(nèi)容市場(chǎng)的恐龍貝殼App ,一經(jīng)推出就引發(fā)熱烈反響。今年,我們將繼續(xù)發(fā)力有聲讀物市場(chǎng),借助于標(biāo)貝科技更具表現(xiàn)力以及個(gè)性化的語(yǔ)音合成技術(shù),細(xì)化有聲讀物場(chǎng)景,給有聲閱讀市場(chǎng)提供更多個(gè)性化玩法,滿足現(xiàn)代人求新的需求,提升用戶對(duì)有聲閱讀 App 專屬聲音的 “粘性”。“李博士表示,“近期,我們的TTS3.0就將上線到標(biāo)貝官網(wǎng),對(duì)外提供升級(jí)的TTS服務(wù),需要的客戶可以多關(guān)注一下標(biāo)貝官網(wǎng)動(dòng)態(tài)。”