7月15-17日,2022年第三屆自然語(yǔ)言處理與人工智能國(guó)際會(huì)議(NLPAI 2022)于成都四川大學(xué)舉辦。繼出門(mén)問(wèn)問(wèn)語(yǔ)音情感合成論文入選全球語(yǔ)音領(lǐng)域頂級(jí)會(huì)議 INTERSPEECH 2022后,出門(mén)問(wèn)問(wèn)語(yǔ)音團(tuán)隊(duì)的3篇論文再次被NLPAI錄用發(fā)表。
NLPAI會(huì)議旨在為世界各地的研究學(xué)者,工程師和科學(xué)家提供一個(gè)自然語(yǔ)言處理與人工智能等相關(guān)領(lǐng)域的技術(shù)進(jìn)步展示和研究成果發(fā)布交流的國(guó)際會(huì)議平臺(tái),每年都吸引數(shù)千名學(xué)者專家進(jìn)行交流,探討學(xué)術(shù)觀點(diǎn),碰撞最新研究成果。會(huì)議所有被錄用的論文將發(fā)表在 Conference Proceedings 上,將被 Ei Compendex、Scopus 檢索,并提交 CPCI 檢索。
在群星璀璨的技術(shù)盛宴里,出門(mén)問(wèn)問(wèn)語(yǔ)音團(tuán)隊(duì)在語(yǔ)音技術(shù)領(lǐng)域貢獻(xiàn)了哪些精彩亮點(diǎn)?
1、《Prosody Prediction With Discriminative Representation Method》
《基于判別表示的韻律預(yù)測(cè)》
作者: Jipeng Zhang, Askar Hamdulla, Xiaoqin Feng, Xipeng Yang, Yunlin Chen
韻律是影響文本到語(yǔ)音(TTS)的自然性和可理解性的關(guān)鍵因素,同時(shí)也面臨著巨大的挑戰(zhàn),包括:
1. 統(tǒng)一標(biāo)注數(shù)據(jù)集的獲取,需要依賴于嚴(yán)格的專家經(jīng)驗(yàn)。
2. 基于傳統(tǒng)概率統(tǒng)計(jì)方法,嚴(yán)重依賴于特征工程等文本處理效果。
針對(duì)上述問(wèn)題,論文中提出了一種基于獨(dú)立韻律數(shù)據(jù)的預(yù)測(cè)系統(tǒng)。
這個(gè)新方法具有以下優(yōu)點(diǎn):
1. 減少了對(duì)于聯(lián)合數(shù)據(jù)的依賴性,靈活支持不同韻律等級(jí)的模型訓(xùn)練。
2. 提出了一種通用判別表示方法 Layer Look Up Table(LLUT),建模不同的韻律等級(jí),引入多任務(wù)訓(xùn)練。
3. 基于預(yù)訓(xùn)練方法對(duì)文本語(yǔ)義建模,無(wú)需任何特征工程。
2、《Research of Pitch Controllability Based on LPCNet》
《基于LPCNet的語(yǔ)調(diào)可控性研究》
作者:Wenyu Gao, Askar Hamdulla, Xipeng Yang, Yunlin Chen
隨著語(yǔ)音合成技術(shù)在大部分場(chǎng)景的使用,修改音頻的音調(diào)有著廣泛的用途。目前大部分音調(diào)可控是通過(guò)使用單獨(dú)的神經(jīng)網(wǎng)絡(luò)生成輸入?yún)?shù)實(shí)現(xiàn),但這個(gè)方法需要訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò),并且在沒(méi)有說(shuō)話人自適應(yīng)的情況下不能顯示可控。針對(duì)這一問(wèn)題,提出了一種基于LPCNet聲碼器進(jìn)行音調(diào)顯示控制的方法。首先在訓(xùn)練階段,通過(guò)優(yōu)化訓(xùn)練特征來(lái)優(yōu)化聲碼器模型合成效果和對(duì)控制音調(diào)的魯棒性;其次在推理階段輸入控制曲線對(duì)基頻進(jìn)行調(diào)節(jié),然后利用聲碼器LPCNet將聲學(xué)特征推理為波形點(diǎn);最后合成音頻。實(shí)驗(yàn)結(jié)果表明,所提方法能夠靈活控制音調(diào),合成的聲音音質(zhì)也有所提升。
訓(xùn)練階段
測(cè)試階段
這個(gè)新方法具有以下優(yōu)點(diǎn):
1. 能夠靈活控制音調(diào),聲音音質(zhì)也有所提升;
2. 在控制閾值范圍內(nèi),調(diào)節(jié)控制參數(shù)并沒(méi)有使得音質(zhì)有明顯下降;
3. 后續(xù)嘗試在聲學(xué)模型生產(chǎn)聲學(xué)特征過(guò)程中引入基頻控制,這樣結(jié)合聲學(xué)模型的decoder模型,能夠生成更加魯棒的音頻。
3、《End-to-End Multi-Speaker Speech Synthesis with Controllable Stress》
《基于端到端的跨說(shuō)話人重音可控語(yǔ)音合成》
作者:Ting Liang, Askar Hamdulla, Hao Yin, Yunlin Chen
目前,端到端語(yǔ)音合成在某些領(lǐng)域已經(jīng)達(dá)到了真人水平,如語(yǔ)音助手、新聞播報(bào)、智能導(dǎo)航等。然而,人類表達(dá)信息通常需要突出重點(diǎn),在語(yǔ)音中適時(shí)添加重音(Stress)可以起到強(qiáng)調(diào)作用,更好的表述觀點(diǎn)。目前大部分語(yǔ)音合成研究都沒(méi)有對(duì)重音特征進(jìn)行建模,因此合成的語(yǔ)音無(wú)法突出重點(diǎn),語(yǔ)調(diào)單一或者重音的位置不可控。這樣的語(yǔ)音缺乏表現(xiàn)力。該文提出了一種基于端到端的跨說(shuō)話人重音可控語(yǔ)音合成方法,并且無(wú)需對(duì)目標(biāo)說(shuō)話人的重音特征進(jìn)行標(biāo)注,即可合成重音可控的目標(biāo)說(shuō)話人語(yǔ)音。
這個(gè)方法具有以下優(yōu)點(diǎn):
1. 實(shí)現(xiàn)對(duì)合成語(yǔ)音的重音三級(jí)可控(重讀/拖音/重讀拖音);
2. 只需少量重音標(biāo)注數(shù)據(jù),即可將重音功能遷移至任意無(wú)重音數(shù)據(jù)的目標(biāo)發(fā)音人;
3. 合成語(yǔ)音更加自然、表現(xiàn)力更加豐富。
聆聽(tīng)用戶聲音 探索更貼近用戶的語(yǔ)音技術(shù)
此次3篇論文入選自然語(yǔ)言處理與人工智能國(guó)際會(huì)議(NLPAI 2022),是出門(mén)問(wèn)問(wèn)全棧和硬核技術(shù)的再次進(jìn)展,也是公司繼獲評(píng)吳文俊人工智能科技進(jìn)步獎(jiǎng)、國(guó)家高新技術(shù)企業(yè)、北京市專精特新中小企業(yè),論文入選全球語(yǔ)音技術(shù)頂會(huì) INTERSPEECH 2022 等技術(shù)成就之后,在前沿技術(shù)上的又一次新突破。
近年來(lái),出門(mén)問(wèn)問(wèn)不斷將日趨成熟的語(yǔ)音技術(shù),逐步落地在離用戶更近的產(chǎn)品和服務(wù)上,聆聽(tīng)用戶聲音,尊重用戶情感,深度挖掘用戶的潛在需求。目前,出門(mén)問(wèn)問(wèn)團(tuán)隊(duì)已將重讀、拖音、韻律及語(yǔ)調(diào)可控等功能應(yīng)用于AI配音神器「魔音工坊」中,從聲音轉(zhuǎn)換到重讀、拖音,眾多首發(fā)的AI語(yǔ)音技術(shù)實(shí)現(xiàn),讓用戶體驗(yàn)到更富有情感、媲美真人的AI配音。
人工智能底層技術(shù)的深厚積累,將不斷促進(jìn)出門(mén)問(wèn)問(wèn)人工智能系統(tǒng)的“智力”提升,使之更好地應(yīng)用于智慧出行、智慧生活等各行業(yè),為用戶締造出色的智能體驗(yàn)。