編輯:LRS
【新智元導(dǎo)讀】AI語音生成的特點(diǎn)就是呆板,沒有情緒的起伏。最近Meta AI連發(fā)了三篇Textless NLP的論文,不僅開源了textlesslib庫,還展示了AI對(duì)話在語音情感轉(zhuǎn)換的驚人能力!
在日常交流的時(shí)候,人們往往會(huì)使用一些「非語言」的信號(hào),比如語調(diào)、情感表達(dá)、停頓、口音、節(jié)奏等來強(qiáng)化對(duì)話互動(dòng)的效果。
像開心、憤怒、失落、困倦時(shí)說同一句話,雖然內(nèi)容都一樣,但聽起來的感覺肯定是非常不同的,而AI的發(fā)聲則比較死板。
目前AI語音生成系統(tǒng)大部分還是根據(jù)書面文本來學(xué)習(xí)發(fā)聲,也就是說,模型只能知道說話的內(nèi)容,卻不知道人類以何種語速、情感來說,對(duì)于文本之外富有表現(xiàn)力的語音信號(hào)根本捕捉不到。
所以AI雖然能當(dāng)主持人播新聞,但在一些特殊的應(yīng)用場(chǎng)景里,比如小品、相聲、脫口秀這些語言藝術(shù)領(lǐng)域,人工智能還沒法取代人類來說話。
Meta AI去年推出了一個(gè)突破性的自然語言處理模型GSLM,打破了傳統(tǒng)模型對(duì)文本的依賴。
GSLM可以通過直接處理原始的音頻信號(hào)來發(fā)現(xiàn)結(jié)構(gòu)化的內(nèi)容,無需使用任何人工標(biāo)簽或文本,就像人學(xué)語言的過程一樣。GSLM能夠讓NLP模型捕捉到口頭語言的表現(xiàn)力,也可以作為下游應(yīng)用的一種預(yù)訓(xùn)練形式,或者作為一種生成工具,從給定的輸入音頻提示中生成后續(xù)音頻。
最近,Meta基于GSLM連發(fā)三篇論文,朝著更有表現(xiàn)力的NLP模型向前走了一大步。
開源textlesslib
發(fā)布了一個(gè)開源的Textless Python庫,機(jī)器學(xué)習(xí)開發(fā)人員可以更快地在GSLM組件(編碼器,語言模型,解碼器)上進(jìn)行實(shí)驗(yàn)。
論文鏈接:https://arxiv.org/pdf/2202.07359.pdf
代碼鏈接:https://github.com/facebookresearch/textlesslib
Textless NLP是一個(gè)活躍的研究領(lǐng)域,旨在使NLP相關(guān)的技術(shù)和工具可以直接用于口語。通過使用自監(jiān)督學(xué)習(xí)的離散語音表征,Textless NLP技術(shù)能夠在那些沒有書面形式的語言上或在基于文本的方法無法獲得的口語信息中開發(fā)出更多有趣的NLP應(yīng)用。
Meta開源的textlesslib是一個(gè)旨在促進(jìn)無文本NLP研究的庫。該庫的目標(biāo)是加快研究周期,并降低初學(xué)者的學(xué)習(xí)曲線。庫中提供高度可配置的、現(xiàn)成的可用工具,將語音編碼為離散值序列,并提供工具將這種流解碼回音頻領(lǐng)域。
語音情感轉(zhuǎn)換
對(duì)于一些表達(dá)性的發(fā)聲,比如笑聲、哈欠和哭聲,研究人員開發(fā)的模型已經(jīng)能夠捕捉到這些信號(hào)了。這些表達(dá)方式對(duì)于以人的方式理解互動(dòng)的背景至關(guān)重要,模型能夠辨別出那些有可能傳達(dá)關(guān)于他們的交流意圖或他們?cè)噲D傳達(dá)的情感的細(xì)微差別,比如是諷刺、煩躁還是無聊等等。
論文鏈接:https://arxiv.org/pdf/2111.07402.pdf
演示鏈接:https://speechbot.github.io/emotion/
語音情感轉(zhuǎn)換(Speech Emotion Conversion)是指在保留詞匯內(nèi)容和說話人身份的情況下修改語音語料的可感知情感的任務(wù)。在這篇論文中,研究人員把情感轉(zhuǎn)換的問題作為一項(xiàng)口語翻譯任務(wù),將語音分解成離散的、不相干的,由內(nèi)容單元、音調(diào)(f0)、說話人和情緒組成的學(xué)習(xí)表征。
模型先通過將內(nèi)容單元翻譯成目標(biāo)情感來修改語音內(nèi)容,然后根據(jù)這些單元來預(yù)測(cè)聲音特征,最后通過將預(yù)測(cè)的表征送入一個(gè)神經(jīng)聲碼器來生成語音波形。
這種范式使得模型不止能發(fā)現(xiàn)信號(hào)的頻譜和參數(shù)變化,還可以對(duì)非語言發(fā)聲進(jìn)行建模,如插入笑聲、消除哈欠等。論文在客觀上和主觀上證明了所提出的方法在感知情感和音頻質(zhì)量方面優(yōu)于基線。實(shí)驗(yàn)部分嚴(yán)格評(píng)估了這樣一個(gè)復(fù)雜系統(tǒng)的所有組成部分,并以廣泛的模型分析和消融研究作為結(jié)論,以更好地強(qiáng)調(diào)擬議方法的架構(gòu)選擇、優(yōu)勢(shì)和劣勢(shì)。
比如在一個(gè)包含五種情緒表達(dá)方式(中立、憤怒、娛樂、困倦或厭惡)的情緒轉(zhuǎn)換任務(wù)中,模型需要根據(jù)輸入音頻轉(zhuǎn)換到目標(biāo)情緒,可以看到整個(gè)流程就相當(dāng)于是一個(gè)端到端的序列翻譯問題,所以插入、刪除、替換一些非語言的音頻信號(hào)來轉(zhuǎn)換情感就會(huì)更容易。
經(jīng)過實(shí)驗(yàn)評(píng)估可以看到,提出的模型與以往最佳情感語音轉(zhuǎn)換模型相比,取得了極大的質(zhì)量提升。事實(shí)上,結(jié)果與原始音頻的質(zhì)量非常接近(圖表中以淺綠色為原始音頻)。
有情感的AI對(duì)話
Meta AI建立了一個(gè)可以讓兩個(gè)人工智能agent之間自發(fā)的、實(shí)時(shí)的閑聊模型,每個(gè)agent的行為因素,如偶爾的重疊或停頓都很真實(shí),這對(duì)建立像虛擬助手這樣的應(yīng)用場(chǎng)景來說很重要,可以讓AI更好地理解細(xì)微的社交線索和信號(hào),比如能夠捕捉到與人聊天時(shí)的細(xì)微的積極或消極反饋。
論文鏈接:https://arxiv.org/pdf/2203.16502.pdf
演示鏈接:https://speechbot.github.io/dgslm/
文中提出的dGSLM模型是第一個(gè)能夠生成自然口語對(duì)話音頻樣本的Textless模型。模型的開發(fā)上利用了最近在無監(jiān)督口語單元發(fā)現(xiàn)方面的工作,加上一個(gè)帶有交叉注意力的雙塔Transformer架構(gòu),在2000小時(shí)的雙通道原始對(duì)話音頻(Fisher數(shù)據(jù)集)上訓(xùn)練,沒有任何文字或標(biāo)簽數(shù)據(jù)。dGSLM能夠在兩個(gè)通道中同時(shí)產(chǎn)生語音、笑聲和其他副語言信號(hào),讓談話的轉(zhuǎn)折非常自然。
顛覆傳統(tǒng)NLP
在不久的將來,基于Textless NLP技術(shù)構(gòu)建的下游應(yīng)用將會(huì)呈井噴之勢(shì),由于模型訓(xùn)練既不需要資源密集型的文本標(biāo)簽,也不需要自動(dòng)語音識(shí)別系統(tǒng)(ASR),模型可以直接通過音頻信號(hào)進(jìn)行問答。Meta AI的研究人員認(rèn)為語音中的親和力可以幫助更好地解析一個(gè)句子,這反過來又促進(jìn)了對(duì)意圖的理解,能夠提高問題回答的性能。
其中一個(gè)應(yīng)用場(chǎng)景是語音到語音的翻譯,也可以叫做AI翻譯配音(dubbing)。傳統(tǒng)的流暢通常是基于文本來完成的,需要先將音頻轉(zhuǎn)換為文本,執(zhí)行翻譯,再將文本轉(zhuǎn)換為音頻信號(hào)。
比如大火的「魷魚游戲」多語言版本就用到了這一技術(shù)。
但流程太復(fù)雜會(huì)使得整個(gè)系統(tǒng)變得難以訓(xùn)練,也會(huì)丟掉一些口頭語言的表現(xiàn)力,不僅是因?yàn)檎Z調(diào)和非語言表達(dá)在文本中丟失,還因?yàn)檎Z言模型在文本中的訓(xùn)練缺少了這些信號(hào)處理模塊。
而自監(jiān)督的語音表示方法能夠從原始音頻中學(xué)習(xí)離散的單元,可以消除對(duì)文本的依賴,研究人員認(rèn)為Textless NLP可以勝過傳統(tǒng)的復(fù)合系統(tǒng)(ASR+NLP),也有可能整合非語言發(fā)聲和聲調(diào)信息,在音素之上傳達(dá)豐富的語義和語用信息,而這些信息通常在文本中無法獲得。
隨著世界變得更加數(shù)字化,元宇宙中也包含越來越多由人工智能驅(qū)動(dòng)的應(yīng)用程序,這些NPC可以創(chuàng)造新的體驗(yàn)。而這種全新體驗(yàn)不止局限于文本的交流,未來將會(huì)走向更流暢的互動(dòng)方式,如語音和手勢(shì)等。
所有這些使用表征和自我監(jiān)督學(xué)習(xí)的進(jìn)步都有可能幫助研究人員擺脫傳統(tǒng)的基于文本的模型,建立更自然、更有吸引力的未來人工智能系統(tǒng)。
除了缺乏表現(xiàn)力之外,傳統(tǒng)的NLP應(yīng)用,依靠大量的文本資源,但在世界上只有少數(shù)幾種語言有如此大規(guī)模的標(biāo)注數(shù)據(jù)。
從長(zhǎng)遠(yuǎn)來看,相信Textless NLP系統(tǒng)的進(jìn)步也將有助于使人工智能對(duì)更多人具有包容性,特別是對(duì)于那些講沒有標(biāo)準(zhǔn)化書寫系統(tǒng)的語言和方言的人,如方言阿拉伯語或瑞士德語。
參考資料:
https://ai.facebook.com/blog/generating-chit-chat-including-laughs-yawns-ums-and-other-nonverbal-cues-from-raw-audio