說到聲音變聲,很多人最早的記憶是《名偵探柯南》中柯南的領結變聲器,小時候還曾幻想擁有這樣一款神器,那一定很酷。而在互聯網時代,這種幻想已經成真,隨著很多變聲軟件的應用,我們經常可以在社交、游戲場景中聽到玩家通過變聲軟件發出與性別、年齡相反的聲音。不過,這種變聲器往往是將一個人的聲音變換成某一種類型的聲音,例如男聲變成萌妹子的聲音,無法像柯南那樣將自己的聲音變成特定某個人的聲音,并不是真正意義上的聲紋變聲。
由聲網音頻技術團隊研發的「實時聲紋變聲」將顛覆傳統的變聲音效軟件與AI實時變聲體驗,通過提取語音的音素特征與聲紋特征等一系列技術手段,在實時音視頻互動中可以將任意用戶的語音實時變換成指定或任意一個他人的語音,實現像柯南變聲器那樣對聲音的真正“克隆”,接下來我們將分別介紹傳統主流變聲方法與實時聲紋變聲背后的技術原理。
什么是聲紋變聲?
在介紹變聲之前,我們先回顧一下語音的產生與感知過程。在說話時,我們將自己思想對應的文字,通過發音器官(如肺、喉嚨和聲道)一起協作,產生含有特定語義的聲波信號。由于每個人的發聲器官、語言習慣、發音大小、基頻等差異,每個人的聲紋圖譜都是獨一無二的,就像指紋一樣,因此人們可以通過聽覺系統辨別一個人的身份信息。事實上,在感知層面,人們可以很輕松地分離出一段語音的語言學內容(文字)以及說話人的音色信息(聲紋)。
聲紋變聲是指對一段語音的音色做替換,讓它聽上去像是另一個人在講同樣的內容。聲紋變聲的處理過程包含語音的感知分離以及合成兩個步驟。首先,聲紋變聲系統中的語音識別模塊會將接受的語音中的語言學信息以及說話人音色信息分離。然后,語音合成模塊將目標說話人的聲紋與前面提取的語言學內容重新合成新的語音,從而實現音色的變換。
介紹完聲紋變聲的基本原理,我們再來看看傳統的變聲方法有哪幾種,它們又是基于怎樣的技術原理實現的?
1、傳統的音效效果器:早期的變聲一般采用多個音效效果器串聯的方式來從各個維度來修改人聲。常見的變聲效果器包括變調效果器、均衡器、混響效果器、共振峰濾波器等,變調效果器通過改變聲音的音調來實現變聲效果,比如把男聲變成女聲就需要把音調提高,電影《小黃人大眼萌》中“小黃人”的聲音就是通過變調算法把原本男聲的音調提高來實現的。均衡器和共振峰濾波器通過改變人聲每個頻段的能量分布來改變音色,較高的值可讓聲音聽起來更洪亮或清脆,較低的值可賦予深沉、渾厚的特性。混響效果器則是改變人聲所在空間的混響效果。
但這些效果器的方式通用性較差,每個人變成一個目標人的音色都需要重新調整參數,而且語言中每個音的發音變化趨勢也不盡相同,采用同一組參數調整的效果器可能只對某些發音是正確的,這就使得很多變聲效果十分不穩定。我們在文章開頭提到的在社交、直播場景中很多主播
使用的軟件變聲效果器或者娛樂聲卡上自帶的變聲效果大多是這類方式,這類方式雖然可以做到“實時”,但由于采用的是傳統的鏈路效果器,非聲紋變聲,不僅變聲效果不穩定,變聲的音效也非常局限,不能任意變換成某個指定人的聲音。
2、AI變聲算法:AI技術的發展為傳統變聲效果器需要對每個人、每個音進行單獨調整的繁瑣流程找到了破解方式。早期AI變聲算法主要是基于統計模型,其核心思想是尋找一種說話人語音到目標語音在頻譜上的映射關系,模型需要在平行語料上訓練。所謂平行語料,就是說話人說的每一句話,變聲目標人都要有一句同樣內容的語料。平行語料的訓練樣本由具有相同語言學內容的原始語音和目標語音組成。雖然基于這個框架的模型在變聲上取得了一定成功,但是這種配對的數據比較稀缺,而且很難有效拓展到多說話人變聲的場景。
而近幾年的主流的AI變聲算法通過非并行訓練框架有效地解決了這些問題,并且極大地豐富了變聲的應用場景,比如音色,情緒以及風格的遷移等等。非并行訓練方法的核心思想是將語音的語言學特征以及非語言學因子(例如音色、音調)解除耦合關系,然后再將這些因子重新組合生成新的語音。它不依賴于配對的語音語料,極大地降低了數據獲取成本。同時,這個框架也十分有利于知識遷移,可以利用一些在海量數據上預訓練好的語音識別以及聲紋識別模型用于語言學內容與聲紋特征的提取。
隨著深度學習的發展,當前基于 AI 的變聲算法種類越來越多,它們相較于傳統的變聲方法在目標音色相似度以及自然度上都具有顯著的優勢。按照單個聲紋變聲模型支持的原說話人和目標說話人的數目,可以分為 one-to-one, many-to-many, any-to-many, any-to-any,其中,one 代表單一的音色,many 代表一個有限的集合,只能變成少數幾種指定的音色。早期的學術研究主要是基于one-to-one 與 many-to-many架構,any-to-many 是當前很多 AI變聲軟件采用的模型,例如在某變聲軟件中,任意用戶可以從十幾個聲音音效中選擇某一個進行變聲。
而 any 是一個開放的集合, any-to-any 意味著可以將任意一個人的語音,變換成任意一個其他人的語音,這代表著聲紋變聲技術的終極目標,每個人都可以借助它變換成指定或任意一個人的聲音,實現對聲音的“克隆“,這也是「聲網實時聲紋變聲」想要實現的方向。
從 any-to-many 到 any-to-any,實時聲紋變聲需克服多重挑戰
當前,主流的聲紋變聲借助 AI變聲算法雖然可以實現 any-to-many 的變聲音效,但聲紋變聲的研究主要集中在離線或異步使用的場景,例如自己提前用變聲軟件錄一段聲音,生成某個指定目標的變聲語音后再發給對方。根據調查顯示,在社交、直播以及元宇宙等場景中,越來越多的玩家希望在進行音視頻互動時能實現實時變聲音效的功能,在聲網看來,在實時互動的過程中,聲紋變聲想要做到實時會面臨多重挑戰:
1、語言學內容完整性:在實時互動過程中,說話人部分詞語的丟失或者發音錯誤,不僅會讓聽者理解起來十分吃力,而且一些關鍵詞(比如"不")的丟失,還會引起全局語義改變,給互動帶來致命的影響。
2、實時率:實時率指的是模型對一段音頻的處理時間和音頻時長的比值,越低越好。例如處理一段時長為2分鐘的語音花了1分鐘,那么實時率就為(1/2=0.5),理論上,變聲引擎端到端的實時率只需要小于1即可支撐實時變聲處理。考慮到計算的抖動,需要有更低的實時率才能保障穩定的服務,這對于模型的大小以及算力有很大的限制。
3、算法延遲:當前大部分變聲算法在處理當前幀數據時,依賴于未來語音幀的數據輸入,這部分語音的時長即算法延遲。在實時交互場景,人們可以感知到的延遲大約在200ms,過高的延遲會極大程度降低用戶參與的積極性。例如用戶說完一句話,對方如果需要等待1秒以上才能聽到變聲后的語音,很多人可能就不會在聊天場景中使用這個功能了。
對此,聲網音頻技術團隊是如何解決算法的延遲與音頻處理的實時率,并實現 any-to-any 變聲音效的突破?
首先,「聲網實時聲紋變聲」先通過語音識別模型提取語音中幀級別的音素特征,聲紋識別模型提取聲紋特征,然后將兩者一起傳遞給語音合成模塊,合成變聲后的頻譜特征,最后利用 AI聲碼器合成時域波形信號,這三個模塊均支持流式的數據處理。流式處理主要是針對數據的新鮮度價值很高,需要提供更快的有價值信息,通常在觸發器開始后的幾百甚至幾十毫秒內需要得到處理結果,在實時聲紋變聲中,流式處理表現為音素、聲紋數據的實時處理、低延遲,人們在使用變聲效果對話時還需要保證溝通的流暢性,不能一方說了一句話另一方過了好幾秒才聽到變聲。
在神經網絡設計層面,聲網主要采用 CNN (卷積神經網絡)和 RNN (遞歸神經網絡) 的網絡結構分別提取語音信號中的局部以及長程時序特征。語言信號具有短時平穩的特性,用CNN 可以很有效的提取幀級別的音素特征。RNN 對語音中隨時間變化更為緩慢的特征(字詞)建模,一般一個字的發音會持續幾百毫秒,所以聲網利用基于 RNN 這種具有時序記憶能力的網絡來構建頻譜轉換模塊對語音的時序性特點進行建模。
RNN 處理的數據是 “序列化” 數據,訓練的樣本前后是有關聯的,即一個序列的當前的輸出與前面的輸出也有關,比如一段語音是有時間序列的,說的話前后是有關系的。通過這種設計,不僅有效地節省了算力,而且也顯著減少了算法的延遲,目前「聲網實時聲紋變聲」的算法延遲最低可以做到 220ms,處于業內領先的水平。
此外,聲網基于海量數據單獨訓練了語音識別模塊,可以準確地提取幀級別的音素特征,極大程度地減少了變聲后出現錯字或者漏字的情況,保障了語言學內容的完整性。類似地,聲網也基于海量數據訓練了聲紋識別模型,用于提取目標說話人的音色特征,顯著地提升了變聲后語音和目標說話人的音色相似度,最終實現了any-to-any的變聲能力。
(我們可以通過聲網微信公眾號找到這篇文章,文章中的視頻Demo可以更直觀的體驗實時聲紋變聲帶來的變聲效果,Demo是由音頻技術團隊在實時的過程中錄制。)
相比于傳統的變聲軟件,實時聲紋變聲憑借實時性以及 any-to-any 的變聲能力,將在語聊房、直播、游戲、元宇宙等場景中發揮更大的應用價值,不僅可以增強應用場景中用戶的沉浸感與娛樂性體驗,對應用的用戶活躍度、使用時長、營收等也有望帶來進一步的提升。
例如在傳統語聊房場景中,變聲軟件只能變成萌妹子或大叔的聲音,實時聲紋變聲可以將用戶的聲音改變成與某些明星類似的聲音,將原本枯燥的語聊房變成明星聊天室。而在Meta Chat等元宇宙場景中,實時聲紋變聲可以搭配3D空間音頻進一步增強用戶的沉浸感,例如某社交APP與《海綿寶寶》達成合作后獲得動漫中角色IP的形象與聲音授權,用戶在操控著專屬的動漫角色聊天時,聲音可以變成對應的海綿寶寶、派大星、章魚博士等角色的聲音,感知層面仿佛進入了真實的動漫世界,用戶的沉浸感得到有效提升。
基于此,實時聲紋變聲也可以進一步擴展影視、動漫IP的聲音價值,知名影視、動漫角色的配音都可以運用在語聊房、直播間、游戲語音等場景的實時音視頻互動中,對于應用本身而言,更豐富的娛樂性體驗可以提升用戶在應用內的使用時長、付費率等。
目前「聲網實時聲紋變聲」現已開啟開放測試,如您想進一步咨詢或接入實時聲紋變聲,可通過聲網微信公眾號找到這篇文章,并通過文章底部的「閱讀原文」留下您的信息,我們將與您及時聯系,做進一步的溝通。