聲網(wǎng)近期發(fā)布了“Metachat 元語聊”、“MetaKTV”解決方案,致力于提供一種全新的元宇宙互動社交、K 歌方式,其中都提到了“3D 空間音頻”這項核心技術(shù),對提升玩家沉浸感與聽覺體驗發(fā)揮了關(guān)鍵作用。我們也收到了很多開發(fā)者的咨詢,今天將為大家?guī)砺暰W(wǎng) 3D 空間音頻的技術(shù)揭秘,揭曉這項技術(shù)的核心功能點以及背后的技術(shù)原理。
在現(xiàn)實生活中,由于雙耳效應(yīng)的原理,我們聽到來自上下、左右等不同方位聲音的感覺是不同的,并且可以快速辨別對方的位置。而在元宇宙虛擬空間中,如何通過聽覺增加沉浸感是很多廠商迫切解決的關(guān)鍵要素,想象一下,在 3D 的虛擬聊天室中,你操控著虛擬形象與網(wǎng)友們聊天,耳朵里還傳來正前方主持人的聲音以及房間各個角落的聊天聲,優(yōu)雅的 BGM 在你的上方環(huán)繞,仿佛置身在線下真實的 Party 中。這其中一些關(guān)鍵細節(jié)的擬真度是構(gòu)建臨場感、沉浸感的關(guān)鍵要素,關(guān)鍵細節(jié)的缺乏會造成用戶的感知度很低,而聲網(wǎng)的音頻技術(shù)團隊通過對技術(shù)的持續(xù)鉆研,力求對每一個細節(jié)完美處理,最大程度為用戶帶來更逼真的聽覺體驗。
3D 空間音效、空氣衰減模擬、人聲模糊 三大黑科技完美模擬現(xiàn)實聽覺
聲網(wǎng) 3D 空間音頻通過純軟件算法方案,模擬頭部球面區(qū)域立體聲場,使用戶在音頻聽感上具有空間感。當用戶操作虛擬人物在虛擬場景里移動,可以實現(xiàn)根據(jù)虛擬人物的面部朝向、音源朝向、遠近距離與上下高度,呈現(xiàn)不同聲音效果,完美模擬現(xiàn)實聽覺感受,這其中“3D 空間音效”、空氣衰減模擬、人聲模糊三大黑科技發(fā)揮了關(guān)鍵作用。
1、3D 空間音效:模擬音源的位置與朝向 實現(xiàn)音色差異
文章開頭有說過,我們在現(xiàn)實生活可以感知到聲音是從不同的方向傳來的。我們先來大致介紹下這里的“方向感”是怎么產(chǎn)生的。
圖1:耳廓收音示意圖
我們可以通過圖1 看到人耳的耳廓在接收不同方向的音源時,會讓聲波以不同的路徑傳導(dǎo)至內(nèi)耳。這樣,不同方向的聲波傳輸?shù)絻?nèi)耳的時候,音色就會由于耳廓的形狀而產(chǎn)生各向異性。除此之外,由于我們有兩個耳朵,所以音源在不同方向時聲波到達耳朵的時間也會不同,這一點我們可以結(jié)合圖2 來理解一下。
圖2:雙耳效應(yīng)示意圖
結(jié)合圖2 我們可以發(fā)現(xiàn),如果音源在你的右側(cè),右耳會先接收到聲波,相反如果音源在左側(cè),左耳會先收到聲音,同時由于人的頭部也會對聲音的傳播產(chǎn)生影響,如果音源在右側(cè),那么聲波需要越過頭部這個“障礙”才能傳遞到左耳,那么相對于右耳,左耳聽到的音色和頻率會有所衰減。最終我們依靠雙耳間的音量差、時間差和音色差來判別聲音的方位。
介紹完雙耳效應(yīng)的原理,再來看聲網(wǎng)是如何在虛擬空間中模擬真實的“雙耳效應(yīng)”,在虛擬世界中,我們需要把音頻根據(jù)聲源+用戶的相對位置以及聲源+用戶的朝向來渲染一個雙聲道的音頻,這樣就可以帶上耳機來體驗不同空間位置的聲音實現(xiàn)“聽音辨位”,目前一些傳統(tǒng)的解決方案是通過調(diào)節(jié)左右耳音量的方法來實現(xiàn)左右方向的渲染,但這種方法只能渲染左右的方向。對更復(fù)雜的前后、上下這些方向的渲染還需要細致調(diào)節(jié)左右耳音色、延遲等細節(jié)差異才能準確模擬音源的位置。
在空間聽覺的研究和實現(xiàn)中,頭部相關(guān)聯(lián)的傳遞函數(shù)(HRTF)(Head Related Transfer Functions)與頭部相關(guān)聯(lián)的沖激響應(yīng)(HRIR)占有十分重要的地位。而聲網(wǎng)基于 HRTF 頭相關(guān)傳遞函數(shù)、心理感知聲學(xué)、聲源指向模擬等算法自研了一整套 3D 聲場渲染引擎。可以動態(tài)模擬空間中任意角度、朝向的聲音在傳遞到左右耳時聲音發(fā)生的變化從而實現(xiàn)了高精度的聲音方位渲染。并且為了追求極致的聽感與極致的可用性,渲染引擎以極小的算力要求,支持 48kHz全頻帶、多路音頻渲染,讓你在移動端不多費流量、不用擔心算力也能暢享多人高清音質(zhì)互動。
在 HRIR 的采集中,聲網(wǎng)通過在全消實驗室針對每個角度都有一對采集的 HRIR,最終形成了一個球形的數(shù)據(jù)集,以實現(xiàn)角度的精準模擬。下方圖3 就是一個球形 HRIR 的坐標示意圖。我們可以看到圖3 中央是人頭部所在的位置,周圍的紅點就是 HRIR 采集時音源的方位。
圖3:HRIR 采集點的空間分布
音源的朝向?qū)ξ覀兊穆犛X也會有直接的影響,例如一個人背對著你說話相比正對著你說話聲音會顯得比較“悶”,因為背對著你說話時聲音需要繞過身體這個障礙,不同頻率的聲波繞過障礙物時的能量衰減程度不同。聲網(wǎng) 3D 空間音效還提供音源朝向功能,通過聲學(xué)建模的方式可以模擬任意角度的音源方向帶來的音色差異,最終通過模擬不同音源的位置與朝向,實現(xiàn)音量、音色的差異,從而完美模擬現(xiàn)實聽覺的感受。
此外,人在真實環(huán)境中對上下、前后這兩個方向的感知是比較模糊。這是因為人的耳朵基本上是對稱的,相比水平方向,在垂直方向上左右耳聲音的音量、延遲基本相同就不足以用來區(qū)分方向了。所以在虛擬空間中,聲網(wǎng)還對這些方向的聽感區(qū)分做了增強,讓用戶在“虛擬空間”中可以擁有超越現(xiàn)實的聽音辨位能力。
2、空氣衰減模擬:模擬現(xiàn)實聲學(xué)現(xiàn)象 讓聲音更逼真
模擬不同音源位置與朝向進行“聽音辨位”只是聲網(wǎng) 3D 空間音頻模擬現(xiàn)實聽覺感受的第一步,我們還實現(xiàn)了對空氣衰減的模擬。在現(xiàn)實中由于空氣的存在,聲波在空氣傳播中會產(chǎn)生衰減,其中高頻的聲音衰減快,低頻的衰減慢,那么同一個音量的聲音,如果高頻多一些,我們就會覺得它離你更近。
由于聲波在空氣傳播中會產(chǎn)生衰減。而其中高頻的聲音衰減快,如蚊子的嗡嗡聲、鳥叫聲,低頻的衰減慢,如男生粗獷的聲音,風聲、水泵聲。那么同一個音量的聲音,如果高頻比較多,我們會覺得它離你更近一些。空氣衰減功能就是模擬這種現(xiàn)實環(huán)境中的聲學(xué)現(xiàn)象讓聲音聽起來更逼真。我們用2張圖來更直觀的展示,如下方圖4 頻譜圖所示,低頻的聲音可以傳播更遠,而 8Khz 以上的聲音如果超過1千米以上就很難聽到。
圖4:不同頻率的聲波空氣衰減曲線
圖5 的時頻圖所示,上方為空氣衰減的模擬,下方是只有音量的衰減,對比可以看出在空氣衰減的情況下,在距離逐漸增加后,8KHz 以上的音頻聲音衰減更為迅速。
圖5:空氣衰減效果頻譜對比
在生活中很多人對“空氣衰減”的存在感知并不明顯,但在虛擬空間中,通過 3D 空間音效與空氣衰減模擬的強強結(jié)合,可以進一步還原現(xiàn)實聽覺感受,在元宇宙中創(chuàng)造更逼真的“聲臨其境”感。
3、人聲模糊: 熱鬧的氛圍與“安靜”的聊天也可兼得
我們在嘈雜的酒吧、LiveHouse 中經(jīng)常會遇到這種情況,你只想聽到朋友的聲音,但其他人嘈雜的聲音不想完全消除,因為這樣就沒有了酒吧的氛圍。在線下,你可能沒法實現(xiàn),但在虛擬空間中完全可以做到。聲網(wǎng) 3D 空間音頻的人聲模糊功能就能將虛擬空間中你不想聽到的聲音進行模糊化處理,這樣你能聽到空間中周圍的人聲,但聽不清他們在說什么,從而既保持了環(huán)境氛圍,又不會干擾你與朋友的互動。
除了以上三個核心功能外,聲網(wǎng) 3D 空間音頻還支持本地音源文件播放,可以自定義場景中的背景音、伴奏、音效等。對于開發(fā)者而言,也支持靈活、多模式接入使用:
API 模式:直接集成Agora SDK,調(diào)用 API 即可自定義空間音頻 (客戶(需要center
server)根據(jù)自己虛擬世界的音源、聽音者位置,朝向信息等,輸入?yún)?shù),即可實現(xiàn))。
Server 模式:Agora Server 實現(xiàn)坐標同步與空間音頻所需的參數(shù)計算,并在客戶端進行音
頻渲染。
本地渲染模式:客戶端可以把上傳的音頻進行空間音頻的渲染,從而可以實現(xiàn)背景音樂、環(huán)境音效渲染等功能。
介紹完聲網(wǎng) 3D 空間音頻的核心功能點與技術(shù)原理,我們再來看看它的應(yīng)用場景,被視為下一個互聯(lián)網(wǎng)新形態(tài)的元宇宙已經(jīng)融入各個行業(yè)的多個場景,如游戲、語聊房、在線K歌、虛擬演唱會、VR、AR等,聲網(wǎng) 3D 空間音頻同樣適用于以上各類場景,但對于語聊房、在線會議、虛擬活動、在線教育等場景而言,3D 空間音頻可以有效的增強用戶在線上的互動、聽覺體驗。而對于 Metaverse、VR、AR、虛擬演唱會、在線游戲而言,3D 空間音頻則有望重構(gòu)用戶在虛擬世界的沉浸感與聽覺體驗。
圖6:3D 空間音頻部分應(yīng)用場景
我們將通過幾個應(yīng)用場景的案例來更直觀的展示 3D 空間音頻所帶來的效果。
1、語音聊天室:在語音聊天室中,通過 3D 空間音頻你可以聽到來自房間前后、左右各處的360° 音頻,當你感受到來自周圍的笑聲時,感覺就像在參加一場真實的線下聚會,對于聽眾與發(fā)言者來說都不會感到平淡。再結(jié)合人聲模糊功能,語音聊天室中還能激發(fā)“雞尾酒會效應(yīng)”,在多種聲音混雜的環(huán)境中,你注意傾聽某一種聲音,并仍然能夠聽清他在說什么,這就是“雞尾酒會效應(yīng)”,而用戶可以減少疲勞感,更加沉浸在聊天的環(huán)境中,并大幅提升聊天時長。
2、在線游戲:游戲語音是很多在線游戲的標配功能,通過在游戲內(nèi)加入實時的語音功能,可以方便玩家之間溝通、協(xié)作,更好的取得游戲勝利。但單純的游戲語音方案更多是構(gòu)建玩家之間溝通的橋梁,對于提升游戲體驗沒有實質(zhì)的作用,而通過將實時互動與 3D 空間音頻結(jié)合,將重構(gòu)游戲中玩家之間并肩作戰(zhàn)的全新體驗。例如在 FPS 游戲中,當隊友通過具備 3D 空間音頻的游戲語音與你實時溝通作戰(zhàn)情況時,你能感覺到他就站在你的右邊向你發(fā)出進攻指令,仿佛真的在線下一起參加真人 CS,這樣的游戲體驗幾乎顛覆了傳統(tǒng)的游戲語音溝通體驗,將原本單純的游戲語音互動功能變成了增強游戲沉浸感與協(xié)同感的核心功能。
3、虛擬演唱會:虛擬演唱會/音樂會是當下新興的一種線上演唱會形式,演唱者可通過動作捕捉技術(shù)化身虛擬的形象投影到虛擬舞臺中,用戶也會變身虛擬人在虛擬舞臺下喝彩,在加入 3D空間音頻后,有望顛覆虛擬演唱會的聽覺體驗。當觀眾化身虛擬人坐在舞臺下觀看演唱者表演,他能“聲臨其境”的聽到來自各個角落的聲音,從舞臺的左右兩側(cè)到中央的歌唱者再到周圍觀眾的各個位置,猶如置身在真實的演唱會環(huán)境中,對于演唱者而言同樣如此。
相比語音聊天室、在線會議,虛擬演唱會是否成功的關(guān)鍵在于演唱者的歌聲與聽眾聽到的歌聲是否好聽,3D 空間音頻則從本質(zhì)上改變了歌聲傳遞到聽眾耳朵中的聽覺體驗,并彌補了虛擬演唱會一直缺失的“現(xiàn)場氛圍感”,未來觀眾在虛擬演唱會的沉浸感與聽覺體驗有望不輸線下演唱會。
不論是當下的各類線上活動還是未來的元宇宙虛擬世界,玩家之間的交流、互動都離不開 RTE實時互動,因此 RTE 也被視為元宇宙底層基礎(chǔ)設(shè)施之一。而插入 3D 空間音頻,新的空間信息被引入到虛擬體驗中,使觀眾能夠完全獨立于他們的眼睛感知自己身后或虛擬環(huán)境中其他地方發(fā)生的事情,在建立用戶之間實時互動的同時,RTE 也將成為幫助元宇宙場景增加臨場感與沉浸感的基礎(chǔ)設(shè)施,構(gòu)建更逼真、更前沿的音頻元宇宙。