8月25日,2022亞太內(nèi)容分發(fā)大會(huì)暨CDN峰會(huì)在北京隆重開幕。本次大會(huì)由亞太CDN產(chǎn)業(yè)聯(lián)盟、眾視Tech主辦,聲網(wǎng)、金山云、阿里云、騰訊云、網(wǎng)宿科技、火山引擎、天翼云等眾多云服務(wù)領(lǐng)域的頭部企業(yè)共同參與。聲網(wǎng)技術(shù)專家唐瀚也受邀參加視頻云技術(shù)論壇,帶來(lái)“聲網(wǎng)極速直播場(chǎng)景技術(shù)拆解”的主題演講。
極速直播填補(bǔ)低延時(shí)、強(qiáng)同步的輕互動(dòng)直播方案空白
唐瀚介紹了聲網(wǎng)的極速直播解決方案,他表示,“根據(jù)實(shí)時(shí)互動(dòng)的強(qiáng)弱程度以及對(duì)延時(shí)的不同要求,聲網(wǎng)將互動(dòng)體驗(yàn)分為四個(gè)級(jí)別:強(qiáng)互動(dòng)、中互動(dòng)、輕互動(dòng)、弱互動(dòng)。強(qiáng)互動(dòng)延時(shí)小于400ms,中互動(dòng)延時(shí)在400-800ms之間,輕互動(dòng)延時(shí)在800ms-3s之間,弱互動(dòng)延時(shí)在3s以上。直播市場(chǎng)主流的直播解決方案主要集中在以聲網(wǎng)互動(dòng)直播為代表的“中互動(dòng)”直播方案,以及傳統(tǒng)CDN直播的“弱互動(dòng)”直播方案。聲網(wǎng)的極速直播則填補(bǔ)了輕互動(dòng)的直播方案空白。”
聲網(wǎng)極速直播開創(chuàng)了低延時(shí)、強(qiáng)同步的"輕互動(dòng)"直播場(chǎng)景,并支持連麥。極速直播主要面向?qū)ξ淖帧装宓认⒒?dòng)的延時(shí)要求較高,或有低頻音視頻互動(dòng)需求的直播場(chǎng)景,主播與觀眾端延時(shí)在1.5s-2s之間,相比傳統(tǒng)CDN直播方案延時(shí)降低 80% 以上,同時(shí)直播間內(nèi)90%的觀眾與觀眾間延時(shí)差異小于500ms,可滿足電商直播、教育大班課、秀場(chǎng)直播、賽事直播、直播答題、一起看等觀眾需要強(qiáng)同步場(chǎng)景的需求。
隨后唐瀚還從觀眾端同步性、視頻分辨率提升、暗光增強(qiáng)、極速出圖、低卡頓率、弱網(wǎng)對(duì)抗能力、實(shí)時(shí)質(zhì)量監(jiān)控等多個(gè)角度介紹了聲網(wǎng)極速直播方案的技術(shù)優(yōu)勢(shì)。
引領(lǐng)技術(shù)創(chuàng)新 聲網(wǎng)榮獲“音視頻技術(shù)領(lǐng)航獎(jiǎng)”
本次大會(huì),聲網(wǎng)憑借在實(shí)時(shí)音視頻行業(yè)的技術(shù)領(lǐng)導(dǎo)力與創(chuàng)新力還榮獲了大會(huì)頒發(fā)的“音視頻技術(shù)領(lǐng)航獎(jiǎng)”,作為全球?qū)崟r(shí)云行業(yè)的開創(chuàng)者與引領(lǐng)者,聲網(wǎng)持續(xù)專注于打磨新的產(chǎn)品與技術(shù),保持研發(fā)投入,不斷精進(jìn)自身的專業(yè),以提升實(shí)時(shí)音視頻的技術(shù)硬實(shí)力,同時(shí)也可以滿足不同企業(yè)的場(chǎng)景創(chuàng)新需求。
1、技術(shù)創(chuàng)新賦能豐富場(chǎng)景玩法與體驗(yàn):聲網(wǎng)今年推出“3D空間音頻”和“Lipsync(唇音同步)”兩項(xiàng)分別應(yīng)用于元宇宙等虛擬場(chǎng)景和語(yǔ)音社交場(chǎng)景中的前沿技術(shù)。3D空間音頻通過(guò)純軟件算法方案,模擬頭部球面區(qū)域立體聲場(chǎng),使用戶在音頻聽感上具有空間感。當(dāng)用戶操作虛擬人物在虛擬場(chǎng)景里移動(dòng),可實(shí)現(xiàn)根據(jù)虛擬人物的面部朝向、音源朝向、遠(yuǎn)近距離與上下高度,呈現(xiàn)不同聲音效果,完美模擬現(xiàn)實(shí)聽覺感受。
聲網(wǎng) Lipsync 無(wú)需攝像頭、無(wú)需面部表情捕捉技術(shù),通過(guò)深度學(xué)習(xí)算法中的生成對(duì)抗網(wǎng)絡(luò),將中英文(或其他語(yǔ)種)發(fā)音的嘴型、面部表情智能關(guān)聯(lián)起來(lái),驅(qū)動(dòng)人像模擬真人說(shuō)話嘴型,支持2D人像圖片和3D人像模型,在語(yǔ)聊房、互動(dòng)播客、視頻會(huì)議等場(chǎng)景中具有巨大的應(yīng)用潛力。
此外,在今年火熱的虛擬活動(dòng)上,聲網(wǎng)也實(shí)現(xiàn)了單頻道高并發(fā)人數(shù)的技術(shù)突破。針對(duì)虛擬活動(dòng)諸如大型會(huì)議、會(huì)展、演唱會(huì)等場(chǎng)景,聲網(wǎng)推出 128 人超級(jí)互動(dòng)頻道,單個(gè)頻道可支持多達(dá) 128 位用戶同時(shí)發(fā)送音視頻流,觀眾人數(shù)無(wú)限制,讓房間內(nèi)任何用戶都可以隨時(shí)開麥進(jìn)行發(fā)言交流。
2、加大研發(fā)投入,持續(xù)提升音視頻體驗(yàn)質(zhì)量:今年聲網(wǎng)持續(xù)加大研發(fā)投入,推出了 AI降噪、VQA、多倍實(shí)時(shí)超分等技術(shù),進(jìn)一步提升了實(shí)時(shí)音視頻的體驗(yàn)質(zhì)量。例如 AI降噪技術(shù),兼顧了強(qiáng)降噪與高保真,可以在保證人聲無(wú)損傷的前提下,更好地抑制噪聲和混響,同時(shí)避免了丟字及多人講話時(shí)語(yǔ)音被抑制的情況。在視頻會(huì)議、語(yǔ)聊房、遠(yuǎn)程問(wèn)診、游戲語(yǔ)音等伴有復(fù)雜噪聲的實(shí)時(shí)音視頻互動(dòng)場(chǎng)景中,AI降噪可以消除上百種突發(fā)性的背景噪聲,帶來(lái)更純凈的通話體驗(yàn)。
在實(shí)時(shí)互動(dòng)場(chǎng)景中,視頻畫質(zhì)是影響觀眾體驗(yàn)的關(guān)鍵指標(biāo),如何實(shí)時(shí)評(píng)價(jià)視頻的畫質(zhì)一直是個(gè)行業(yè)難題。經(jīng)過(guò)聲網(wǎng)視頻算法專家的持續(xù)鉆研,今年正式推出了業(yè)內(nèi)首個(gè)可運(yùn)行于移動(dòng)設(shè)備端的視頻畫質(zhì)主觀體驗(yàn) MOS 分評(píng)估模型—聲網(wǎng) VQA (Video Quality Assessment)。VQA 是一套“評(píng)價(jià)主觀視頻質(zhì)量體驗(yàn)”的客觀指標(biāo),聲網(wǎng)構(gòu)建了大規(guī)模的視頻畫質(zhì)主觀評(píng)估數(shù)據(jù)庫(kù),并在此基礎(chǔ)上訓(xùn)練了業(yè)內(nèi)首個(gè)可直接在移動(dòng)端運(yùn)行的 VQA 模型,它利用深度學(xué)習(xí)算法實(shí)現(xiàn)對(duì)實(shí)時(shí)互動(dòng)場(chǎng)景接收端視頻畫質(zhì)主觀體驗(yàn) MOS 分的評(píng)估,解除了傳統(tǒng)主觀畫質(zhì)評(píng)估對(duì)人力評(píng)分的高度依賴,極大提高視頻畫質(zhì)評(píng)估效率,使實(shí)時(shí)的視頻質(zhì)量評(píng)估成為可能。
另外,在視頻畫面質(zhì)量的提升上,聲網(wǎng)也推出了業(yè)內(nèi)首個(gè)運(yùn)行于移動(dòng)端的多倍實(shí)時(shí)超分算法,以較小的算法計(jì)算量實(shí)現(xiàn)視頻分辨率的三倍超分,有效增強(qiáng)視頻畫質(zhì),降低視頻傳輸成本。多倍實(shí)時(shí)超分覆蓋機(jī)型廣,中低端機(jī)型也能實(shí)時(shí)處理,對(duì)CPU 以及 SDK 內(nèi)存的消耗也很低,可以很好的運(yùn)用在IoT平臺(tái)的實(shí)時(shí)互動(dòng)場(chǎng)景、帶寬受限以及視頻首幀需要快速清晰出圖的實(shí)時(shí)互動(dòng)場(chǎng)景。
目前聲網(wǎng)已服務(wù)泛娛樂(lè)、IoT、教育、金融、醫(yī)療、企業(yè)協(xié)作等20+行業(yè)賽道,200+場(chǎng)景,而在全球RTE領(lǐng)域仍然在不斷誕生更多的實(shí)時(shí)互動(dòng)創(chuàng)新場(chǎng)景,作為全球領(lǐng)先的實(shí)時(shí)互動(dòng)技術(shù)服務(wù)商,也需要保持對(duì)創(chuàng)新場(chǎng)景的洞察力,并不斷精進(jìn)自身的技術(shù),在提升技術(shù)質(zhì)量的同時(shí)也為開發(fā)者與客戶提供更契合市場(chǎng)發(fā)展,更穩(wěn)定、更高質(zhì)的實(shí)時(shí)互動(dòng)解決方案。