NVIDIA Maxine是一款云AI視頻流平臺(tái),將使用GAN來(lái)提高帶寬性能
Ming-Yu Liu 和Arun Mallya 正在進(jìn)行視頻通話,其中一個(gè)人的畫(huà)面開(kāi)始出現(xiàn)卡頓,直至畫(huà)面定格。
這是一種常見(jiàn)且令人反感的情況。但與大多數(shù)人不同的是,Liu和Mallya可以做出一些改變。
他們是NVIDIA的AI研究人員,專攻計(jì)算機(jī)視覺(jué)。在與Ting-Chun Wang共事中,他們意識(shí)到可以使用神經(jīng)網(wǎng)絡(luò)來(lái)替代被稱為視頻編解碼器的軟件,這種軟件通常用于視頻在網(wǎng)絡(luò)傳輸過(guò)程中的壓縮和解壓縮。
迄今為止,他們的工作成果將用戶在視頻通話時(shí)所需的網(wǎng)絡(luò)帶寬壓縮至原來(lái)的十分之一,還有望將帶寬消耗降低數(shù)個(gè)數(shù)量級(jí)。
Mallya表示:“我們希望通過(guò)AI提供更好的視頻溝通體驗(yàn),即使在帶寬極低的情況下,也可以從語(yǔ)音升級(jí)到視頻通話。”
GAN讓連接質(zhì)量更佳
即使用戶的面部有遮擋(比如戴著帽子、眼鏡、耳機(jī)或口罩),這項(xiàng)技術(shù)同樣適用。為了增加趣味性,他們?cè)谘菔局惺褂昧艘恍┭b飾物,這樣用戶可以在線上更改其發(fā)型或衣服或者創(chuàng)建頭像。
更重要的是,如上圖所示,借助神經(jīng)網(wǎng)絡(luò)定位,無(wú)需再盯著顯示器上方攝像頭才能與對(duì)方對(duì)視,這增強(qiáng)了面對(duì)面對(duì)話的感覺(jué)。
Wang表示:“借助計(jì)算機(jī)視覺(jué)技術(shù),我們可以從多個(gè)角度來(lái)定位頭部。我們認(rèn)為這將幫助人們更自然地進(jìn)行對(duì)話。”
迎接最前沿的AI技術(shù),讓虛擬生活更真實(shí)。
AI賦能視頻通話的原理
AI輔助視頻通話的工作機(jī)制十分簡(jiǎn)單。
與目前使用壓縮的視頻流的系統(tǒng)類似,參考圖像發(fā)送后,僅用戶眼睛、鼻子和嘴巴周圍幾個(gè)關(guān)鍵點(diǎn)的位置數(shù)據(jù)被發(fā)送,而非發(fā)送大量壓縮過(guò)像素的圖像。
接收端的生成式對(duì)抗網(wǎng)絡(luò)通過(guò)初始圖像和面部關(guān)鍵點(diǎn),在本地GPU上重構(gòu)后續(xù)圖像。因此,通過(guò)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)要比之前少得多。
Liu在GAN領(lǐng)域的工作成果GauGAN曾引發(fā)關(guān)注。GauGAN是一種可以將涂鴉轉(zhuǎn)化為寫(xiě)實(shí)藝術(shù)作品的AI工具,目前已經(jīng)創(chuàng)建了超過(guò)一百萬(wàn)張圖像。該工具可在AI Playground中獲取。
Liu表示:“疫情期間頻繁的視頻會(huì)議啟發(fā)了我們,因此我們開(kāi)始探索突破帶寬瓶頸的方式,讓供應(yīng)商可以同時(shí)為更多人提供服務(wù)。”
GPU突破帶寬瓶頸
這一方法順應(yīng)當(dāng)前行業(yè)趨勢(shì),將網(wǎng)絡(luò)瓶頸轉(zhuǎn)化為計(jì)算任務(wù),從而借助本地或云端資源更輕松地解決此類問(wèn)題。
NVIDIA媒體集團(tuán)高級(jí)產(chǎn)品總監(jiān)Andrew Page表示:“如今,許多公司希望將帶寬問(wèn)題轉(zhuǎn)化為計(jì)算問(wèn)題,這是因?yàn)閹捯话愫茈y增加,而增強(qiáng)算力則相對(duì)容易。”
NVIDIA Maxine搭配了一套視頻會(huì)議和流媒體服務(wù)工具
AI 工具優(yōu)化視頻服務(wù)
GAN視頻壓縮是NVIDIA Maxine即將推出的幾個(gè)功能之一,這是一個(gè)云AI視頻流平臺(tái),用于增強(qiáng)視頻會(huì)議和電話質(zhì)量。它將音頻、視頻和對(duì)話式AI功能整合在一個(gè)工具包中,并支持多種設(shè)備。
在上周的GTC大會(huì)上,NVIDIA宣布推出了Maxine平臺(tái)。基于該平臺(tái),服務(wù)提供商能夠在提供超高分辨率的視頻的同時(shí),實(shí)現(xiàn)實(shí)時(shí)翻譯、噪聲消除和情景感知的閉路字幕。用戶可以享受到人臉校正、虛擬助手和化身逼真的動(dòng)畫(huà)角色等功能。
Page表示:“視頻會(huì)議正在經(jīng)歷一場(chǎng)復(fù)興。疫情期間,它的缺點(diǎn)給所有人帶來(lái)了不愉快的使用體驗(yàn),但回歸視覺(jué)動(dòng)物的屬性,視頻終將成為人們今后生活中的一部分。”
通過(guò)利用基于Tensor Core核心的NVIDIA GPU,Maxine可運(yùn)行如NVIDIA Jarvis的軟件。NVIDIA Jarvis是用于對(duì)話式AI的SDK,提供了一套語(yǔ)音和文本功能。 它們共同提供了當(dāng)今有用的AI功能,并成為未來(lái)視頻產(chǎn)品和服務(wù)的基石。