GPU加速的AI平臺(tái)NVIDIA Maxine,具備超分辨率、凝視校正、實(shí)時(shí)字幕等AI功能,可為視頻會(huì)議提供商大幅改善流媒體質(zhì)量。
加利福尼亞州圣克拉拉市 – GTC 2020 秋季站 - 2020年10月5日 – NVIDIA今天宣布推出了NVIDIA Maxine平臺(tái),該平臺(tái)為開發(fā)者提供了一套基于云的、GPU加速AI視頻會(huì)議軟件,以提升流視頻質(zhì)量。當(dāng)前,流視頻是互聯(lián)網(wǎng)上首屈一指的流量來源。
NVIDIA Maxine是云原生的流視頻AI平臺(tái),能讓服務(wù)提供商每天對(duì)大約3000多萬次的網(wǎng)絡(luò)會(huì)議提供全新AI功能。視頻會(huì)議服務(wù)提供商在云端運(yùn)行基于NVIDIA GPU的平臺(tái),可以為用戶提供包括凝視校正、超分辨率、噪聲消除、人臉補(bǔ)光等全新AI效果。
由于數(shù)據(jù)處理過程發(fā)生在在云端,而非本地設(shè)備,因此,終端用戶無需任何專用硬件就可以盡享這些新功能。
NVIDIA副總裁兼加速計(jì)算業(yè)務(wù)總經(jīng)理Ian Buck表示:“視頻會(huì)議現(xiàn)已經(jīng)成為人們?nèi)粘I畹囊徊糠?能夠幫助數(shù)百萬人工作、學(xué)習(xí)、娛樂,甚至就醫(yī)。NVIDIA Maxine集成了我們最先進(jìn)的視頻、音頻和對(duì)話式AI功能,給那些幫助我們保持聯(lián)絡(luò)的視頻會(huì)議平臺(tái)帶來效率突破。”
AI效率突破,降低帶寬需求,改進(jìn)通話質(zhì)量
Maxine平臺(tái)大幅降低了視頻通話所需帶寬。該AI軟件無需流處理全部屏幕像素,而是分析通話中每個(gè)人的關(guān)鍵面部特征,然后在通話另一邊的視頻中智能地重新激活人臉。這使得流視頻可通過更少的數(shù)據(jù)在互聯(lián)網(wǎng)上進(jìn)行傳輸。
使用這種在NVIDIA GPU上運(yùn)行的基于AI的新視頻壓縮技術(shù),開發(fā)者可將視頻帶寬消耗減少到H.264流視頻壓縮標(biāo)準(zhǔn)要求的十分之一。在降低供應(yīng)商成本的同時(shí),為終端用戶提供了更流暢的視頻會(huì)議體驗(yàn),使用戶能夠享受更多AI服務(wù),并減少電腦、平板和手機(jī)上的數(shù)據(jù)流。
AI功能提升了視頻會(huì)議體驗(yàn)
NVIDIA研究人員在Maxine中實(shí)現(xiàn)新的突破,包括了讓視頻會(huì)議的感覺更像面對(duì)面的交談。視頻會(huì)議服務(wù)提供商將能夠利用NVIDIA在GAN(對(duì)抗式生成網(wǎng)絡(luò))上的研究成果,提供各種各樣的新功能。
例如,人臉校正功能可以自動(dòng)調(diào)整人臉,使人們?cè)谕ㄔ捴锌雌饋硎敲鎸?duì)面的。而凝視校正功能可模擬屏幕上的眼神交流,即使攝像頭未與用戶的屏幕對(duì)齊也能輕松實(shí)現(xiàn)。自今年年初以來,視頻會(huì)議的數(shù)量增長了十倍,這些功能可以幫助人們將視線落在屏幕中的視頻上,而不必盯著攝像頭。
開發(fā)者還可以添加一些功能,讓通話參與者選擇自己的動(dòng)畫角色,通過聲音和情緒實(shí)時(shí)地自動(dòng)控制動(dòng)畫樣式。自動(dòng)幀選項(xiàng)可以讓參與者在即使離開屏幕時(shí),依舊保持視頻流緊隨揚(yáng)聲器。
通過使用由NVIDIA Jarvis SDK支持的對(duì)話式AI功能,開發(fā)者可集成虛擬助手,這些虛擬助手采用最先進(jìn)的AI語言模型進(jìn)行語音識(shí)別、語言理解和語音生成。虛擬助手還可以做筆記、設(shè)置動(dòng)作項(xiàng)目并通過類似人類的聲音回答問題。其他的對(duì)話式AI服務(wù),如翻譯、隱藏字幕和轉(zhuǎn)錄,能幫助確保參與者理解電話中討論的內(nèi)容。
云原生架構(gòu)可節(jié)約成本并實(shí)現(xiàn)大規(guī)模AI應(yīng)用
視頻會(huì)議的需求很難預(yù)測(cè),數(shù)以百計(jì)甚至千計(jì)的用戶有可能會(huì)試圖撥入同一場(chǎng)會(huì)議。NVIDIA DeepStream可在云端的NVIDIA GPU上利用Kubernetes容器集群中運(yùn)行的AI微服務(wù),幫助開發(fā)者根據(jù)實(shí)時(shí)需求擴(kuò)展他們的服務(wù)。AI推理能力讓用戶可同時(shí)運(yùn)行多種AI功能,且同時(shí)滿足應(yīng)用程序的時(shí)延要求。
視頻會(huì)議服務(wù)提供商通過NVIDIA GPU在云端進(jìn)行AI推理應(yīng)用,可利用Maxine為數(shù)十萬用戶提供領(lǐng)先的AI能力。Maxine平臺(tái)采用模塊化設(shè)計(jì),開發(fā)人員可以輕松選擇所需AI功能,并將其集成到視頻會(huì)議解決方案中。
全明星NVIDIA AI開發(fā)者工具套件
Maxine平臺(tái)集成了多種NVIDIA AI SDK和API。除NVIDIA Jarvis外, Maxine平臺(tái)還采用NVIDIA DeepStream高通量音頻和視頻流SDK和NVIDIA TensorRTTM SDK,用于高性能深度學(xué)習(xí)推理。
在Maxine平臺(tái)上使用的NVIDIA SDK,提供AI音頻、視頻和自然語言功能。這些功能是通過在全球領(lǐng)先的訓(xùn)練、推理和數(shù)據(jù)科學(xué)工作負(fù)載平臺(tái)NVIDIA DGXTM系統(tǒng)上進(jìn)行了數(shù)十萬小時(shí)的演練后才開發(fā)出來的。
供貨
開發(fā)音頻和視頻應(yīng)用程序和服務(wù)的計(jì)算機(jī)視覺AI開發(fā)人員、軟件合伙人、初創(chuàng)企業(yè)和計(jì)算機(jī)制造商,可申請(qǐng)NVIDIA Maxine平臺(tái)的早期試用。