劃重點(diǎn):
?? 谷歌推出多模態(tài)視頻模型 VLOGGER,能夠自動(dòng)生成帶語(yǔ)音、豐富動(dòng)作的人物視頻。
?? VLOGGER 采用全新多階段擴(kuò)散模型架構(gòu),結(jié)合文本生成圖像模型和時(shí)空控制,提升視頻生成逼真效果。
?? VLOGGER 在多個(gè)數(shù)據(jù)集上進(jìn)行綜合測(cè)試,表現(xiàn)出色,并不需要重新訓(xùn)練模型即可生成完整目標(biāo)圖像。
(ChinaZ.com) 4月2日 消息:谷歌的研究人員最近推出了一款名為 VLOGGER 的多模態(tài)擴(kuò)散模型,能夠自動(dòng)生成帶語(yǔ)音、豐富動(dòng)作的人物視頻。用戶(hù)只需向 VLOGGER 輸入圖像和語(yǔ)音,就可以獲得逼真的視頻效果。
VLOGGER 的創(chuàng)新之處在于采用了全新的多階段擴(kuò)散模型架構(gòu),結(jié)合了文本生成圖像模型和時(shí)空控制,從而提升了視頻生成的逼真效果和豐富動(dòng)作。研究人員在多個(gè)數(shù)據(jù)集上對(duì) VLOGGER 進(jìn)行了綜合測(cè)試,結(jié)果顯示 VLOGGER 在視頻質(zhì)量、物體還原性和時(shí)序一致性等方面表現(xiàn)出色,同時(shí)還能生成豐富的上半身和手勢(shì)動(dòng)作。
要制作逼真的人物動(dòng)畫(huà)視頻通常需要大量的人工調(diào)整和修補(bǔ),以確保動(dòng)作流暢自然。而 VLOGGER 的創(chuàng)新之處在于,其無(wú)需針對(duì)每個(gè)新人物重新訓(xùn)練模型,也不依賴(lài)于人臉檢測(cè)框選區(qū)域,直接生成完整目標(biāo)圖像。此外,VLOGGER 還考慮到了現(xiàn)實(shí)中復(fù)雜的交流場(chǎng)景,如可見(jiàn)軀干、不同身份等因素,這對(duì)正確合成有效交流的人物動(dòng)作至關(guān)重要。
在技術(shù)實(shí)現(xiàn)方面,VLOGGER 首先通過(guò) Transformer 神經(jīng)網(wǎng)絡(luò)處理音頻波形輸入,生成一系列3D 面部表情和身體姿勢(shì)參數(shù),用于控制虛擬人物在視頻中的動(dòng)作。其次,在空間和時(shí)間上進(jìn)行條件控制,生成高質(zhì)量、任意長(zhǎng)度的視頻。VLOGGER 還引入了一種 "時(shí)序外推" 的技術(shù),允許模型迭代生成任意長(zhǎng)度的視頻片段,同時(shí)保持時(shí)序一致性。為了提高生成效果,VLOGGER 還采用了級(jí)聯(lián)擴(kuò)散方法,對(duì)基礎(chǔ)分辨率的視頻進(jìn)行超分辨重建,生成高質(zhì)量的影像。
VLOGGER 的推出為虛擬數(shù)字人的制作提供了更便捷、高效的解決方案,同時(shí)也在多模態(tài)視頻生成領(lǐng)域取得了重要的技術(shù)突破。
產(chǎn)品入口:https://top.aibase.com/tool/vlogger
技術(shù)報(bào)告:https://enriccorona.github.io/vlogger/paper.pdf