劃重點:
?? 谷歌推出多模態視頻模型 VLOGGER,能夠自動生成帶語音、豐富動作的人物視頻。
?? VLOGGER 采用全新多階段擴散模型架構,結合文本生成圖像模型和時空控制,提升視頻生成逼真效果。
?? VLOGGER 在多個數據集上進行綜合測試,表現出色,并不需要重新訓練模型即可生成完整目標圖像。
(ChinaZ.com) 4月2日 消息:谷歌的研究人員最近推出了一款名為 VLOGGER 的多模態擴散模型,能夠自動生成帶語音、豐富動作的人物視頻。用戶只需向 VLOGGER 輸入圖像和語音,就可以獲得逼真的視頻效果。
VLOGGER 的創新之處在于采用了全新的多階段擴散模型架構,結合了文本生成圖像模型和時空控制,從而提升了視頻生成的逼真效果和豐富動作。研究人員在多個數據集上對 VLOGGER 進行了綜合測試,結果顯示 VLOGGER 在視頻質量、物體還原性和時序一致性等方面表現出色,同時還能生成豐富的上半身和手勢動作。
要制作逼真的人物動畫視頻通常需要大量的人工調整和修補,以確保動作流暢自然。而 VLOGGER 的創新之處在于,其無需針對每個新人物重新訓練模型,也不依賴于人臉檢測框選區域,直接生成完整目標圖像。此外,VLOGGER 還考慮到了現實中復雜的交流場景,如可見軀干、不同身份等因素,這對正確合成有效交流的人物動作至關重要。
在技術實現方面,VLOGGER 首先通過 Transformer 神經網絡處理音頻波形輸入,生成一系列3D 面部表情和身體姿勢參數,用于控制虛擬人物在視頻中的動作。其次,在空間和時間上進行條件控制,生成高質量、任意長度的視頻。VLOGGER 還引入了一種 "時序外推" 的技術,允許模型迭代生成任意長度的視頻片段,同時保持時序一致性。為了提高生成效果,VLOGGER 還采用了級聯擴散方法,對基礎分辨率的視頻進行超分辨重建,生成高質量的影像。
VLOGGER 的推出為虛擬數字人的制作提供了更便捷、高效的解決方案,同時也在多模態視頻生成領域取得了重要的技術突破。
產品入口:https://top.aibase.com/tool/vlogger
技術報告:https://enriccorona.github.io/vlogger/paper.pdf