谷歌推多模態(tài)視頻模型VLOGGER，自動(dòng)生成豐富動(dòng)作視頻-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52000
待審：37
小程序：12
文章：1037587
會(huì)員：756

首頁(yè) > 新聞資訊 > 短視頻 >正文

谷歌推多模態(tài)視頻模型VLOGGER，自動(dòng)生成豐富動(dòng)作視頻

發(fā)布時(shí)間：2024-04-02 08:45:00 作者：網(wǎng)友整理

劃重點(diǎn):
?? 谷歌推出多模態(tài)視頻模型 VLOGGER，能夠自動(dòng)生成帶語(yǔ)音、豐富動(dòng)作的人物視頻。
?? VLOGGER 采用全新多階段擴(kuò)散模型架構(gòu)，結(jié)合文本生成圖像模型和時(shí)空控制，提升視頻生成逼真效果。
?? VLOGGER 在多個(gè)數(shù)據(jù)集上進(jìn)行綜合測(cè)試，表現(xiàn)出色，并不需要重新訓(xùn)練模型即可生成完整目標(biāo)圖像。

(ChinaZ.com) 4月2日消息:谷歌的研究人員最近推出了一款名為 VLOGGER 的多模態(tài)擴(kuò)散模型，能夠自動(dòng)生成帶語(yǔ)音、豐富動(dòng)作的人物視頻。用戶(hù)只需向 VLOGGER 輸入圖像和語(yǔ)音，就可以獲得逼真的視頻效果。

VLOGGER 的創(chuàng)新之處在于采用了全新的多階段擴(kuò)散模型架構(gòu)，結(jié)合了文本生成圖像模型和時(shí)空控制，從而提升了視頻生成的逼真效果和豐富動(dòng)作。研究人員在多個(gè)數(shù)據(jù)集上對(duì) VLOGGER 進(jìn)行了綜合測(cè)試，結(jié)果顯示 VLOGGER 在視頻質(zhì)量、物體還原性和時(shí)序一致性等方面表現(xiàn)出色，同時(shí)還能生成豐富的上半身和手勢(shì)動(dòng)作。

要制作逼真的人物動(dòng)畫(huà)視頻通常需要大量的人工調(diào)整和修補(bǔ)，以確保動(dòng)作流暢自然。而 VLOGGER 的創(chuàng)新之處在于，其無(wú)需針對(duì)每個(gè)新人物重新訓(xùn)練模型，也不依賴(lài)于人臉檢測(cè)框選區(qū)域，直接生成完整目標(biāo)圖像。此外，VLOGGER 還考慮到了現(xiàn)實(shí)中復(fù)雜的交流場(chǎng)景，如可見(jiàn)軀干、不同身份等因素，這對(duì)正確合成有效交流的人物動(dòng)作至關(guān)重要。

在技術(shù)實(shí)現(xiàn)方面，VLOGGER 首先通過(guò) Transformer 神經(jīng)網(wǎng)絡(luò)處理音頻波形輸入，生成一系列3D 面部表情和身體姿勢(shì)參數(shù)，用于控制虛擬人物在視頻中的動(dòng)作。其次，在空間和時(shí)間上進(jìn)行條件控制，生成高質(zhì)量、任意長(zhǎng)度的視頻。VLOGGER 還引入了一種 "時(shí)序外推" 的技術(shù)，允許模型迭代生成任意長(zhǎng)度的視頻片段，同時(shí)保持時(shí)序一致性。為了提高生成效果，VLOGGER 還采用了級(jí)聯(lián)擴(kuò)散方法，對(duì)基礎(chǔ)分辨率的視頻進(jìn)行超分辨重建，生成高質(zhì)量的影像。

VLOGGER 的推出為虛擬數(shù)字人的制作提供了更便捷、高效的解決方案，同時(shí)也在多模態(tài)視頻生成領(lǐng)域取得了重要的技術(shù)突破。

產(chǎn)品入口:https://top.aibase.com/tool/vlogger

技術(shù)報(bào)告:https://enriccorona.github.io/vlogger/paper.pdf

分享到：

標(biāo)簽：VLOGGER 谷歌 AI頭條