劃重點:
?? 谷歌發布新視頻框架 “Vlogger”,可以通過單張圖片和錄音生成本人演講視頻。
?? Vlogger 模型基于擴散模型,包含音頻到人體動作和文本到圖像模型。
?? Vlogger 具備多樣性和自然性,可應用于視頻編輯和翻譯等領域。
(ChinaZ.com)3月20日 消息:谷歌最近發布了一項名為 “Vlogger” 的新視頻框架,可以通過僅一張圖片和錄音即可生成一個本人演講視頻。
這一框架基于擴散模型,包含音頻到人體動作和文本到圖像模型兩部分。其中,音頻波形被用來生成人物的身體控制動作,包括眼神、表情、手勢等,使生成的視頻看起來自然且生動。該模型訓練在一個包含80萬個人物視頻的大型數據集上完成。
Vlogger 的突出之處在于其多樣性和完整性。與其他方法相比,Vlogger 不需要對每個人進行訓練,也不依賴于面部檢測和裁剪,生成的視頻包括面部、唇部和肢體動作等。此外,Vlogger 還具有視頻編輯和翻譯等應用,能夠讓人物閉嘴、閉眼,甚至進行視頻翻譯。
雖然谷歌尚未發布具體模型,但通過展示效果和論文,可以看到 Vlogger 在視頻生成領域的潛力和優勢。然而,一些網友對其生成視頻的畫質、口型對不上等問題提出了質疑和吐槽。盡管如此,Vlogger 的發布仍引起了業界的廣泛關注和討論。
谷歌發布的 Vlogger 模型為視頻生成領域帶來了新的可能性,具備多樣性和自然性,為視頻編輯和翻譯等應用提供了新的解決方案。隨著技術的不斷進步和完善,相信 Vlogger 將在未來有更廣泛的應用和發展。
產品入口:https://top.aibase.com/tool/vlogger