(ChinaZ.com)1月19日 消息:百度推出的UniVG是一款視頻生成模型,其特點在于針對高自由度和低自由度兩種任務分別采用不同的生成方式,以更好地平衡兩者之間的關系。
項目地址:https://top.aibase.com/tool/univg
項目演示頁面:https://univg-baidu.github.io/
視頻生成技術基于“擴散”原理的方法近來在學術和產業界引起廣泛關注,并取得顯著成就。然而,目前這一領域主要集中在單一目標或單一任務的視頻生成上,例如根據文本、圖片或它們的組合生成視頻。但這樣的方法并不能完全滿足真實世界多變的應用需求。用戶通常需要更靈活的輸入方式,如單獨使用圖像或文本,或將二者結合起來。
為了解決這一問題,百度提出了UniVG,一種“統一模態視頻生成系統”,能夠處理各種文本和圖像的組合輸入。該系統重新定義了視頻生成模型中的多項任務,將它們劃分為“高自由度生成”和“低自由度生成”兩大類。在高自由度視頻生成方面,采用了“多條件交叉注意力”技術,以生成與輸入的圖像或文本語義高度一致的視頻。而在低自由度視頻生成方面,引入了“偏置高斯噪聲”,這種方法相較于傳統的完全隨機高斯噪聲更能有效地保留輸入條件的原始內容。
技術性能方面,UniVG在MSR-VTT視頻數據庫上表現出色,獲得了最低的幀間視頻差異性度量(Frame Video Distance, FVD)。這一成績不僅超越了當前的開源方法,還與業界領先的閉源方法Gen2不相上下,顯示出了卓越的實用價值和技術優勢。