百度最近發(fā)布了一款名為UniVG的視頻生成模型,它具有處理各種文本和圖像組合輸入的能力。UniVG的特色在于對高自由度和低自由度兩種任務(wù)采用不同的生成方式,以更好地平衡兩者之間的關(guān)系。
項目地址:https://top.aibase.com/tool/univg
項目演示頁面:https://univg-baidu.github.io/
具體而言,該系統(tǒng)引入了“多條件交叉注意力”技術(shù),用于高自由度視頻生成,以生成與輸入圖像或文本語義一致的視頻。而在低自由度視頻生成方面,采用了“偏置高斯噪聲”的方法,相較于傳統(tǒng)的完全隨機高斯噪聲更能有效地保留輸入條件的原始內(nèi)容。
UniVG的技術(shù)性能在MSR-VTT視頻數(shù)據(jù)庫上表現(xiàn)出色,獲得了最低的幀間視頻差異性度量。這一成績不僅超越了當前的開源方法,還與業(yè)界領(lǐng)先的閉源方法Gen2不相上下,展現(xiàn)了其在實用價值和技術(shù)優(yōu)勢方面的卓越表現(xiàn)。
總的來說,UniVG的推出填補了視頻生成模型領(lǐng)域的一些空白,為用戶提供了更靈活的輸入方式,滿足了真實世界多變的應(yīng)用需求。
該模型的多模態(tài)視頻生成系統(tǒng)在處理不同自由度任務(wù)時展現(xiàn)出色的性能,為未來的視頻生成領(lǐng)域帶來了新的可能性。如果你對這一領(lǐng)域感興趣,可以通過訪問UniVG官方網(wǎng)站了解更多信息。