(ChinaZ.com)3月6日 消息:近日,阿里巴巴在人工智能領域再次取得突破,推出了一款名為AtomoVideo的高保真圖像到視頻生成框架。這一技術的問世,標志著基于文本到圖像生成技術的視頻生成領域取得了顯著的快速發展。
據官方介紹,AtomoVideo的核心在于其多粒度圖像注入技術,這一技術使得生成的視頻對于給定的圖像具有更高的保真度。這意味著,通過AtomoVideo生成的視頻,能夠更好地保留原始圖像的細節和特征,從而使得生成的視頻更加逼真。目前,阿里只發布了AtomoVideo的論文,代碼,試玩頁面等還未公布。
項目地址:https://huggingface.co/papers/2403.01800
此外,AtomoVideo還得益于高質量的數據集和訓練策略,這使得其在保持卓越的時間性的同時,實現了更大的運動強度,一致性和穩定性。這意味著,無論是在動作的連貫性,還是在動作的穩定性上,AtomoVideo都能表現出色。
AtomoVideo的架構也具有很高的靈活性,它可以靈活地擴展到視頻幀預測任務,通過迭代生成實現長序列預測。這使得AtomoVideo在處理長序列的視頻預測任務時,也能夠保持良好的性能。
值得一提的是,由于適配器訓練的設計,AtomoVideo可以很好地與現有的個性化模型和可控模塊結合。這使得AtomoVideo在實際應用中,可以根據需要進行個性化定制,以滿足不同用戶的需求。
不過從AK大神發布的演示來看,AtomoVideo生成的視頻質量和sora相比差距較大,和SVD相比也有一些差距,希望后續會有更大的提升吧。