(ChinaZ.com)3月6日 消息:近日,阿里巴巴在人工智能領(lǐng)域再次取得突破,推出了一款名為AtomoVideo的高保真圖像到視頻生成框架。這一技術(shù)的問(wèn)世,標(biāo)志著基于文本到圖像生成技術(shù)的視頻生成領(lǐng)域取得了顯著的快速發(fā)展。
據(jù)官方介紹,AtomoVideo的核心在于其多粒度圖像注入技術(shù),這一技術(shù)使得生成的視頻對(duì)于給定的圖像具有更高的保真度。這意味著,通過(guò)AtomoVideo生成的視頻,能夠更好地保留原始圖像的細(xì)節(jié)和特征,從而使得生成的視頻更加逼真。目前,阿里只發(fā)布了AtomoVideo的論文,代碼,試玩頁(yè)面等還未公布。
項(xiàng)目地址:https://huggingface.co/papers/2403.01800
此外,AtomoVideo還得益于高質(zhì)量的數(shù)據(jù)集和訓(xùn)練策略,這使得其在保持卓越的時(shí)間性的同時(shí),實(shí)現(xiàn)了更大的運(yùn)動(dòng)強(qiáng)度,一致性和穩(wěn)定性。這意味著,無(wú)論是在動(dòng)作的連貫性,還是在動(dòng)作的穩(wěn)定性上,AtomoVideo都能表現(xiàn)出色。
AtomoVideo的架構(gòu)也具有很高的靈活性,它可以靈活地?cái)U(kuò)展到視頻幀預(yù)測(cè)任務(wù),通過(guò)迭代生成實(shí)現(xiàn)長(zhǎng)序列預(yù)測(cè)。這使得AtomoVideo在處理長(zhǎng)序列的視頻預(yù)測(cè)任務(wù)時(shí),也能夠保持良好的性能。
值得一提的是,由于適配器訓(xùn)練的設(shè)計(jì),AtomoVideo可以很好地與現(xiàn)有的個(gè)性化模型和可控模塊結(jié)合。這使得AtomoVideo在實(shí)際應(yīng)用中,可以根據(jù)需要進(jìn)行個(gè)性化定制,以滿足不同用戶的需求。
不過(guò)從AK大神發(fā)布的演示來(lái)看,AtomoVideo生成的視頻質(zhì)量和sora相比差距較大,和SVD相比也有一些差距,希望后續(xù)會(huì)有更大的提升吧。