【ITBEAR】近日,一個名為Mochi 1的開源視頻生成模型引起了廣泛關(guān)注,該模型由新興AI公司Genmo推出,并在視頻生成領(lǐng)域掀起了不小的波瀾。據(jù)悉,Mochi 1不僅在運動質(zhì)量上表現(xiàn)出眾,還具有極高的提示依從性,這意味著它能夠根據(jù)用戶提供的文本說明,生成高度符合要求的視頻內(nèi)容。
Mochi 1的強大功能得益于其背后的新型非對稱擴散Transformer(AsymmDiT)架構(gòu),以及高達100億的參數(shù)量。這使得它成為有史以來開源的最大視頻生成模型。Mochi 1還采用了VAE編碼器進行視頻壓縮,有效提升了計算效率。
在評估方面,Mochi 1展現(xiàn)出了優(yōu)異的性能。通過視覺語言模型進行基準測試,其在提示依從性方面取得了顯著成果。同時,在運動質(zhì)量評估中,Mochi 1也以其流暢的視頻生成和逼真的運動動態(tài)贏得了高度評價。
盡管Mochi 1在視頻生成領(lǐng)域取得了顯著進展,但Genmo團隊并未止步。他們表示,將在今年年底前發(fā)布Mochi 1的完整版——Mochi 1 HD。這一版本將支持720p視頻生成,具備更高的保真度和更流暢的運動表現(xiàn),有望解決復(fù)雜場景中的邊緣問題。
Genmo還計劃開發(fā)圖像到視頻的功能,并致力于提高模型的可控性和可操控性。這將使用戶能夠更精確地控制輸出內(nèi)容,進一步拓展視頻生成模型的應(yīng)用場景。
隨著Mochi 1的開源和不斷完善,視頻生成技術(shù)正逐漸走向成熟。這一技術(shù)的廣泛應(yīng)用將為娛樂、廣告、教育等領(lǐng)域帶來革命性的變革。同時,它也為藝術(shù)家和創(chuàng)作者提供了一個全新的創(chuàng)作平臺,使他們能夠通過AI生成的視頻將自己的愿景變?yōu)楝F(xiàn)實。