【ITBEAR】近日,一個名為Mochi 1的開源視頻生成模型引起了廣泛關注,該模型由新興AI公司Genmo推出,并在視頻生成領域掀起了不小的波瀾。據悉,Mochi 1不僅在運動質量上表現出眾,還具有極高的提示依從性,這意味著它能夠根據用戶提供的文本說明,生成高度符合要求的視頻內容。
Mochi 1的強大功能得益于其背后的新型非對稱擴散Transformer(AsymmDiT)架構,以及高達100億的參數量。這使得它成為有史以來開源的最大視頻生成模型。Mochi 1還采用了VAE編碼器進行視頻壓縮,有效提升了計算效率。
在評估方面,Mochi 1展現出了優異的性能。通過視覺語言模型進行基準測試,其在提示依從性方面取得了顯著成果。同時,在運動質量評估中,Mochi 1也以其流暢的視頻生成和逼真的運動動態贏得了高度評價。
盡管Mochi 1在視頻生成領域取得了顯著進展,但Genmo團隊并未止步。他們表示,將在今年年底前發布Mochi 1的完整版——Mochi 1 HD。這一版本將支持720p視頻生成,具備更高的保真度和更流暢的運動表現,有望解決復雜場景中的邊緣問題。
Genmo還計劃開發圖像到視頻的功能,并致力于提高模型的可控性和可操控性。這將使用戶能夠更精確地控制輸出內容,進一步拓展視頻生成模型的應用場景。
隨著Mochi 1的開源和不斷完善,視頻生成技術正逐漸走向成熟。這一技術的廣泛應用將為娛樂、廣告、教育等領域帶來革命性的變革。同時,它也為藝術家和創作者提供了一個全新的創作平臺,使他們能夠通過AI生成的視頻將自己的愿景變為現實。