智源發布Emu3：原生多模態世界模型，能否一統圖像文本視頻？-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52010
待審：67
小程序：12
文章：1106242
會員：784

智源發布Emu3：原生多模態世界模型，能否一統圖像文本視頻？

發布時間：2024-10-22 07:21:29 作者：網友整理

【ITBEAR】智源研究院近期推出了全新的原生多模態世界模型——Emu3，該模型在文本、圖像和視頻三種模態數據的理解和生成上展現出卓越能力。其獨特之處在于，僅需基于下一個token預測，無需依賴擴散模型或組合方法，便能實現多模態數據的統一處理。

在圖像生成任務中，Emu3的表現優于SD-1.5與SDXL模型，獲得了人類偏好評測的高度認可。同時，在視覺語言理解任務中，Emu3也展現出了強大的實力，其對于12項基準測試的平均得分超越了LlaVA-1.6。在視頻生成任務中，Emu3同樣表現出色，VBench基準測試得分高于OpenSora 1.2。

Emu3配備了一個強大的視覺tokenizer，能夠將視頻和圖像轉換為離散token，這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務提供了更加統一的研究范式。