【ITBEAR】智源研究院近期推出了全新的原生多模態世界模型——Emu3,該模型在文本、圖像及視頻的理解與生成領域實現了顯著突破。Emu3的創新之處在于,它僅需基于下一個token的預測,便能高效處理三種模態數據,無需依賴擴散模型或組合方法。
在圖像生成方面,Emu3的性能超越了SD-1.5與SDXL模型;在視覺語言理解上,它則優于LlaVA-1.6;而在視頻生成領域,Emu3的表現同樣出色,超過了OpenSora 1.2。Emu3還具備強大的視覺tokenizer功能,能將視頻和圖像轉換為離散token,與文本tokenizer輸出的token共同送入模型處理。
研究表明,通過將復雜的多模態設計簡化為token本身,Emu3在大規模訓練和推理中展現出了巨大的潛力。目前,Emu3的關鍵技術和模型已經開源,項目頁面也已正式上線。
對于研究人員而言,Emu3提供了一個統一的研究范式,值得深入探索。