【ITBEAR】智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3,該模型在文本、圖像及視頻的理解與生成領(lǐng)域?qū)崿F(xiàn)了顯著突破。Emu3的創(chuàng)新之處在于,它僅需基于下一個(gè)token的預(yù)測(cè),便能高效處理三種模態(tài)數(shù)據(jù),無需依賴擴(kuò)散模型或組合方法。
在圖像生成方面,Emu3的性能超越了SD-1.5與SDXL模型;在視覺語言理解上,它則優(yōu)于LlaVA-1.6;而在視頻生成領(lǐng)域,Emu3的表現(xiàn)同樣出色,超過了OpenSora 1.2。Emu3還具備強(qiáng)大的視覺tokenizer功能,能將視頻和圖像轉(zhuǎn)換為離散token,與文本tokenizer輸出的token共同送入模型處理。
研究表明,通過將復(fù)雜的多模態(tài)設(shè)計(jì)簡(jiǎn)化為token本身,Emu3在大規(guī)模訓(xùn)練和推理中展現(xiàn)出了巨大的潛力。目前,Emu3的關(guān)鍵技術(shù)和模型已經(jīng)開源,項(xiàng)目頁面也已正式上線。
對(duì)于研究人員而言,Emu3提供了一個(gè)統(tǒng)一的研究范式,值得深入探索。