在AI競賽日益激烈的當下,Google DeepMind再次推出了其最新的研究成果——Genie 2,一款能夠生成各種可操控動作、可供玩耍的3D環境的大型基礎世界模型。這一消息的發布,恰好趕在了OpenAI即將在未來12天內直播新發布和演示之前,為AI領域再添一把火。
據了解,Genie 2只需一張提示圖像,就能根據用戶輸入的文本提示,生成對應的交互式虛擬世界。無論是人類還是AI代理,都可以使用鍵盤和鼠標在由AI生成的3D游戲世界中自由探索和互動。這種前所未有的交互體驗,無疑為AI領域的研究和應用帶來了全新的可能性。
Genie 2的核心是一個自回歸潛在擴散模型,它在大型視頻數據集上進行訓練。通過自動編碼器處理后,視頻中的潛在幀被傳遞到大型Transformer動力學模型中。該模型采用與大語言模型類似的因果掩碼進行訓練,使得在推理時,Genie 2能夠以自回歸方式采樣,逐幀獲取單個動作和過去的潛在幀。為了提高動作的可控性,Google DeepMind還使用了CFG(無分類器指導)技術。
在Genie 2的博客文章中,展示了大量由未蒸餾的基礎模型生成的視頻示例,這些示例充分展示了Genie 2在行動控制、生成反設事實、長視界記憶、長視頻生成、多樣環境、3D結構、物體交互、復雜角色動畫、NPC(非玩家角色)、物理、煙霧、光影以及快速原型設計等方面的卓越效果與優勢。盡管蒸餾版本支持實時交互,但在運行時的視覺質量會略有降低。
Genie 2在模擬真實世界環境方面展現出了超強的空間記憶能力。它能夠記住視野中不再存在的世界部分,并在它們再次可見時準確呈現。Genie 2還能夠從同一起始幀生成不同的軌跡,為訓練AI代理提供了模擬不同事實體驗的可能性。
在與Genie 2互動的過程中,用戶可以體驗到智能響應鍵盤按鍵操作、生成反設事實、長視界記憶以及使用新生成的內容生成長視頻等多種功能。例如,用戶可以通過鍵盤和鼠標控制一個可愛的機器人,在由Genie 2生成的3D世界中自由移動和互動。Genie 2還能夠模擬各種物體的相互作用,如爆破氣球、打開門和射擊炸藥桶等。
除了以上功能外,Genie 2還能夠模擬其他AI代理,甚至與它們進行復雜的交互。同時,它還能夠模擬各種物理現象,如水效果、煙霧效果、重力以及燈光等。這些功能使得Genie 2成為了一個極具潛力的訓練和評估具身AI代理的平臺。
Google DeepMind表示,盡管這項研究仍處于早期階段,但Genie 2已經展現出了解決安全訓練具體AI代理的結構性問題的潛力。同時,它也為實現邁向通用人工智能(AGI)所需的廣度和通用性邁出了重要的一步。未來,Google DeepMind將繼續在通用性和一致性方面改進Genie的世界生成能力,為構建更通用的AI系統和代理做出貢獻。