近日,人工智能領域的競爭再度升溫,Google DeepMind在OpenAI即將發布新成果的前夕,搶先推出了其最新研發的大型基礎世界模型——Genie 2。這款模型不僅能夠生成各種可控動作和可玩的3D環境,還可用于訓練和評估具身智能代理。
Genie 2的強大之處在于,只需一張提示圖像,它便能根據用戶輸入的文本提示,生成一個對應的交互式虛擬世界。無論是人類還是AI代理,都能在這個由AI生成的3D游戲世界中探索和互動,使用鍵盤和鼠標進行操作。
作為一個自回歸潛在擴散模型,Genie 2在大型視頻數據集上進行訓練。視頻中的潛在幀經過自動編碼器處理后,被傳遞到大型Transformer動力學模型中。該模型使用類似于大語言模型的因果掩碼進行訓練。在推理時,Genie 2能以自回歸方式逐幀采樣,獲取單個動作和過去的潛在幀,Google DeepMind使用無分類器指導(CFG)來提高動作的可控性。
Genie 2在多個方面展示了其卓越的效果與優勢,包括行動控制、生成反設事實、長視界記憶、長視頻生成、多樣環境、3D結構、物體交互、復雜角色動畫、NPC、物理、煙霧、光影以及快速原型設計等。其博客文章中發布了大量由未蒸餾的基礎模型生成的視頻示例,展示了這些功能。雖然蒸餾版本支持實時交互,但視覺質量會有所降低。
Genie 2具有超強的空間記憶能力,能夠模擬真實世界環境。與之前的世界模型相比,Genie 2在通用性上取得了顯著進步,能夠生成種類繁多的豐富3D世界。用戶可以通過文生圖模型Imagen 3生成的單個圖像,按照提示詞生成一個可交互的3D世界,并與之互動。
Genie 2還能快速創建各種交互體驗的原型,將概念藝術和繪圖轉化為完全交互式環境。這對于藝術家和設計師來說,是一個快速制作研究環境概念原型的利器。同時,Genie 2還可為AI代理創建豐富多樣的環境,生成在訓練期間未見過的評估任務,為具身智能提供了絕佳的訓練場。
盡管這項研究仍處于早期階段,但Google DeepMind相信Genie 2是解決安全訓練具體AI代理的結構性問題的途徑,同時實現邁向通用人工智能(AGI)所需的廣度和通用性。他們計劃在通用性和一致性方面繼續改進Genie的世界生成能力,以構建更通用的AI系統和代理,使其能夠理解和安全地執行各種任務。