近期,谷歌DeepMind團隊公布了一項名為Genie 2的前沿技術,這是一項基礎世界模型,能夠從圖像或文字描述中生成可供人類或AI智能體互動的3D環境。
據悉,用戶只需提供一張由Imagen 3生成的圖片及相應的文字說明,Genie 2便能迅速構建出一個可探索的3D世界。用戶通過鼠標和鍵盤,可以在這個虛擬環境中自由行走,體驗時長可達一分鐘之久。
Genie 2不僅在生成環境的一致性上表現出色,還能在用戶移動時精準呈現視野變化中的細節,確保體驗的真實感。
谷歌進一步透露,Genie 2在生成過程中能夠模擬物體的交互行為、動畫效果、光照條件、物理反射以及NPC(非玩家角色)的行動。許多生成的場景在畫質上接近3A級游戲水平,并且在物體視角一致性和場景記憶方面展現出了卓越的能力。
這一技術突破引起了廣泛關注,有人驚嘆于科技進步的速度,認為它預示著視頻游戲的未來發展方向。甚至有人設想,隨著技術的不斷進步,一個完全虛擬化的世界模型將成為可能。
值得注意的是,在Genie 2發布后,DeepMind的CEO向特斯拉創始人馬斯克發出了共同制作AI游戲的邀請。馬斯克對此回應稱:“Cool。”
谷歌研究人員Jack Parker-Holder通過實例展示了Genie 2的靈活性。他提到,當向模型輸入不同的語言指令時,比如一張包含紅門和藍門的圖片,可以生成通往不同方向的3D場景。用戶可以選擇走向紅門或藍門,探索不同的虛擬世界。
在更加復雜的場景中,比如包含三門的選擇,Genie 2依然能夠準確理解指令并生成研究人員期望的3D動畫效果,展現了其強大的理解和生成能力。