谷歌旗下的人工智能研究先鋒DeepMind,于美國周三正式揭曉了其最新研發成果——Genie 2模型。這款模型是對年初推出的Genie的全面升級,標志著虛擬世界生成技術的一次飛躍。
Genie 2被定位為一種基礎性的世界生成模型,它擁有將單一圖片轉化為無限多樣、可操控及可探索3D環境的能力,專為訓練和評估具身智能體而設計。這一特性讓Genie 2在人工智能領域獨樹一幟。
據DeepMind介紹,Genie 2能生成“異彩紛呈的3D世界”,用戶在這些世界中可以隨心所欲地跳躍、游泳,享受與環境的真實互動。通過視頻訓練,模型能夠精確模擬物體的交互、動畫效果、照明、物理現象、反射效果以及非玩家角色的行為,為用戶帶來沉浸式的體驗。
DeepMind發布的一段演示視頻,直觀展示了Genie 2的神奇之處。視頻中,系統首先利用Imagen 3根據文字描述生成一張初始圖片,隨后Genie 2基于這張圖片構建出一個完整的互動世界。用戶通過鍵盤和鼠標在這個世界里自由探索,而Genie 2則實時渲染出用戶所見的每一幀畫面,流暢且自然。
Genie 2還具備從不同視角生成連貫世界的能力,無論是第一人稱視角還是等距視角,都能呈現出一致且連貫的虛擬世界。這些生成的世界可持續時間最長可達一分鐘,盡管大多數情況下維持在10到20秒之間,但這已足夠展現出其強大的生成能力和應用潛力。
DeepMind在人工智能領域的深耕細作,不僅體現在Genie 2的研發上,還體現在其對人才的重視上。今年10月,DeepMind成功聘請了OpenAI前視頻生成項目負責人Tim Brooks,同時兩年前還從meta挖來了以開放式實驗聞名的Tim Rockt?schel。這些重量級人才的加入,無疑為DeepMind的未來發展注入了新的活力。
隨著谷歌對世界模型研究的持續投入,我們有理由相信,未來會有更多像Genie 2這樣的創新成果涌現,為人工智能領域帶來更多的驚喜和突破。