在科技界的最新突破中,谷歌推出了一款名為Genie 2的先進(jìn)世界模型,它不僅能夠生成無限多樣的3D游戲世界,還能響應(yīng)玩家的鍵鼠操作,實(shí)現(xiàn)了前所未有的可玩性和可控制性。這一技術(shù)的發(fā)布,迅速吸引了科技愛好者的廣泛關(guān)注,其中就包括了對(duì)AI技術(shù)充滿熱情的特斯拉CEO馬斯克。
Genie 2與之前的研究相比,最大的亮點(diǎn)在于其長期記憶功能。即便玩家將視角轉(zhuǎn)向別處,再回到先前的場景時(shí),已存在的游戲世界部分依然能夠穩(wěn)定渲染,不會(huì)出現(xiàn)畫面斷裂或失真。這種技術(shù)革新,讓游戲世界更加真實(shí)、連貫,為玩家?guī)砹顺两降挠螒蝮w驗(yàn)。
更令人驚嘆的是,Genie 2支持AI NPC(非玩家角色)的加入,這些NPC能夠與玩家控制的角色進(jìn)行復(fù)雜、多樣的交互,使得游戲世界充滿了無限可能。這意味著,玩家可以通過文字描述自己心目中的世界,選擇最心儀的呈現(xiàn)方式,然后親自進(jìn)入這個(gè)世界,與各種角色進(jìn)行互動(dòng),體驗(yàn)前所未有的游戲樂趣。
馬斯克對(duì)這一技術(shù)的評(píng)價(jià)是“很酷”,并隨后接受了DeepMind創(chuàng)始人Hassabis的邀請(qǐng),共同探討合作開發(fā)AI游戲的可能性。考慮到馬斯克此前曾表示將創(chuàng)辦一家AI游戲工作室,這一合作似乎并非空穴來風(fēng)。
然而,谷歌DeepMind的這項(xiàng)研究并非僅僅為了娛樂。Genie 2還可以作為訓(xùn)練和評(píng)估具身智能體的平臺(tái),通過創(chuàng)建豐富多樣的游戲環(huán)境,生成AI在訓(xùn)練期間未見過的評(píng)估任務(wù)。這種能力對(duì)于推動(dòng)AI技術(shù)的發(fā)展具有重要意義,尤其是在實(shí)現(xiàn)通用人工智能(AGI)的道路上。
例如,通過文字指令訓(xùn)練智能體打開正確的門,Genie 2能夠模擬出多種可能的場景和結(jié)果,從而幫助智能體學(xué)會(huì)在不同情況下做出正確的決策。這種訓(xùn)練方式不僅提高了智能體的適應(yīng)性和靈活性,還為其在未來的實(shí)際應(yīng)用中打下了堅(jiān)實(shí)的基礎(chǔ)。
Genie 2還展示了世界模型的涌現(xiàn)能力,包括對(duì)象交互、復(fù)雜的角色動(dòng)畫、物理模擬以及建模并預(yù)測其他智能體行為的能力。這意味著玩家在游戲中的每一個(gè)操作都可能引發(fā)不同的連鎖反應(yīng)和結(jié)果,使得游戲體驗(yàn)更加豐富和多變。
實(shí)現(xiàn)這一切的背后,是擴(kuò)散模型的強(qiáng)大支持。Genie 2作為一種自回歸潛空間擴(kuò)散模型,在大型視頻數(shù)據(jù)集上進(jìn)行了訓(xùn)練。通過自編碼器的處理,視頻的潛在幀被傳遞到一個(gè)大型Transformer動(dòng)力學(xué)模型中,該模型使用與大型語言模型類似的因果掩碼進(jìn)行訓(xùn)練。在推理時(shí),Genie 2能夠自回歸方式采樣,對(duì)單個(gè)操作和過去的幀逐幀執(zhí)行,從而生成連貫、逼真的游戲世界。
谷歌還透露,目前展示的視頻示例都是由未經(jīng)蒸餾的模型生成,以展示技術(shù)的可能性。雖然蒸餾模型可以實(shí)現(xiàn)實(shí)時(shí)控制,但會(huì)犧牲一定的輸出質(zhì)量。不過,隨著技術(shù)的不斷進(jìn)步和優(yōu)化,相信未來Genie 2將能夠?yàn)橛脩魩砀恿鲿场⒈普娴挠螒蝮w驗(yàn)。