近期,科技界迎來了一項令人矚目的創(chuàng)新——谷歌DeepMind推出的Genie 2,這是一款革命性的基礎(chǔ)世界模型。它擁有從圖像或文字描述中生成3D場景的能力,這些場景不僅可供人類探索,還能被AI智能體所利用。
據(jù)悉,用戶只需提供一張由Imagen 3生成的圖片,并附上相應(yīng)的文字描述,Genie 2就能迅速構(gòu)建出一個可交互的3D環(huán)境。用戶只需通過鼠標(biāo)和鍵盤,就能在這個環(huán)境中自由漫游,享受最多一分鐘的沉浸式體驗。
這款模型不僅具備出色的環(huán)境一致性,還能在用戶移動時精準(zhǔn)地呈現(xiàn)視野中消失的部分,大大增強(qiáng)了沉浸感。更令人驚嘆的是,Genie 2在生成過程中能模擬物體間的交互、動畫效果、光照條件、物理反射以及NPC的行為,生成的場景畫質(zhì)直逼3A級游戲,甚至在某些方面,如物體視角一致性和場景記憶上,表現(xiàn)得更為出色。
這一技術(shù)的突破引發(fā)了廣泛討論,有人驚嘆于科技進(jìn)步的迅猛,認(rèn)為這預(yù)示著視頻游戲的未來;也有人看到了更長遠(yuǎn)的前景,想象著一個由虛擬世界模型主導(dǎo)的未來。
在Genie 2發(fā)布后,DeepMind的CEO還向科技巨頭馬斯克發(fā)出了邀請,希望與其共同制作AI游戲。馬斯克對此回應(yīng)了一個簡單的“Cool”,這不僅表達(dá)了他的認(rèn)可,也預(yù)示著未來可能的合作。
谷歌的研究人員Jack Parker-Holder通過實例展示了Genie 2的強(qiáng)大功能。在一張包含紅門和藍(lán)門的圖片上,通過輸入不同的語言指令,Genie 2能生成不同的3D場景,用戶可以選擇走向紅門或藍(lán)門,探索不同的世界。
在一個更為復(fù)雜的三門場景中,Genie 2同樣展現(xiàn)出了卓越的理解力和生成能力,成功生成了研究人員所期望的3D動圖,進(jìn)一步證明了其強(qiáng)大的潛力和無限可能。