近期,AI領(lǐng)域的兩大突破性進展讓業(yè)界眼前一亮,先是World Labs發(fā)布了其創(chuàng)新性的3D場景渲染AI,緊接著谷歌DeepMind也推出了第二代“世界模型”Genie 2,兩者均展示了AI在理解和生成現(xiàn)實世界方面的巨大潛力。
World Labs的創(chuàng)始人李飛飛,作為AI界的重量級人物,其新項目引發(fā)了廣泛關(guān)注。這家實驗室聲稱,他們的AI能夠直接渲染出完整的3D場景,超越了傳統(tǒng)生成模型僅限于像素預(yù)測的范疇。這些場景不僅具備交互性和自由度,用戶甚至可以通過鍵盤和鼠標在網(wǎng)頁上進行操作體驗。盡管目前仍處于測試階段,官網(wǎng)上的案例已經(jīng)足夠讓人驚嘆,展示了AI在構(gòu)建空間模型方面的強大能力。
然而,就在World Labs發(fā)布后不久,谷歌DeepMind也不甘示弱,推出了其第二代“世界模型”Genie 2。與World Labs的項目相比,Genie 2似乎更加流暢,自由度更高。它不僅能夠生成類似游戲的基礎(chǔ)世界模型,還支持用戶通過WASD鍵、空格和鼠標來操控畫面中的角色。更令人稱奇的是,AI能夠即時計算出根據(jù)操作產(chǎn)生的畫面,持續(xù)時間可長達一分鐘,且生成的畫面和建模在用戶操控鍵盤回溯時仍能保持一致。
Genie 2中的角色和交互也頗具看點。角色不僅可以步行,還能跑、跳、爬梯子,甚至開車和開槍射擊。AI生成的NPC之間也能發(fā)生交互,盡管效果尚待完善。Genie 2還成功模擬了自然相關(guān)的運動場景,如水面波動、煙霧飄散,以及重力和光線反射效果,展現(xiàn)出AI在理解現(xiàn)實世界物理規(guī)律方面的顯著進步。
盡管視覺效果令人印象深刻,但DeepMind也坦誠地指出,Genie 2目前仍處于早期版本,測試過程中仍會出現(xiàn)一些翻車案例。例如,在讓畫面中的小哥滑雪的任務(wù)中,AI卻將其變成了跑酷;在另一個花園場景中,玩家尚未操作,就突然飄過了一個幽靈。這些瑕疵表明,盡管取得了顯著進步,但AI在理解現(xiàn)實世界方面仍有待完善。
值得注意的是,與以往的Sora類視頻模型相比,Genie 2和World Labs的項目在訓練方向和技術(shù)路線上有所不同。Sora雖然號稱世界模型,但穿模和幻覺問題難以解決,因為它們主要依賴視頻素材進行學習,并不真正理解視頻中的物體如何交互。而Genie 2和World Labs則通過學習環(huán)境和物體之間的交互關(guān)系,取得了更接近真實世界的模擬效果。尤其是DeepMind的Genie 2,通過游戲素材進行學習,不僅學到了角色和畫面的動態(tài)變化,還觀察到了鍵盤操作對畫面和動作的影響,從而更全面地理解了物體與環(huán)境的交互。