隨著 AI 技術(shù)的快速發(fā)展,越來越多的領(lǐng)域開始探索如何利用 AI 來提升效率和創(chuàng)造力。
近日,谷歌和以色列特拉維夫大學的研究人員聯(lián)合推出了一款名為 GameNGen 的 AI 模型,這一最新技術(shù)進展能夠?qū)崟r交互式模擬 1993 年經(jīng)典第一人稱射擊游戲《毀滅戰(zhàn)士》(Doom)。
日前,相關(guān)論文以《擴散模型是實時游戲引擎》(Diffusion Models Are Real-Time Game Engines)為題在預印本網(wǎng)站 arXiv 上發(fā)表 [1],該模型已在 GitHub 上開源。
論文作者包括:丹尼·瓦列夫斯基(Dani Valevski)、亞尼夫·利維坦(Yaniv Leviathan)、摩阿布·阿拉爾(Moab Arar)和肖米·弗魯赫特(Shomi Fruchter)。
GameNGen 是一個由神經(jīng)網(wǎng)絡(luò)驅(qū)動的系統(tǒng),其核心在于它能夠在沒有傳統(tǒng)游戲引擎的情況下,通過 AI 技術(shù)實時生成游戲畫面。
傳統(tǒng)的游戲引擎往往基于手工編寫的代碼,進行游戲狀態(tài)管理并渲染視覺效果,這一過程不僅耗時且成本高昂。
而 GameNGen 通過 AI 生成擴散模型,完全擺脫了這種傳統(tǒng)方法,自動模擬整個游戲環(huán)境。
該系統(tǒng)利用 AI 圖像生成模型 Stable Diffusion,最初用于生成靜態(tài)圖像。而 GameNGen 則進一步擴展了這一技術(shù),將其應(yīng)用于實時互動的游戲模擬中。
在 GameNGen 的用例中,Stable Diffusion 模型被修改為能夠預測游戲畫面中的下一個狀態(tài)。
這種預測不是基于固定的規(guī)則或預設(shè)的游戲邏輯,而是通過 AI 對之前狀態(tài)的分析和推測來實現(xiàn)的。
也就是說,GameNGen 能夠動態(tài)地生成每一幀的游戲畫面,而并非基于預先定義的場景或動作序列。
GameNGen 使用的另一項關(guān)鍵技術(shù)是神經(jīng)網(wǎng)絡(luò),尤其是與圖像生成相關(guān)的神經(jīng)網(wǎng)絡(luò)。
首先,研究人員訓練了一個強化學習代理,讓它通過玩游戲來生成大量的游戲畫面數(shù)據(jù)。
隨后,這些數(shù)據(jù)被用于訓練 Stable Diffusion 模型,使其能夠在給定前一幀的情況下,預測并生成下一幀的游戲畫面。
這個過程包括了兩個主要階段:
第一階段是強化學習代理的訓練,目的是通過自動游戲生成大量的訓練數(shù)據(jù)。
第二階段是將這些數(shù)據(jù)輸入到 Stable Diffusion 模型中,以便模型能夠?qū)W習如何從一幀游戲畫面生成下一幀。
這種結(jié)合了強化學習和擴散模型的技術(shù),使得 GameNGen 不僅能夠生成單幀的高質(zhì)量圖像,還能夠保證這些圖像在時間維度上的連貫性。
在傳統(tǒng)的游戲開發(fā)中,游戲畫面的生成是通過預先設(shè)定的規(guī)則和算法來實現(xiàn)的。這種方法雖然可以產(chǎn)生高質(zhì)量的圖像,但也需要大量的計算資源和時間。
而 GameNGen 則通過神經(jīng)渲染的方式,利用神經(jīng)網(wǎng)絡(luò)實時生成游戲畫面。
這種渲染方式與傳統(tǒng)的圖形渲染方法有很大的不同,它不依賴于固定的規(guī)則,而是通過 AI 對當前游戲狀態(tài)的“想象”來生成圖像。
GameNGen 的誕生和后續(xù)進展很可能引發(fā)游戲行業(yè)的變革。
傳統(tǒng)的游戲開發(fā)往往需要大量的人力和時間來編寫代碼、設(shè)計關(guān)卡和創(chuàng)建游戲世界。而 AI 驅(qū)動的引擎,如 GameNGen,能夠自動生成這些內(nèi)容,顯著減少了開發(fā)時間和成本。
這一技術(shù)突破可能使游戲創(chuàng)作更加方便,小型工作室甚至個人創(chuàng)作者也可以制作出復雜、互動性強的游戲。
更重要的是,AI 驅(qū)動的游戲引擎不僅能夠生成靜態(tài)的游戲場景,還能夠根據(jù)玩家的實時操作動態(tài)調(diào)整游戲內(nèi)容。
這意味著,未來的游戲可能不再是預先設(shè)計好的固定內(nèi)容,而是能夠根據(jù)玩家的行為實時演變。
未來,或許這種動態(tài)生成的游戲世界將打破傳統(tǒng)游戲設(shè)計的桎梏,為玩家?guī)砀映两胶蛡€性化的游戲體驗。
盡管 GameNGen 目前主要在游戲領(lǐng)域應(yīng)用,但其潛力遠不止于此。實時模擬適用于許多行業(yè),特別是在虛擬現(xiàn)實(VR,Virtual Reality)、增強現(xiàn)實(AR,Augmented Reality)、自動駕駛汽車和智能城市等領(lǐng)域。
在 VR 和 AR 中,AI 驅(qū)動的引擎可以創(chuàng)建完全沉浸式的互動世界,并實時響應(yīng)用戶的輸入。
盡管 GameNGen 展現(xiàn)了 AI 在游戲模擬中的巨大潛力,但這一技術(shù)在當前階段仍面臨諸多挑戰(zhàn)和限制。
首先,GameNGen 目前僅限于模擬一款相對簡單的古老游戲,相比于現(xiàn)代游戲,其圖形復雜度較低。
要將 GameNGen 的技術(shù)應(yīng)用于更復雜的游戲或其他類型的模擬環(huán)境,需要克服大量技術(shù)難題。
其次,GameNGen 生成的游戲畫面偶爾會出現(xiàn)圖像故障,特別是在處理較復雜的游戲環(huán)境的情況。
這是由于 Stable Diffusion 模型的局限性,以及 AI 在生成連續(xù)幀時容易出現(xiàn)的累積誤差所導致的。
隨著時間的推移,這些小錯誤會逐漸積累,最終可能導致生成的虛擬世界變得不穩(wěn)定或失真。
此外,GameNGen 只能訪問短短三秒鐘的游戲歷史,這意味著當玩家重新訪問先前經(jīng)歷的游戲關(guān)卡時,系統(tǒng)只能通過概率性猜測進行模擬,而無法基于真實的游戲狀態(tài)進行準確再現(xiàn)。
這種局限性限制了 GameNGen 在更大規(guī)模和更復雜的游戲環(huán)境中應(yīng)用。
盡管目前存在一些技術(shù)挑戰(zhàn),GameNGen 仍然為未來的游戲開發(fā)和其他應(yīng)用場景開辟了廣闊的前景。
隨著 AI 技術(shù)的不斷進步和計算成本的降低,未來有望實現(xiàn)更復雜的游戲和模擬環(huán)境。
與此同時,隨著時間的推移,AI 驅(qū)動的游戲引擎或?qū)⒉粌H限于模擬簡單的游戲場景,而是能夠生成大規(guī)模、復雜且互動性強的虛擬世界。
參考資料:
1.https://arxiv.org/abs/2408.14837
https://arstechnica.com/information-technology/2024/08/new-ai-model-can-hallucinate-a-game-of-1993s-doom-in-real-time/
https://gamengen.github.io/
運營/排版:何晨龍