財聯社8月29日訊(編輯 史正丞)由AI模型實時生成游戲的時代,已經悄然來到了我們身邊。
本周來自谷歌公司和特拉維夫大學的研究人員發表了一篇名為《Diffusion模型是實時游戲引擎》的論文,介紹了計算機歷史上第一個完全由神經網絡模型支持的游戲引擎GameNGen。
研究人員在論文中寫道:“今天,電子游戲是由人類編程的,GameNGen是游戲引擎新范式的部分概念驗證——游戲將會變成神經模型的權重,而不是代碼行。”
換一種更容易理解的說法,目前所有的電子游戲都是預先設計好的,開發者需要編寫代碼、準備游戲文本和貼圖模型,然后放置在游戲地圖上——游戲畫面的渲染和狀態更新取決于手動編輯的規則。但GameNGen模型打開了一個完全不同的思路:使用AI生成模型,根據玩家的動作和反應,實時演算和生成游戲畫面。
在演示中,研究人員通過機器學習,讓GameNGen模型成功實時生成90時代的第一人稱射擊游戲《毀滅戰士》。視頻顯示,在AI生成的游戲中,玩家可以在場景中轉彎、發射武器,同時能夠準確反映剩余的子彈數量、遭到攻擊后的剩余血量,以及是否滿足打開下一個關卡所需的條件。
需要注意的是,上面看到的一系列畫面,完全是AI實時生成的圖像。最新的進展也顯示,AI模型繼成功生成文字、圖像、音頻和短視頻后,可能存在生成游戲場景的能力,這對邏輯性、連貫性和實時交互的要求明顯高出一大截。
他們是怎么做到的?
研究團隊介紹稱,為了訓練這個能實時生成游戲的AI,首先需要訓練一個強化學習(RL)代理來玩游戲,然后使用錄制下來的片段來訓練生成擴散模型,根據過去的畫面和玩家動作來預測接下來的畫面,這也是為什么AI生成的游戲能夠展現生命值和彈藥的變化,以及敵人受到攻擊的動畫。
更大的挑戰在于讓AI生成的圖像保持時間和邏輯上的連貫性。為了減輕推理過程中的自回歸漂移,研究人員在訓練期間通過向編碼幀添加高斯噪聲破壞上下文幀,允許AI更正前幾幀中采樣的信息,從而長時間保持圖像生成的穩定性。
研究人員披露,跑這個模型只需要單個TPU(谷歌自研AI處理器),就能實現每秒20幀的生成速度。
當然,上面這幾段話也展現出GameNGen的局限性:這個AI必須依靠輸入已有的游戲(或文字、圖片等材料)來生成游戲。
英偉達高級研究經理&具身智能集團主管Jim Fan博士在社交媒體上評論稱,GameNGen更像是一個神經輻射場(NeRF),而不是一個視頻生成模型。神經輻射場通過從不同角度拍攝場景的圖像,從而生成場景的3D展示。但這也意味著模型不具備泛化能力,無法“想象”新的場景。這也是GameNGen與Sora的不同點:它無法生成新的場景或交互機制。
研究人員也在論文中提到這一點,解釋稱借助該技術,未來的游戲開發者將能通過“文本描述和示例圖像”來創建新游戲,人們將有可能僅根據示例而不是編程技能,將一組精致的圖像轉化為現有游戲的新可玩關卡或角色。
黃仁勛:5-10年內出現完全由AI生成的游戲
由AI渲染來進行實時游戲并不是一個全新的想法。在今年3月發布最新一代Blackwell架構芯片時,英偉達CEO黃仁勛就曾預言,大概在5-10年內就能看到完全由AI生成的游戲。
事實上,朝著這個方向前進的不只是谷歌團隊,OpenAI在今年首次發布Sora演示時,也曾展現過模擬像素游戲《我的世界》的能力。
最新的進展,也恰好迎合了米哈游前董事長蔡浩宇近期引發熱議的“勸退”言論。
蔡浩宇本周公開發聲稱,AIGC已經徹底改變了游戲開發,現在只需要時間讓這種現象完全展開。他認為,未來只有兩種游戲開發者具有繼續從業的意義——前0.0001%的天才,以及99%的業務愛好者創作滿足自己需求的游戲。至于剩下的“從普通到專業”的游戲開發者,大家還是趁早轉行吧。