【ITBEAR】作者|林書
2024年,AI在游戲行業正不斷由表及里,不斷觸及游戲機制的核心。
大家比較熟知的《沙威瑪傳奇》,更多是用AI賦能制作,降本增效,到后來《1001 night》、《換你來當爹》中,AI成為游戲的核心玩法。最近,背靠大廠的《永劫無間》《暗區突圍》里的AI技術再次往前進了一步,要成為玩家在游戲中的“助手”、“隊友”。
AI作圖 by娛樂資本論
和騰訊、網易做游戲內AI隊友不同,就在上個月,一款名為“桌崽AI”的桌面陪伴寵物火了起來,在傳統桌寵的外衣下,它真正做到了懂玩家、懂游戲,且在游戲過程中提供了實實在在的價值(查攻略、實時陪聊)。從功能性這一點看,頗有點當年游戲語音助手YY的意思。
內測一個月,總注冊用戶超過1萬,DAU超過3000,付費率超出意料之外。
留存率也挺高,次留63%,7日留29%,30日留22%,平均每日時長237分鐘。這個數據,甚至超過了很多國內大廠的大模型產品。
要知道,根據之前一張盛傳的統計圖表,國產 AI 大模型用戶在30 日后,往往流失嚴重,從字節的豆包,到百度的文心一言(現在改名文小言),30日后使用率就都低于 1%。
問題來了,為何AI布局這么多賽道,唯獨在在游戲賽道如此成功?
原因就在于,游戲佬既對科技感興趣,又對AI助手有強剛需,而這樣的盲區和痛點,正是目前AI在其他領域少有觸及,也需要一定門檻的部分。
AI助手,或許將成為AI領域競爭的下一個勝負手。
跨次元的碰撞桌崽AI的制作團隊,是國內一家名叫臉譜心智的企業,成立于去年6月。
創始人Adam是個愛玩游戲的95后,本碩畢業于帝國理工學院。在創業前,他在亞馬遜、微軟都工作過,對聊天機器人頗有研究。
由于創始人及其整個團隊,對游戲都十分熱愛,因此桌崽AI在推出時,就具備了其他同類產品少有的優勢——對當前各大主流游戲的匹配。
目前,桌崽AI已經適配了《黑神話·悟空》、《原神》、《絕區零》、《鳴潮》等20多款游戲。
只要打開游戲,桌崽AI就會在屏幕上陪著你。玩家可通過文字或語音,與和桌崽進行實時的互動。
但是,僅僅做到“陪伴”,還遠不能讓其脫穎而出。
如前所述,其核心亮點在于“懂游戲”、“懂玩家”,這點主要體現在兩方面:其一是,在游戲過程中,桌崽AI不僅能看懂游戲中的畫面、內容,并且還能根據玩家的行為,針對性地進行反饋。
例如玩家要是發揮得好,它就會夸玩家很棒;要是玩家不幸失手,它也會用幽默的語言進行調侃。
第二個方面就在于,在看懂游戲的基礎上,它還能實時提供游戲攻略,在玩家卡關時提供幫助。
這樣一來,玩家就再也不用在游戲時,切換回桌面,再打開瀏覽器去各種網站、論壇搜攻略了,桌崽就站旁邊告訴你該怎么打通關。
除了這些核心功能外,桌崽還能通過生成式AI,根據玩家的喜好,定制出各種不同的外形、聲音,而這種個性化的特點,又進一步增加了玩家的粘性。
然而,這樣的功能,雖然看著簡單,但真正要實現起來,背后卻有著一定的技術門檻,
具體來說,這樣的門檻包括了:
多模態游戲陪玩大模型——讓AI“懂游戲”;
二次元視頻生成大模型——自定義外觀;
語音聲線定制大模型——自定義聲音(語音克隆等);
其中多模態游戲陪玩大模型,是其與游戲契合的關鍵所在,按照臉譜心智的介紹,該模型的運作機制,是經用戶授權后,模型把游戲畫面、音效和用戶帶有各種情緒的聲音作為輸入,從而給予和游戲進度同頻的個性化反饋。
但最大的難點就在于,怎樣讓模型在理解各種不同模態的輸入(畫面、聲音)的同時,還能做到實時反饋?
這就涉及到了一個十分重要的技術——多模態融合。
從某種程度上說,這是決定將來大模型在游戲中廣度、深度的一個重要技術。
會看、會聽的AI隊友多模態技術,之所以在游戲AI的下一階段如此重要,主要是因為,在之前所有結合了LLM的游戲,例如《1001 night》等作品中,AI的定位與作用,始終都脫離不了“對話”這一單調的框架。
這種局限,使得AI在游戲中的作用,被限定在了提供對話選項和簡單的互動,而無法深入到其他方面。
而通過對不同模態的數據進行特征提取,游戲中的AI助手,可以將原始數據轉換為可以被模型處理的數值表示,同時將異構特征投影到公共子空間,使得具有相似語義的多模態數據由相似向量表示,從而讓AI理解了不同模態的信息。
實際上,這種多模態的思路,已經愈發成為了一種AI+游戲的潛在發展方向。
在今年英偉達展示的一個名為G-Assist的游戲助手項目中,這個由RTX驅動的AI助手,會通過分析玩家的語音或文本指令,以及游戲界面截圖,提供實時攻略等相關幫助。
這與桌崽AI的某些思路幾乎如出一轍。
G-Assist的核心技術在于其AI視覺模型,通過集成先進的AI視覺模型,G-Assist能夠實時分析游戲窗口中的視覺信息,比如識別屏幕上出現的敵對NPC,或是推薦優選武器和材料收集方法。
而除了“會看”之外,這類多模態融合技術的另一大挑戰,就是怎樣在實時的游戲中,以極低的延遲實現玩家與AI之間的語音互動。
最理想的狀態,是玩家能像平時說話時那樣,與AI助手進行即時的交流,這考驗的是AI“會聽”的功夫。
在今年5月的開發者大會上,微軟推出了Copilot+ PC,一款為AI時代而生的全新PC,其同樣具備了在游戲中充當AI助手的能力。
例如,在《我的世界》視頻演示中,通過集合Open AI 的 GPT-4o模型,Copilot能夠實時分析游戲畫面內容,并根據不同的情境、場景,以各種語調、語氣與玩家交流。
像是當玩家成功躲避敵人的追擊后,Copilot就會發出喘氣聲并祝賀玩家成功找到庇護處。
這種實時的、低延遲的語音交互,背后依托的技術,大致可以分成兩種,一種是傳統的,以神經網絡為基礎的文本轉語音(Text-to-Speech )技術,也稱TTS;另一種則是端到端的,GPT-4o所展現的那種實時語音技術。
從技術力上來說,后者的要求更高,但效果也遠優于前者。
這是因為,傳統的TTS合成,通常需要先將文本轉換為語音,其輸出往往存在一定的延遲,這樣的差距,在某些競技類、動作類等要求快速反應的游戲中,會顯得尤為突出。
更重要的是,由于整合了意圖理解、自然語言處理等環節,端到端的語音大模型,在做到“如真人般絲滑”的同時,還能根據不同的情境,實時地調整自身的語氣、語調。
而傳統TTS要做到這點,只能預先進行人為的設置。
在具備了“會看”、“會聽”的能力后,LLM在游戲中的定位,就不再僅限于單純進行對話的NPC,甚至不再局限于能夠實時交互的AI助手,對于某些更有野心的游戲大廠來說,這種多模態技術的成熟,還成為了在AI時代,重新構筑自身護城河的一種新手段。
Agent技術,讓AI勝似真人在打破了“對話”這一框架的局限后,AI助手在游戲中能干什么?
網易在《永劫無間》中給出的答案是:一個能聽懂語音指令,實現自動跑圖、搜集物資,配合戰斗的智能化AI隊友。
6月19日,《永劫無間》手游在“定勝終測”中引入了全新的“游戲Copilot”功能。并依托先進的LLM技術,為玩家提供了一個勝似真人的AI隊友。
這樣的隊友,究竟有多智能?
舉例來說,在戰斗中,玩家要是說了句:“給我來點藥”,AI隊友馬上跑到玩家身邊給予相應的道具。
同樣地,在戰斗中,AI隊友不僅能指哪打哪,也會通過自主判斷戰場局勢優化決策,打造和真人隊友組隊開黑一致的默契體驗。
有時候,對于一些具體的道具搜尋,AI隊友也能有求必應。
除了基本的戰斗、搜尋指令外,AI隊友還會主動搭話,聊天,在戰斗之余緩解氛圍,為玩家提供情感陪伴的價值。
總的來說,這個AI 隊友能跑圖,搜物資,戰斗,輔助救援,與玩家實時語音聊天,真人隊友能做到的一切,它也幾乎全做到了。
而要實現這些,網易靠的正是前面提到的多模態識別、實時語音交互等技術。
具體來說,這個AI隊友,不僅能聽懂玩家的話(語音識別)、觀察戰場局勢(視覺信息輸入)、了解地圖和英雄技能(游戲機制學習),甚至借助諸多高手的大數據學會了如何打好永劫手游。
但除了多模態之外,要打造這樣智能化的AI隊友,還有一塊最重要的拼圖:AI Agent 技術。
這是因為,多模態+LLM的組合,盡管解決了AI隊友看、聽、理解與交流的問題,但要真正讓其成為游戲中的得力助手,它就必須會親自操作游戲。
這背后靠的正是AI Agent 技術。
與傳統依靠預設程序執行固定操作的NPC不同,Agent技術賦予了AI隊友更高的靈活性和自主性,這是因為Agent技術讓AI隊友具備了“自主規劃”與“自我操作”的能力。
在AI領域,Agent 指的是能夠感知環境、做出決策并執行行動的系統,能夠在復雜多變的環境中獨立完成任務。
實際上,早在《永劫無間》的AI隊友出現前,業內早已對 Agent+游戲的方向進行了一番探索。比如說網易自身,就有一個叫網易數智的AI平臺,提供MMO、SLG等游戲類型的AI對手。
還有在今年3月,Google 的DeepMind就公布了一項關于新型AI智能體SIMA的開創性研究,旨在讓智能體能夠理解并執行多種游戲環境中的自然語言指令。
讓SIMA在游戲中執行操作,只需要兩個輸入:屏幕上的圖像和用戶提供的自然語言指令。在測試中,SIMA在九種不同的游戲上進行了訓練和測試,包括《無人深空》和《拆解》,并在其中進行了駕駛飛船、挖礦、砍樹等一系列操作。
通過從不同的游戲世界中學習,SIMA捕捉了圖像、語言與游戲玩法行為之間的聯系。
這樣的聯系,來自游戲過程中收集的大量數據。比如屏幕上的畫面、音效、文字說明,甚至鼠標和鍵盤的操作記錄。
之后,收集的數據集被用于訓練預先設定的模型,以適應不同的游戲場景和任務。
從玩法機制上來說,AI Agent技術在游戲領域的介入,幾乎是一種必然,因為有太多的游戲,都存在著需要復雜規劃和多個子任務才能完成的目標了,例如“尋找資源并建立營地”等等。
而這類融合了多模態、Agent等技術的游戲嘗試,在發展到一定階段后,必定會出現某個成熟的“集大成者”。
例如《暗區突圍》中的AI隊友,就是這樣一個例子。
更高的壁壘,更高的體驗在今年8月的科隆游戲展上,騰訊魔方工作室分享了自研的最新AI技術——F.A.C.U.L.。
這是由魔方工作室聯合暗區突圍項目團隊,推出的全球首個語音指揮FPS AI,應用了最先進的生成式AI技術,包括語音輸入、大語言模型、實時語音合成和環境識別等。
所謂的F.A.C.U.L.,實際上是一系列核心功能的集合,為的是使AI表現得更像人類隊友。
具體來說,它包括了:
Complex Command Recognition(復雜指令識別):這個功能意味著AI可以理解玩家下達的復雜命令,使其能夠識別和執行多步指令,適應不同的戰術需求。
Tactic Execution(戰術執行):指AI具備執行戰術操作的能力,比如掩護、包抄、進攻等。AI不再是簡單地跟隨玩家或進行基礎攻擊,而是能夠參與到更復雜的戰術中。
Object Identification(物體識別):這意味著AI可以識別場景中的特定物體,比如敵人、掩體、道具等。這種識別能力是執行任務和戰術的基礎,幫助AI在復雜環境中做出合適的決策。
Human-Like Interaction(類人交互):旨在讓AI在行為上更加接近人類,AI會表現出類似人類的反應,增強游戲的沉浸感。
雖然與《永劫無間》中的AI隊友一樣,《暗區突圍》的F.A.C.U.L.也結合了多模態、Agent等技術,但從復雜度和要求上來說,其卻比前者更上了一個臺階。
這主要是因為,與《永劫無間》相比,《暗區突圍》中的道具、武器、場景更多,更復雜,戰斗中需要執行的戰術也更多樣化,更充滿變數。
例如,“F.A.C.U.L.”將允許 AI 角色識別多大 1.7 萬個游戲物品,包括建筑物、武器、地表。魔方工作室稱它們甚至能識別“一根草”。
在具體戰斗中,玩家還可以對AI隊友還可以發處一系列連續的、復雜的指令,而AI隊友在執行這些指令時,不僅能準確理解其含義,還能知道指令中提到的“沙袋”、“汽車”究竟在哪。
在執行指令時,F.A.C.U.L.首先會基于多模態輸入,對環境進行結構化分析,建立一個包含敵我位置、障礙物、目標物體等要素的“局勢地圖”。
之后,當玩家發布“清理房間并守住出口”這樣的復合命令時,AI隊友就會通過Agent的任務分解與多步驟執行能力,將其分解為多個步驟:首先清理敵人,然后搜索物資,最后在出口守衛。
這種多階段任務分解與執行能力,是Agent技術中“自主規劃”的重要環節,也是F.A.C.U.L.這類AI高效、靈活地完成任務的關鍵。
結語可以說,《永劫無間》、《暗區突圍》這樣的例子,揭示了隨著多模態、Agent等技術的進一步發展,AI在游戲中的介入程度正不斷加深,其帶來的游戲體驗上的提升,也越來越明顯。
但與此同時,AI+游戲的另一大趨勢是:隨著技術復雜度不斷提升,“AI游戲”的門檻和壁壘也在一步步變高,有實力留在牌桌上的選手,也成了資源和資金更加充足的大廠。
然而,從行業的角度來說,這種不斷提升的門檻,也未嘗不是一件好事。
因為隨著大廠逐漸主導AI+游戲領域,AI游戲的制作,會邁入一個更穩健,也更有標準和規范可循的“工業化時代”,其品質的提升會更扎實,更可控。而非像AI游戲的初期階段那樣,游戲的爆火與走紅,大多只能靠團隊的“靈感”、稟賦或運氣。