隨著 AI 熱潮席卷各行各業,其落地應用已經成為企業技術研發升級的工作重心。人工智能應用的升級不僅需要軟件層面的升級迭代,還需要大規模基礎設施的支撐。然而,自行搭建大規模算力、存儲基礎設施對于大多數企業而言都存在技術難度、人力資源、成本投入等多方面的挑戰。因此,企業在探索 AI 實踐時往往更傾向于選擇云服務,尤其是云計算大廠提供的成熟云端計算實例來部署 AI 模型和服務,而在具體落地過程中,不同行業存在的痛點各異,對云基礎設施的需求也有所不同。
好玩有趣的關卡背后,創新 AI 模型的突破與挑戰
由于游戲行業的需求復雜,其相對較晚受到 AI 創新浪潮的影響,獨特的創新周期、對游戲性和故事性的高要求,以及市場接受度和玩家期望的多樣性,也延緩了 AI 在游戲中的廣泛應用。再加上對經濟因素和開發成本的考量,使得游戲行業在采納 AI 技術時持謹慎態度。
然而,隨著 AI 技術的不斷進步和成本的降低,以及市場對高質量游戲體驗需求的日益增長,游戲行業正積極地探索和應用 AI 技術來提升游戲品質和玩家體驗,更常見的選擇是對成熟的模型方案進行微調,以滿足自身需求。
在這種場景下,對上層應用出色的推理能力與性價比則顯得更為關鍵。通過基于成熟方案改造的推理模型以及能夠輸出高效推理性能的基礎設施,使游戲開發團隊可以迅速獲得 AI 創新的收益,為終端用戶帶來更好的體驗。
樂元素是經典休閑消除游戲《開心消消樂》的開發商,《開心消消樂》憑借著簡單易上手的游戲原理和激發玩家好勝心的設計,使得玩家能夠迅速融入游戲并享受其中。
《開心消消樂》擁有 9 大關卡類型、60 余種障礙設計、8000 多個精心設計的關卡。用戶每日都可以進行游戲關卡挑戰,因此,關卡的質量對于游戲的收入和用戶留存起著至關重要的作用。樂元素的游戲團隊不僅要持續推出新關卡和玩法,還要不斷調整線上關卡的體驗和難度,為玩家帶來新鮮的游戲體驗。
過去,樂元素團隊主要通過人工流程制作關卡,但效率相對較低,導致新關卡的上線流程較長,很難確保難度一致性,又要考慮玩家離線游玩時是否通過特殊方式“作弊”,新玩法和已有關卡陣容的完整兼容問題,相關的設計和驗證工作費時費力。
為此,樂元素創新地在關卡設計等流程引入了自研的 AI 推理模型。對于新增和調整的關卡,推理模型通過大量自動打關任務,確保關卡配置無錯誤,難度符合預期,并快速驗證關卡;對于新開發的玩法,AI 也通過大量自動打關任務確保邏輯無錯誤。
如今,該模型每天平均運行超過 1 億次打關任務,推理次數超過 30 億次。通過 AI 創新,樂元素可以大大減輕開發團隊設計新關卡和新玩法時的驗證測試負擔,使團隊將精力從枯燥的驗證工作中轉移到開發任務上,顯著提升開發效率,為玩家帶來更多新鮮好玩的游戲內容。
然而,隨著《開心消消樂》玩家群規模增長和游戲內容更新,樂元素的 AI 推理模型在實踐中開始遇到性能、成本和靈活性三大挑戰:
性能挑戰:
隨著游戲用戶數量的增加和游戲內容的擴充,推理模型需要處理的關卡數量不斷增多,對玩家玩法的模擬也更加復雜,這就意味著運行模型的服務器需要足夠的算力來支持模型完成推理任務。
成本挑戰:
游戲運營成本隨著用戶數量和游戲內容的增加而增加,特別是當部署專用的模型服務器時。因此,樂元素亟需尋找更適合推理的算力選項。
靈活性挑戰:
面對不斷變化的游戲內容和用戶需求,特別是不同的模型推理需求,要求游戲服務器具備足夠的靈活性支持。
今年,騰訊云推出的新一代 S8 實例,為樂元素提供了高性能、低成本和靈活性的解決方案,滿足了其持續發展的訴求。
聚集三大優勢,樂元素將 AI 推理加速方案轉向 CPU
在以往的解決方案中,大多數游戲行業的 AI 推理場景會更偏向于性能強大的 GPU 作為算力基礎設施。但隨著近年來芯片短缺情況惡化,GPU 推理方案成本迅速上升,很多企業開始將目光投向了 CPU,并發現了 CPU 方案的一些顯著優勢:
成本顯著降低:打關模型的 AI 推理任務以離線為主,任務運行時間也相對寬松。因此選用基于低成本、易獲得的 CPU 進行推理的云實例在運行時間上可以滿足樂元素要求,還可以節約日常開發成本。
資源利用率高:除了打關推理模型外,樂元素日常也有很多通用計算任務需求,使用 CPU 來運行推理模型,可以在閑時繼續運行其他通用任務,甚至在游戲流量高峰時快速擴展服務器資源池,有效提升了資源利用率,避免造成資源浪費;
易開發、易部署:基于 CPU 的云實例搭配成熟的軟件棧,使游戲公司開發團隊能夠快速部署推理模型,無需復雜的移植和優化工作。在一些需要快速部署新模型的情況下,所需的時間甚至更短。
CPU 突破 AI 推理難關,英特爾? AMX 引擎成為取勝關鍵
新一代騰訊云實例 S8 基于全新優化虛擬化平臺,提供了平衡、穩定的計算、內存和網絡資源。其中,標準型實例采用第五代英特爾? 至強? 可擴展處理器,內存采用最新 DDR5,默認網絡優化,最高內網收發能力達 4500 萬 pps,最高內網帶寬可支持 120Gbps。
騰訊云實例 S8 搭載的第五代至強? 可擴展處理器憑借內置加速器實現單核性能提升,相較上一代產品,其整體性能提升 21%,內存速度提升 16%,且與上一代產品的軟件和平臺兼容,部署新系統時可大大減少測試和驗證工作。
樂元素遷移到騰訊云實例 S8 后,單個實例能夠處理的游戲數據和用戶請求規模更大,平均成本更低,自研 AI 推理模型的效能大幅提升。
第五代至強? 可擴展處理器內置了英特爾? AMX 加速引擎,可加速基于 CPU 的深度學習推理,避免了使用獨立加速器帶來的成本和復雜性。英特爾? AMX 引入了一種用于矩陣處理的新框架(包括了兩個新的組件,一個二維寄存器文件,其中包含稱為 “tile” 的寄存器,以及一組能在這些 tile 上操作的加速器),從而能高效地處理各類 AI 任務所需的大量矩陣乘法運算,提升其在訓練和推理時的工作效能。
*英特爾? AMX 架構
通過采用英特爾? AMX 技術,樂元素得以顯著提升自研 AI 推理模型的性能,除了提升模型的關卡驗證測試效率外,還能滿足更多場景的需求。例如英特爾? AMX 技術可以助力快速處理玩家數據,以實現快速的游戲元素調整;快速處理大量數據,創造更加真實和吸引人的在線互動,以提供更加平滑和快速的在線游戲體驗。
樂元素還對新一代騰訊云 S8 實例進行了性能測試,驗證了其代際性能提升。在 AI 打關推理模型的測試中,對比騰訊云與英特爾聯合定制優化的第三代至強? 可擴展處理器,啟用了英特爾? AMX 技術將模型從 FP32 轉化為 BF16 后,第五代至強? 可擴展處理器的推理性能提升達 3.44 倍。
*自研打關模型推理性能測試數據
樂元素還在《開心消消樂》中引入了新春掃龍字活動,在玩家上傳掃描的圖片后,樂元素會通過圖像分類識別領域常用的 ResNet-50 模型進行圖片識別并返回結果。該模型在第五代至強? 可擴展處理器上的測試結果表明,啟用了英特爾? AMX 后推理性能提升高達 5.19 倍。
*《開心消消樂》新春掃龍字活動模型測試數據
除了硬件加持以外,英特爾? oneDNN 還提供了深度學習構建塊的高度優化實現,深度學習應用程序和框架開發人員可以對 CPU、GPU 或兩者使用相同的 API,從而抽象出指令集和其他復雜的性能優化,大大降低編程人員優化 AI 推理性能的難度。
從以上實踐案例不難看出,啟用基于第五代英特爾? 至強? 可擴展處理器的新一代騰訊云實例 S8 后,開發廠商能游刃有余地應對自動打關等模型的推理需求,提升游戲開發和運營效率。開發廠商也很容易實現模型擴展,在更多環節引入 AI 技術,滿足更多場景的需求。
通過部署第五代英特爾? 至強? 可擴展處理器的騰訊云實例,樂元素無需采用昂貴的專用 AI 服務器,還可以快速根據市場需求進行擴展,使企業在保持輕資產、輕運營壓力的同時獲得更高的投資回報率。
對于樂元素這樣缺少大規模自建 AI 集群的企業而言,基于第五代至強? 可擴展處理器的騰訊云實例,讓他們能夠快速享受 AI 技術創新帶來的價值,進而為廣大終端用戶帶來更滿意的產品和服務體驗。
第五代英特爾? 至強? 可擴展處理器,為游戲行業 AI 創新注入持續動能
如今,AI 技術已經成為游戲產業發展的熱門技術方向。一份研究報告預計,2024 年 AI 技術應用將為游戲公司帶來約 21% 的人力成本下降。在此背景下,構建面向游戲開發與運營的 AI 算力平臺,推動 AI + 游戲應用的創新,正在成為影響游戲公司競爭力的關鍵因素。
樂元素的實踐證實,基于第五代英特爾? 至強? 可擴展處理器的騰訊云實例 S8 能夠滿足典型 AI 模型在推理算力上的需求,同時具備更高的經濟性與靈活性,能夠成為游戲企業拓展 AI 應用的理想選擇。在當前合作成果的基礎上,英特爾將與騰訊云和樂元素展開更多合作,加快步伐,將 AI 融入到游戲開發與運營的整體流程之中。英特爾與騰訊云的成果也將惠及更多游戲企業,持續為他們提供助力,滿足輕資產、重人力類型的游戲廠商在激烈的競爭環境中降本增效的迫切需求。