近兩年,AI技術的熱潮不僅惠及了千行百業,也顛覆了人們的生活。從云端百億、千億參數的大模型,到邊緣、終端的“小模型”,像vivo的藍心大模型BlueLM,可以在設備端提供寫作、繪畫等AIGC的能力,極大改善了用戶的使用體驗。這種潮流正在形成一種趨勢,生成式AI為手機、電腦、智能穿戴、家電等終端帶來了真正的智能進化,Arm則是這一切的基石。
“Arm為最大的計算生態系統提供了普適應用,以及對開發者友好的指令集,不斷滿足下一波的計算性能需求。”Arm終端事業部產品管理副總裁James McNiven表示,“這意味著在設備端和云端都會有更高的性能,同時在某些情況下會需要更高的能耗驅動AI技術,而能效正是Arm的DNA。Arm架構的強大實力可以為計算平臺帶來最高效的性能?!?/p>

Arm終端事業部產品管理副總裁James McNiven前不久,Arm推出了Arm終端計算子系統(CSS),為旗艦系統級芯片提供基礎計算要素,包括全新的Armv9.2 CPU、Arm Immortalis GPU、基于3納米工藝生產就緒的CPU和GPU物理實現,以及最新的CoreLink系統互連和系統內存管理單元(SMMU)。此外,Arm還通過新推出的Arm Kleidi軟件庫幫助軟件開發者無縫獲得Arm CPU的最佳性能。通常,Arm的大多數IP會通過RTL的形式交付,要使RTL變為芯片還要借助EDA工具流,通過一系列的優化和工具完成工具流后提供物理實現。此次Arm除了提供RTL形式的IP交付,還會額外為合作伙伴提供CPU和GPU的物理實現選項。
過去幾年中,專為性能和AI設計的Armv9架構在矢量加速、機器學習、安全性、穩定性等方面有著顯著提升,在Armv9.2的基礎上,Arm通過新一代Arm Cortex-X CPU和Immortalis GPU帶來了更高的性能,并以效率為核心,融入了Arm終端CSS的全新能力,加速產品上市進程。Arm終端CSS可讓IPC性能同比提高36%,AI推理速度提高59%,ArmImmortalis GPU圖形性能提高37%。Arm深知,CPU、GPU、NPU等異構計算的重要性,不同加速器之間的協同可以滿足各類應用場景,為客戶帶來更多的選擇。例如,Immortalis GPU在持續推進智能手機中的光線追蹤技術普及。在可擴展性方面,三種不同的 CPU 微架構讓Arm的合作伙伴能夠在包括筆記本電腦、智能手機、數字電視和可穿戴設備等一系列設備上提供對應的性能、效率,以及CPU和GPU解決方案。
Arm Cortex-X925實現了Cortex-X系列推出以來最高的同比性能提升,在3.8GHz的時鐘速率和最大緩存大小的條件下,與2023年旗艦智能手機的4納米SoC相比,其單線程性能大幅提高36%,AI性能相較去年的Cortex-XCPU在Token首次響應時間上提高41%,顯著增強了LLM等在設備端的響應能力。微架構的演進帶來了最寬的解碼和矢量設計大幅提升,TOPS數增長50%。通過更好的可配置性和更大的私有L2緩存,可以保留進出過CPU的指令和數據。Arm Immortalis-G925 GPU在多個AI和ML網絡上提升了34%的性能,并把光線追蹤技術在面對復雜物體時的表現,在性能上提升了52%。
效率方面,Arm會選擇不同的CPU微架構實現最大性能和最長使用天數,通過Immortalis和Arm Mali提供GPU可擴展性,實現性能和效率的靈活性。與Cortex-A720相比,Cortex-A725的能效提高了35%。Cortex-A520 CPU也隨著工藝和物理實現的提升得到了改進。圖形效率方面,在與去年的終端平臺相同水平的游戲性能下,《堡壘之夜》等手游的功耗降低了30%。在為Cortex-X925帶來的30%性能提升的基礎上,Arm對網頁瀏覽器也進行了改進,使其性能提高23%。
Arm繼續攜手Google,推動了安卓動態性能框架(Android Dynamic Performance framework)的發展。在最新版本的框架中,高端內容的每幀能耗降低25%,幀速率提高35%。此外,Arm還調整了安卓工作負載在不同CPU核心之間的平衡方式,為YouTube節省了10%的功耗。針對Google的AV1視頻編解碼器,Arm進行了軟件優化,使當下安卓設備的視頻性能最多可提高40%。
除此之外,Arm的內存標記擴展(Memory Tagging Extension, MTE)可以幫助開發者在無需侵入式檢測的情況下查找和修復代碼中的錯誤,還可以在實際操作環境下,用來減少安全漏洞被利用。目前,vivo X100、vivo X100 Pro、Google Pixel 8等旗艦設備均允許用戶啟用MTE。
James McNiven稱:“對于Arm終端CSS的完整解決方案來說,我們會針對不同用例,或是某些測試基準設定目標,將其分解到單個IP中。以游戲《原神》為例,我們先從系統層面進行分析,然后針對GPU、CPU等設定提升的目標,將各類游戲機制和計算能力推向極限,每個單一IP的性能提升都會為終端CSS的整體性能添磚加瓦。”
為了幫助開發者更好地發揮Arm終端CSS的性能優勢,Arm還推出了Arm Kleidi,包括面向AI工作負載的KleidiAI和面向計算機視覺應用的KleidiCV。KleidiAI是一套面向AI框架開發者的計算內核,使他們能夠在各種設備上輕松獲得Arm CPU上的最佳性能,并支持Neon、SVE2和SME2等關鍵Arm架構功能,顯著提升計算應用的性能。KleidiAI與PyTorch、Tensorflow、MediaPipe等熱門AI框架集成,旨在加速meta Llama 3、Phi-3等關鍵模型的性能,并且可以前后兼容,確保Arm在引入更多技術時依然能適用未來市場的需求。Kleidi一詞源于希臘語,意為“鑰匙”,即為開發者釋放更多性能的“鑰匙”。
KleidiAI支持可伸縮矢量擴展(Scalable Vector Extensions, SVE)、可伸縮矩陣擴展(Scalable Matrix Extensions, SME)等能力,部署在Cortex-X925上時,Kleidi技術運行Llama 3和Phi-3LLM的速度要比參考實現快2.9倍,24小時內即可實現。KleidiCV則可以融入神經網絡、傳統計算機視覺算法等技術,確保社交媒體、攝像頭等應用流暢運行。Arm會與OpenCV.ai合作,幫助安卓開發者更便捷地將OpenCV納入他們的項目中,并從KleidiCV的改進中受益。
Arm在指令預取、分支預測、大緩存等前端訪存能力的持續投入,使得應用程序的性能大幅提升,vivo就是很大的受益者,Arm微架構的升級讓vivo手機的流暢度達到非常高的水準。Arm終端CSS將為vivo的生成式AI應用提供了強勁的處理能力,也為開發者帶來了廣闊的發揮空間。vivo首席芯片規劃專家夏曉菲談到:“Arm作為整個產業鏈的最上游,我們希望把vivo產品的痛點和需求,對工作負載的分析以及產品性能功耗瓶頸的分析,反饋給Arm,使我們整個產業鏈能夠良性循環起來,從而使我們手機產品最終受益,給消費者帶來越來越好的體驗。”

Arm終端事業部產品管理副總裁James McNiven(左)&vivo首席芯片規劃專家夏曉菲(右)
從AI手機到AI PC,Arm發展勢頭強勁。Windows on
Arm(WoA)的生態愈發成熟,越來越多的Arm架構機型和Arm原生應用持續涌現,除了Microsoft
Office、Dropbox、Zoom、Adobe套件等,還有百度、嗶哩嗶哩、Chrome瀏覽器、愛奇藝、搜狗、騰訊QQ音樂等帶來了豐富的體驗,Audacity、Blender和OBS
Studio(用于流媒體)等開源工具的增多讓開發者有了更大的熱情,這些應用還整合了大量的開源庫和開發工具,面向Windows的Arm Performance
Libraries(Arm性能庫)推動著WoA生態不斷發展。
可以說,通過與合作伙伴的深度協作,Arm的產品和技術正在全球的每一個角落推進著計算能力挑戰極限,讓AI技術惠及每一個人。“作為計算的基石,Arm致力于通過新技術的推出,幫助我們的合作伙伴取得成功,我們希望能賦能合作伙伴打造出面向AI應用最卓越的設備、芯片組和SoC,為消費者的下一代AI體驗夯實根基?!盝ames McNiven說。