蘇姿豐2小時演講，AMD最強(qiáng)AI芯片亮相，OpenAI微軟助陣！-魔扣目錄

【ITBEAR】猛，實(shí)在是猛！就在今日，老牌芯片巨頭AMD交出了一份令人印象深刻的AI答卷。

智東西美國舊金山10月10日現(xiàn)場報道，酷熱的天氣剛剛過去，舊金山正值秋意涼爽，今日舉行的AMD Advancing AI 2024盛會卻格外火熱。

AMD傾囊倒出了一系列AI殺手锏，發(fā)布全新旗艦AI芯片、服務(wù)器CPU、AI網(wǎng)卡、DPU和AI PC移動處理器，將AI計(jì)算的戰(zhàn)火燒得更旺。

這家芯片巨頭還大秀AI朋友圈，現(xiàn)場演講集齊了谷歌、OpenAI、微軟、meta、xAI、Cohere、RekaAI等重量級AI生態(tài)伙伴。

備受期待的旗艦AI芯片AMD Instinct MI325X GPU首次啟用HBM3E高帶寬內(nèi)存，8卡AI峰值算力達(dá)到21PFLOPS，并與去年發(fā)布的、同樣采用HBM3E的英偉達(dá)H200 GPU用數(shù)據(jù)掰手腕：內(nèi)存容量是H200的1.8倍，內(nèi)存帶寬、FP16和FP8峰值理論算力都是H200的1.3倍。

AMD還披露了最新的AI芯片路線圖，采用CDNA 4架構(gòu)的MI350系列明年上市，其中8卡MI355X的AI峰值算力達(dá)到74PFLOPS，MI400系列將采用更先進(jìn)的CDNA架構(gòu)。

更高的數(shù)據(jù)中心算力，離不開先進(jìn)的網(wǎng)絡(luò)解決方案。對此，AMD發(fā)布了業(yè)界首款支持UEC超以太網(wǎng)聯(lián)盟的AI網(wǎng)卡Pensando Pollara 400和性能翻倍提升的Pensando Salina 400 DPU。

另一款重磅新品是第五代EPYC服務(wù)器CPU，被AMD稱為“面向云計(jì)算、企業(yè)級和AI的全球最好CPU”，采用臺積電3/4nm制程工藝，最多支持192核、384個線程。其中頂配EPYC 9965默認(rèn)熱設(shè)計(jì)功耗500W，以1000顆起訂的單價為14813美元（約合人民幣10萬元）。

與第五代英特爾至強(qiáng)鉑金8592+處理器相比，AMD EPYC 9575F處理器的SPEC CPU性能提高多達(dá)2.7倍，企業(yè)級性能提高多達(dá)4.0倍，HPC（高性能計(jì)算）性能提高多達(dá)3.9倍，基于CPU的AI加速提高多達(dá)3.8倍，GPU主機(jī)節(jié)點(diǎn)提升多達(dá)1.2倍。

自2017年重回數(shù)據(jù)中心市場后，AMD一路勢頭強(qiáng)勁：其數(shù)據(jù)中心CPU收入市占率在2018年還只有2%，今年上半年已攀爬到34%，在全球覆蓋超過950個云實(shí)例和超過350個OxM平臺。

AMD是唯一一家能夠提供全套CPU、GPU和網(wǎng)絡(luò)解決方案來滿足現(xiàn)代數(shù)據(jù)中心所有需求的公司。

AI PC芯片也迎來了新成員——AMD第三代商用AI移動處理器銳龍AI PRO 300系列。它被AMD稱作“為下一代企業(yè)級AI PC打造的全球最好處理器”，預(yù)計(jì)到2025年將有超過100款銳龍AI PRO PC上市。

01.

旗艦AI芯片三代同堂：

內(nèi)存容量帶寬暴漲，峰值算力沖9.2PF

AI芯片，正成為AMD業(yè)務(wù)增長的重頭戲。

AMD去年12月發(fā)布的Instinct MI300X加速器，已經(jīng)成為AMD歷史上增長最快的產(chǎn)品，不到兩個季度銷售額就超過了10億美元。

今年6月，AMD公布全新年度AI GPU路線圖，最新一步便是今日發(fā)布的Instinct MI325X。在7月公布季度財報時，AMD董事會主席兼CEO蘇姿豐博士透露，AMD預(yù)計(jì)其今年數(shù)據(jù)中心GPU收入將超過45億美元。

微軟、OpenAI、meta、Cohere、Stability AI、Lepton AI（賈揚(yáng)清創(chuàng)辦）、World Labs（李飛飛創(chuàng)辦）等公司的很多主流生成式AI解決方案均已采用MI300系列AI芯片。

微軟董事長兼CEO薩提亞·納德拉對MI300贊譽(yù)有加，稱這款A(yù)I加速器在微軟Azure工作負(fù)載的GPT-4推理上提供了領(lǐng)先的價格/性能。

基于Llama 3.1 405B運(yùn)行對話式AI、內(nèi)容生成、AI Agent及聊天機(jī)器人、總結(jié)摘要等任務(wù)時，MI300的推理速度最多達(dá)到英偉達(dá)H100的1.3倍。

新推出的MI325X進(jìn)一步抬高性能，跑Mixtral 8x7B、Mistral 7B、Llama 3.1 70B等大模型的推理性能，比英偉達(dá)H200快20%~40%。

MI325X擁有1530億顆晶體管，采用CDNA 3架構(gòu)、256GB HBM3E內(nèi)存，內(nèi)存帶寬達(dá)6TB/s，F(xiàn)P8峰值性能達(dá)到2.6PFLOPS，F(xiàn)P16峰值性能達(dá)到1.3PFLOPS。

由8張MI325X組成的服務(wù)器平臺有2TB HBM3E內(nèi)存；內(nèi)存帶寬達(dá)到48TB/s；Infinity Fabric總線帶寬為896GB/s；FP8性能最高達(dá)20.8PFLOPS，F(xiàn)P16性能最高達(dá)10.4PFLOPS。

相比英偉達(dá)H200 HGX，MI325X服務(wù)器平臺在跑Llama 3.1 405B時，推理性能可提高40%。

從訓(xùn)練性能來看，單張MI325X訓(xùn)練Llama 2 7B的速度超過單張H200，8張MI325X訓(xùn)練Llama 2 70B的性能比肩H200 HGX。

AMD Instinct MI325X加速器或?qū)⒂诮衲甑谒募径韧懂a(chǎn)，將從明年第一季度起為平臺供應(yīng)商提供。

下一代MI350系列采用3nm制程工藝、新一代CDNA 4架構(gòu)、288GB HBM3E內(nèi)存，新增對FP4/FP6數(shù)據(jù)類型的支持，推理性能相比基于CDNA 3的加速器有高達(dá)35倍的提升，有望在2025年下半年上市。

MI355X加速器的FP8和FP16性能相比MI325X提升了80%，F(xiàn)P16峰值性能達(dá)到2.3PFLOPS，F(xiàn)P8峰值性能達(dá)到4.6PFLOPS，F(xiàn)P6和FP4峰值性能達(dá)到9.2PFLOPS。

8張MI355X共有2.3TB HBM3E內(nèi)存，內(nèi)存帶寬達(dá)到64TB/s，F(xiàn)P16峰值性能達(dá)到18.5PFLOPS，F(xiàn)P8峰值性能達(dá)到37PFLOPS，新增FP6和FP4的峰值性能為74PFLOPS。

三代GPU的配置顯著升級：相比8卡MI300X，8卡MI355X的AI峰值算力提升多達(dá)7.4倍、HBM內(nèi)存提高多達(dá)1.5倍、支持的模型參數(shù)量提升幅度接近6倍。

AMD持續(xù)投資軟件和開放生態(tài)系統(tǒng)，在AMD ROCm開放軟件棧中提供新特性和功能，可原生支持主流AI框架及工具，具備開箱即用特性，搭配AMD Instinct加速器支持主流生成式AI模型及Hugging Face上的超過100萬款模型。

ROCm 6.2現(xiàn)包括對關(guān)鍵AI功能的支持，如FP8數(shù)據(jù)類型、Flash Attention、內(nèi)核融合等，可將AI大模型的推理性能、訓(xùn)練性能分別提升至ROCm 6.0的2.4倍、1.8倍。

此前AMD收購了歐洲最大的私人AI實(shí)驗(yàn)室Silo AI，以解決消費(fèi)級AI最后一英里問題，加快AMD硬件上AI模型的開發(fā)和部署。歐洲最快的超級計(jì)算機(jī)LUMI便采用AMD Instinct加速器來訓(xùn)練歐洲語言版的大語言模型。

02.

下一代AI網(wǎng)絡(luò)：后端引入業(yè)界首款支持UEC的AI網(wǎng)卡，前端上新400G可編程DPU

網(wǎng)絡(luò)是實(shí)現(xiàn)最佳系統(tǒng)性能的基礎(chǔ)。AI模型平均有30%的訓(xùn)練周期時間都花在網(wǎng)絡(luò)等待上。在訓(xùn)練和分布式推理模型中，通信占了40%-75%的時間。

AI網(wǎng)絡(luò)分為前端和后端：前端向AI集群提供數(shù)據(jù)和信息，可編程DPU不斷發(fā)展；后端管理加速器與集群間的數(shù)據(jù)傳輸，關(guān)鍵在于獲得最大利用率。

為了有效管理這兩個網(wǎng)絡(luò)，并推動整個系統(tǒng)的性能、可擴(kuò)展性和效率提升，AMD今日發(fā)布了應(yīng)用于前端網(wǎng)絡(luò)的Pensando Salina 400 DPU和應(yīng)用于后端網(wǎng)絡(luò)的Pensando Pollara 400網(wǎng)卡。

Salina 400是AMD第三代可編程DPU，被AMD稱作“前端網(wǎng)絡(luò)最佳DPU”，其性能、帶寬和規(guī)模均提高至上一代DPU的兩倍；Pollara 400是業(yè)界首款支持超以太網(wǎng)聯(lián)盟（UEC）的AI網(wǎng)卡。

Salina 400支持400G吞吐量，可實(shí)現(xiàn)快速數(shù)據(jù)傳輸速率，可為數(shù)據(jù)驅(qū)動的AI應(yīng)用優(yōu)化性能、效率、安全性和可擴(kuò)展性。

Pollara 400 采用 AMD P4可編程引擎，支持下一代RDMA軟件，并以開放的網(wǎng)絡(luò)生態(tài)系統(tǒng)為后盾，對于在后端網(wǎng)絡(luò)中提供加速器到加速器通信的領(lǐng)先性能、可擴(kuò)展性和效率至關(guān)重要。

UEC Ready RDMA支持智能數(shù)據(jù)包噴發(fā)和有序消息傳遞、避免擁塞、選擇性重傳和快速損失恢復(fù)。這種傳輸方式的消息完成速度是RoCEv2的6倍，整體完成速度是RoCEv2的5倍。

在后端網(wǎng)絡(luò)，相比InfiniBand，以太網(wǎng)RoCEv2是更好的選擇，具有低成本、高度可擴(kuò)展的優(yōu)勢，可將TCO節(jié)省超過50%，能夠擴(kuò)展100萬張GPU。而InfiniBand至多能擴(kuò)展48000張GPU。

03.

服務(wù)器CPU：

3/4nm制程，最多192核/384線程

今年7月公布財報時，蘇姿豐提到今年上半年，有超過1/3的企業(yè)服務(wù)器訂單來自首次在其數(shù)據(jù)中心部署EPYC服務(wù)器CPU的企業(yè)。

第五代EPYC處理器9005系列（代號“Turin”）專為現(xiàn)代數(shù)據(jù)中心設(shè)計(jì)。

該處理器在計(jì)算、內(nèi)存、IO與平臺、安全四大層面全面升級。

第五代EPYC擁有1500億顆晶體管，采用臺積電3/4nm 制程、全新“Zen 5”及“Zen 5c”核心兼容廣泛部署的SP5平臺，最多支持192核、384個線程，8~192核的功耗范疇為155W~500W。

它支持AVX-512全寬512位數(shù)據(jù)路徑、128 PCIe 5.0/CXL 2.0、DDR5-6400MT/s內(nèi)存速率，提升頻率高達(dá)5GHz，機(jī)密計(jì)算的可信I/O和FIPS認(rèn)證正在進(jìn)行中。

與“Zen 4”相比，“Zen 5”核心架構(gòu)為企業(yè)和云計(jì)算工作負(fù)載提供了提升17%的IPC（每時鐘指令數(shù)），為AI和HPC提供了提升37%的IPC。

在SPEC CPU 2017基準(zhǔn)測試中，192核EPYC 9965的整數(shù)吞吐量是64核至強(qiáng)8592+的2.7倍，32核EPYC 9355的每核心性能是32核6548Y+的1.4倍。

跑視頻轉(zhuǎn)碼、商用App、開源數(shù)據(jù)庫、圖像渲染等商用工作負(fù)載時，192核EPYC 9965的性能達(dá)到64核至強(qiáng)8592+性能的3~4倍。

在處理開源的HPC密集線性求解器、建模和仿真任務(wù)時，EPYC 9965的性能可達(dá)到至強(qiáng)8592+性能的2.1~3.9倍。

達(dá)到相同性能，第五代EPYC所需的服務(wù)器數(shù)量更少，有助于降低數(shù)據(jù)中心的TCO（總擁有成本）以及節(jié)省空間和能源。

例如，要達(dá)到總共391000個單位的SPECrate 2017_int_base性能得分，相比1000臺搭載英特爾至強(qiáng)鉑金8280的服務(wù)器，現(xiàn)在131臺搭載AMD EPYC 9965的現(xiàn)代服務(wù)器就能實(shí)現(xiàn)，功耗、3年TCO均顯著減少。

通過優(yōu)化的CPU+GPU解決方案，AMD EPYC CPU不僅能處理傳統(tǒng)通用目的的計(jì)算，而且能勝任AI推理，還能作為AI主機(jī)處理器。

相比64核至強(qiáng)8592+，192核EPYC 9965在運(yùn)行機(jī)器學(xué)習(xí)、端到端AI、相似搜索、大語言模型等工作負(fù)載時，推理性能提升多達(dá)1.9~3.8倍。

AMD EPYC 9005系列的新產(chǎn)品是64核EPYC 9575F，專為需要終極主機(jī)CPU能力的GPU驅(qū)動AI解決方案量身定制。

與競爭對手的3.8GHz處理器相比，專用AI主機(jī)的CPU EPYC 9575F提供了高達(dá)5GHz的提升，可將GPU編排任務(wù)的處理速度提高28%。

面向企業(yè)級HPC工作負(fù)載，64核EPYC 9575F的FEA仿真和CFD仿真&建模的性能，可提升至64核至強(qiáng)8592的1.6倍。

EPYC 9575F可使用其5GHz的最大頻率提升來助力1000個節(jié)點(diǎn)的AI集群每秒驅(qū)動多達(dá)70萬個推理token。同樣搭配MI300X GPU，與64核至強(qiáng)8592+相比，EPYC 9575F將GPU系統(tǒng)訓(xùn)練Stable Diffusion XL v2文生圖模型的性能提升20%。

搭配Instinct系列GPU的AMD EPYC AI主機(jī)CPU型號如下：

同樣搭配英偉達(dá)H100，EPYC 9575F可將GPU系統(tǒng)的推理性能、訓(xùn)練性能分別相比至強(qiáng)8592+提升20%、15%。

與英偉達(dá)GPU系統(tǒng)適配的AMD EPYC AI主機(jī)CPU型號如下：

將EPYC用于計(jì)算與AI混合工作負(fù)載時，相比至強(qiáng)鉑金8592+，EPYC 9654+2張Instinct MI210在處理50%通用計(jì)算+50% AI的混合任務(wù)時，每美元性能可提升多達(dá)2倍。

04.

企業(yè)級AI PC處理器：

升級“Zen 5”架構(gòu)，AI算力最高55TOPS

AI PC給企業(yè)生產(chǎn)力、身臨其境的遠(yuǎn)程協(xié)作、創(chuàng)作與編輯、個人AI助理都帶來了全新轉(zhuǎn)型體驗(yàn)。

繼今年6月推出第三代AI移動處理器銳龍AI 300系列處理器（代號“Strix Point”）后，今日AMD宣布推出銳龍AI PRO 300系列。

該處理器專為提高企業(yè)生產(chǎn)力而設(shè)計(jì)，采用4nm工藝、“Zen 5”CPU架構(gòu)（最多12核、24個線程）、RDNA 3.5GPU架構(gòu)（最多16個計(jì)算單元），支持Copilot+功能，包括電話會議實(shí)時字幕、語言翻譯、AI圖像生成等。

其內(nèi)置NPU可提供50-55TOPS的AI處理能力。

40TOPS是微軟Copilot+ AI PC的基準(zhǔn)要求。相比之下，蘋果M4、AMD銳龍PRO 8040系列、英特爾酷睿Ultra 100系列的NPU算力分別為38TOPS、16TOPS、11TOPS。

與英特爾酷睿Ultra 7 165H相比，旗艦銳龍AI 9 HX PRO 375的多線程性能提高了40%，辦公生產(chǎn)力提高了14%，支持更長續(xù)航。

銳龍AI PRO 300系列采用AMD PRO技術(shù)，提供世界級領(lǐng)先的安全性和可管理性，旨在簡化IT運(yùn)營及部署并確保企業(yè)獲得卓越的投資回報率。

由搭載銳龍AI PRO 300系列的OEM系統(tǒng)預(yù)計(jì)將于今年晚些時候上市。

AMD也擴(kuò)展了其PRO技術(shù)陣容，具有新的安全性和可管理性功能。配備AMD PRO技術(shù)的移動商用處理器現(xiàn)有云裸機(jī)恢復(fù)的標(biāo)準(zhǔn)配置，支持IT團(tuán)隊(duì)通過云無縫恢復(fù)系統(tǒng)，確保平穩(wěn)和持續(xù)的操作；提供一個新的供應(yīng)鏈安全功能，實(shí)現(xiàn)整個供應(yīng)鏈的可追溯性；看門狗定時器，提供額外的檢測和恢復(fù)過程，為系統(tǒng)提供彈性支持。

通過AMD PRO技術(shù)，還能實(shí)現(xiàn)額外的基于AI的惡意軟件檢測。這些全新的安全特性利用集成的NPU來運(yùn)行基于AI的安全工作負(fù)載，不會影響日常性能。

05.

結(jié)語：AMD正在數(shù)據(jù)中心市場攻勢兇猛

AMD正沿著路線圖，加速將AI基礎(chǔ)設(shè)施所需的各種高性能AI解決方案推向市場，并不斷證明它能夠提供滿足數(shù)據(jù)中心需求的多元化解決方案。

AI已經(jīng)成為AMD戰(zhàn)略布局的焦點(diǎn)。今日新發(fā)布的Instinct加速器、EPYC服務(wù)器CPU、Pensando網(wǎng)卡&DPU、銳龍AI PRO 300系列處理器，與持續(xù)增長的開放軟件生態(tài)系統(tǒng)形成了組合拳，有望進(jìn)一步增強(qiáng)AMD在AI基礎(chǔ)設(shè)施競賽中的綜合競爭力。

無論是蠶食服務(wù)器CPU市場，還是新款A(yù)I芯片半年攬金逾10億美元，都展現(xiàn)出這家老牌芯片巨頭在數(shù)據(jù)中心領(lǐng)域的沖勁。緊鑼密鼓的AI芯片產(chǎn)品迭代、快速擴(kuò)張的全棧軟硬件版圖，都令人愈發(fā)期待AMD在AI計(jì)算市場創(chuàng)造出驚喜。

本文來自微信公眾號“智東西”，作者：ZeR0，36氪經(jīng)授權(quán)發(fā)布。