12 月 7 日消息,AMD 今天凌晨 2 點舉辦“Advancing AI”活動中,正式宣布了旗艦 AI GPU 加速器 MI300X,其性能比英偉達的 H100 高出 60%。
性能:
AMD 公司在演講過程中,對比英偉達的 H100 加速卡,分享了 MI300X 的性能參數情況,IT之家附上數值如下:
內存容量是 H100 的 2.4 倍
內存帶寬是 H100 的 1.6 倍
FP8 TFLOPS 精度是 H100 的 1.3 倍
FP16 TFLOPS 精度是 H100 的 1.3 倍
在 1v1 比較中,訓練 Llama 2 70B 模型速度比 H100 快 20%
在 1v1 比較中,訓練 FlashAttention 2 模型速度比 H100 快 20%
在 8v8 Server 比較中,訓練 Llama 2 70B 模型速度比 H100 快 40%
在 8v8 Server 比較中,訓練 Bloom 176B 模型速度比 H100 快 60%
AMD 提到,在訓練性能方面,MI300X 與競爭對手(H100)不相上下,并提供具有競爭力的價格 / 性能,同時在推理工作負載方面表現更為出色。
MI300X AI 加速卡軟件堆棧升至 ROCm 6.0,改善支持生成式 AI 和大型語言模型。
新的軟件堆棧支持最新的計算格式,如 FP16、Bf16 和 FP8(包括 Sparsity)。
架構:
AMD Instinct MI300X 是最受關注的芯片,因為它針對的是 AI 領域的 NVIDIA 的 Hopper 和英特爾的 Gaudi 加速器。
該芯片完全基于 CDNA 3 架構設計,混合使用 5nm 和 6nm IP,AMD 組合這些 IP,讓其晶體管數量達到 1530 億個。
設計方面,主中介層采用無源芯片布局,該芯片使用第 4 代 Infinity Fabric 解決方案容納互連層。中介層總共包括 28 個芯片,其中包括 8 個 HBM3 封裝、16 個 HBM 封裝之間的虛擬芯片和 4 個有源芯片,每個有源芯片都有 2 個計算芯片。
每個基于 CDNA 3 GPU 架構的 GCD 總共有 40 個計算單元,相當于 2560 個內核。總共有八個計算芯片 (GCD),因此總共有 320 個計算和 20,480 個核心單元。在良率方面,AMD 將縮減這些內核的一小部分,我們將看到總共 304 個計算單元(每個 GPU 小芯片 38 個 CU),總共有 19,456 個流處理器。
內存方面,MI300X 采用 HBM3 內存,容量最高 192GB,比前代 MI250X(128 GB)高 50%。該內存將提供高達 5.3 TB / s 的帶寬和 896 GB/s 的 Infinity Fabric 帶寬。
AMD 為 MI300X 配備了 8 個 HBM3 堆棧,每個堆棧為 12-Hi,同時集成了 16 Gb IC,每個 IC 為 2 GB 容量或每個堆棧 24 GB。
相比之下,NVIDIA 即將推出的 H200 AI 加速器提供 141 GB 容量,而英特爾的 Gaudi 3 將提供 144 GB 容量。
在功耗方面,AMD Instinct MI300X 的額定功率為 750W,比 Instinct MI250X 的 500W 增加了 50%,比 NVIDIA H200 增加了 50W。
其中一種配置是技嘉的 G593-ZX1 / ZX2 系列服務器,提供多達 8 個 MI300X GPU 加速器和兩個 AMD EPYC 9004 CPU。這些系統將配備多達 8 個 3000W 電源,總功率為 18000W。
【來源:IT之家】