6 月 13 日消息,據 tomshardware 報道,當 Tachyum 在 Hot Chips 18 上推出其 Prodigy 通用處理器的概念時,它的芯片設計允許使用動態二進制轉換器運行任何代碼,這引起了轟動。它在執行本機代碼和翻譯代碼時表現出了高性能。Tachyum 公司花了一段時間來設計實際的硬件,接受評估套件的預訂;該公司還披露了其 Prodigy 確切規格。它們看起來確實令人印象深刻,但每個芯片 950W 的散熱設計功率(TDP)也令人恐懼。
每個 Tachyum Prodigy 處理器具有多達 128 個專有內核,與 16 個 DDR5 內存通道(用于 1024 位接口)配合,支持高達 7200 MT / s 的數據傳輸率(因此提供高達 921.6 GBps 的帶寬)以及 64 個 PCIe 5.0 通道。此外,該芯片總共支持高達 8TB 的 DDR5 內存,這與其他制造商即將推出的服務器 CPU 一致。至于時鐘頻率,Tachyum 的 Prodigy 設計運行頻率高達 5.7 GHz,是臺積電性能優化的 N5P 工藝技術的產物。
在性能方面,Tachyum 預計其旗艦 Prodigy T16128-AIX 處理器可為 HPC 提供高達 90 FP64 TFLOPS 以及高達 12 “AI PetaFLOPS”用于推理和訓練,(大概是在運行本機代碼時)根據發布的規格功耗高達 950W(并使用液體冷卻)。同時,Tachyum 的 Prodigy 處理器可以在 2 路和 4 路配置下工作。作為對比,AMD 的 Instinct MI250X 在大約 560W 的 HPC 中具有 96 FP64 TFLOPS 的峰值吞吐量。相比之下,Nvidia 的 H100 SXM5 可以在 700W 下為 AI 提供高達 20 INT8 / FP8 PetaOPS / PetaFLOPS(稀疏時高達 40 PetaOPS / PetaFLOPS)。然而,計算 GPU 都不能用于通用工作負載。這正是它變得有趣的時候。
Tachyum 的 Prodigy 是一款通用同質處理器,最多可容納 128 個專有的 64 位 VLIW 內核,每個內核具有兩個 1024 位矢量單元和一個 4096 位矩陣單元。此外,每個內核都有一個 64KB 指令緩存、一個 64KB 數據緩存、1MB L2 緩存,并且可以利用其他內核未使用的 L2 緩存作為 L3 緩存。
Tachyum 首席執行官兼聯合創始人 Radoslav Danilak 與 Golem.de 交談時表示,Tachyum 的 VLIW 內核是有序內核,但當編譯器制造商進行適當優化時,它們可以支持 4 路無序。他還再次強調,Prodigy 指令集架構可以通過使用所謂的 poison bits 軟件實現非常高的指令級并行性。
據該公司稱,這些內核運行為 Prodigy(VLIW 架構有望大放異彩)以及 x86、Arm 和 RISC-V 二進制文件編寫并明確優化的本機代碼,使用軟件仿真并且不會降低性能。從歷史上看,所有讓 VLIW 處理器執行 x86 代碼的嘗試都失敗了(例如,Transmeta 的 Crusoe、Intel 的 Itanium),主要是因為特定的 CPU 架構和仿真效率低下。Tachyum 負責人承認,Qemu 二進制翻譯將性能降低了 30% 到 40%(沒有透露任何基準),但希望現實世界的性能仍然足夠高以具有競爭力。同時,一些程序已經原生支持。
“我們原生支持 GCC 和 Linux,而且 FreeBSD 現在也可以在 Prodigy 上運行,”Danilak 說。“Apache、MongoDB 或 Python 已經原生運行,Pytorch 和 Tensorflow 框架也可用。”
Tachyum 強調,Prodigy 不是加速器,而是真正的 CPU,將與 AMD、Intel 和其他公司競爭。為確保該處理器能夠在通用和 AI 工作負載中提供具有競爭力的性能,該公司自 2018 年首次推出以來對其設計實施進行了大量更改。
“我們是 CPU 替代品,而不是 AI 加速器公司,我們的目標是云 / 超大規模和電信公司,”Danilak 說。“隨著時間的推移,我們計劃贏得一些超級計算機客戶,因此我們將向量 / MAC 單元的寬度從 512 位增加到 1024 位(這也為人工智能的 4096 位矩陣運算帶來了必要的數據路徑)。”
事實上,Tachyum 的 Prodigy 承諾的特別優勢是它能夠執行不同類型的代碼。假設它可以在執行通用工作負載(即時 ces),它可能會為亞馬遜 AWS、微軟 Azure 等提供一些額外的靈活性,因為如果需要的話,它們將能夠為 AI、HPC 和通用實例使用相同的機器。當然,它需要來自不同方的一些實際軟件工作,這可能會奏效,至少在理論上可以。
應該指出的是,Tachyum 仍然沒有任何 Prodigy 芯片。因此,所有的性能預測都是模擬的產物,而公司現在唯一擁有的是其處理器的 FPGA 原型。
與此同時,Tachyum 公司最近開始接受 Tachyum 的 Prodigy 評估平臺的預訂,該平臺將使用一些 Prodigy 芯片。客戶必須在 2022 年 7 月 31 日之前下訂單,實際硬件交付時間約為“收到訂單后的六到九個月”。
如果一切按計劃進行,Tachyum 預計將在 8 月中旬流片出第一個 Prodigy 芯片(可能小于 500 mm^2)。在那之后,該公司預計將在 12 月左右獲得其芯片的第一批樣品,如果芯片工作正常,該公司計劃開始提供樣品(即發送評估套件)。通常,芯片從晶圓廠返回后大約需要一年時間。盡管如此,Tachyum 仍希望其首款處理器能夠按計劃工作,并能夠在 2023 年上半年開始實際量產。
未來,Danilak 設想 Prodigy 2 處理器使用臺積電 N3 節點之一制造,該處理器將以相同的功率提供兩倍的性能以及 PCIe Gen6 支持。
【來源:IT之家】