事關CUDA兼容，英偉達禁止了？-魔扣目錄

其實自 2021 年以來，Nvidia 就已經在其在線列出的許可條款中禁止使用翻譯層（translation layers）在其他硬件平臺上運行基于 CUDA 的軟件，但之前的警告并未包含在安裝過程中放置在主機系統上的文檔。

但據報道，最近，這個描述已添加到安裝 CUDA 11.6 及更高版本時包含的 EULA 中。該限制似乎旨在阻止英特爾和 AMD 最近參與的ZLUDA等計劃，或許更關鍵的是，一些中國 GPU 制造商利用帶有翻譯層的 CUDA 代碼。

軟件工程師Longhorn注意到了這些術語。安裝的 EULA 文本文件中的一個條款寫道：“您不得對使用 SDK 元素生成的輸出的任何部分進行逆向工程、反編譯或反匯編，以將此類輸出工件轉換為目標非 NVIDIA 平臺。” （You may not reverse engineer, decompile or disassemble any portion of the output generated using SDK elements for the purpose of translating such output artifacts to target a non-NVIDIA platform.,"）

與 CUDA 11.4 和 11.5 版本一起安裝的 EULA 文檔中不存在該條款，并且可能包含該版本之前的所有版本。但是，它存在于 11.6 及更高版本的安裝文檔中。

作為一個領導者，這有好的一面，也有壞的一面。一方面，每個人都依賴你；另一方面，每個人都想站在你的肩膀上。后者顯然是 CUDA 所發生的情況。由于 CUDA 和 Nvidia 硬件的組合已被證明非常高效，因此大量程序都依賴它。

然而，隨著更多有競爭力的硬件進入市場，更多的用戶傾向于在競爭平臺上運行他們的 CUDA 程序。有兩種方法可以做到這一點：重新編譯代碼（可供各個程序的開發人員使用）或使用翻譯層。

出于顯而易見的原因，使用ZLUDA 這樣的轉換層是在非 Nvidia 硬件上運行 CUDA 程序的最簡單方法。我們所要做的就是獲取已編譯的二進制文件并使用 ZLUDA 或其他轉換層運行它們。

但ZLUDA 現在似乎陷入困境，AMD 和英特爾都放棄了進一步開發它的機會，但這并不意味著翻譯不可行。

出于顯而易見的原因，使用轉換層威脅到了 Nvidia 在加速計算領域的霸權，特別是在人工智能應用方面。這可能是 Nvidia 決定禁止使用翻譯層在其他硬件平臺上運行 CUDA 應用程序的推動力。

重新編譯現有的 CUDA 程序仍然完全合法。為了簡化這一點，AMD 和 Intel 都有工具分別將 CUDA 程序移植到他們的 ROCm和 OpenAPI平臺。

隨著 AMD、英特爾、Tenstorrent 和其他公司開發出更好的硬件，更多的軟件開發人員將傾向于為這些平臺進行設計，而 Nvidia 的 CUDA 主導地位可能會隨著時間的推移而減弱。

此外，專門為特定處理器開發和編譯的程序將不可避免地比通過翻譯層運行的軟件運行得更好，這意味著 AMD、英特爾、Tenstorrent 和其他公司能夠在與 Nvidia 的競爭中獲得更好的競爭地位——如果他們能夠吸引軟件開發人員加入的話。

GPGPU仍然是一個重要且競爭激烈的競技場，我們將密切關注未來事態的進展。

ZLUDA，一個有雄心的項目

早在2020年，一個名為ZLUDA的項目被描述為“英特爾 GPU 上 CUDA 的直接替代品”，它正在威脅 Nvidia 專有的 CUDA（統一計算設備架構）生態系統。

該獨立項目（并非由AMD或Intel推動）當時已經提供了在非 Nvidia 顯卡上運行未更改的 CUDA 應用程序的概念證明。

ZLUDA 的基礎正是英特爾的oneAPI Level Zero規范。這是一個私人項目，與英特爾或英偉達沒有任何關系。在剛發起的時候，ZLUDA 仍處于早期階段，缺乏完整的 CUDA 支持。因此，許多 CUDA 應用程序無法與 ZLUDA 一起使用。

但ZLUDA 的創建者當時聲稱，它提供了“接近原生”的性能，暗示幾乎沒有性能損失。他提供了Intel Core i7-8700K的 GeekBench 5.2.3 結果，該處理器配備 Intel 的 UHD Graphics 630 iGPU，并運行 OpenCL 和 ZLUDA。對于后者，作者欺騙 GeekBench 認為 Intel iGPU 是速度較慢的 Nvidia GPU。然而，結果來自相同的 iGPU。

結果表明，與 OpenCL 性能相比，ZLUDA 的性能提高了 10%。總體而言，我們預計較基準組提高 4%左右。

作者明確表示，ZLUDA 與 AMD HIP 或 Intel DPC++ 完全不同，因為后兩者是程序員將應用程序移植到所選特定 API 的工具。另一方面，ZLUDA 不需要任何額外的工作，因為 CUDA 應用程序只需在 Intel GPU 上運行。當然，只要支持 CUDA 子集即可。

經過幾年的發展，該項目同樣支持了AMD的GPU。據了解，今天的 ZLUDA 與 2020 年的版本有很大不同。它不是基于英特爾的 oneAPI 構建并包括對該公司 GPU 的支持，而是基于 AMD 的競爭 ROCm 解決方案，并且僅支持 Radeon GPU。目前還不完全清楚為什么英特爾的支持被取消，但這可能與 ZLUDA 2020 版本僅支持 Xe 之前的集成顯卡有關。當 Arc Alchemist GPU 于 2022 年問世時，項目開發者Janik 已與 AMD 合作。開發人員也表示，ZLUDA“僅可能收到運行我個人感興趣的工作負載 (DLSS) 的更新”，這意味著該項目或多或少已經完成。Janik 的最終目標似乎是獲得英特爾或 AMD 的支持。

但進入今年二月中，有消息指出，該項目似乎不會進行進一步的工作，至少不會進行重大更新，ZLUDA 開發人員 Andrzej Janik（代號 vosen）表示，隨著這兩家公司（Intel和AMD）退出，他表示“我們已經沒有 GPU 公司了”。

“實際上，該項目現在已經被放棄了。”Janik說。

由此可見，英特爾和 AMD 對讓其 GPU 與現有 CUDA 生態系統兼容不感興趣，這一點很能說明問題。看起來他們更愿意與帶有 oneAPI 和 ROCm 的 CUDA 正面交鋒，它們更新且開發程度較低，但擁有開源的好處。

迄今為止，CUDA 仍然是專業和數據中心圖形軟件中更流行的解決方案，目前尚不清楚這種情況是否會很快改變，特別是如果 Nvidia 的 GPU 在功能和性能方面繼續領先英特爾和 AMD 的話。

打破CUDA霸權？

關于CUDA霸權這個論調，已經不是什么新鮮事了。

例如英特爾首席執行官帕特·基辛格 (Pat Gelsinger)在去年年底于紐約舉行的一次活動中首先對 Nvidia 的 CUDA 技術大加贊賞，并聲稱推理技術將比人工智能訓練更重要。但在接受提問時，基辛格表示 Nvidia 在訓練方面的 CUDA 主導地位不會永遠持續下去。

他同時說道，“你知道，整個行業都在積極消除 CUDA 市場，”基辛格說。他列舉了 MLIR、 Google和 OpenAI等例子，暗示他們正在轉向“Pythonic 編程層”，以使 AI 訓練更加開放。

英特爾 CTO Greg Lavender在2023年9月的一個演講中更是毫不掩飾地打趣道：“我將向所有開發人員提出一個挑戰。讓我們使用大模型和 Copilot 等技術來訓練機器學習模型，將所有 CUDA 代碼轉換為 SYCL。”（原文：I'll just throw out a challenge to all the developers. Let's use LLMs and technologies like Copilot to train a machine learning model to convert all your CUDA code to SYCL）。

其中的SYCL 就是英特爾為打破 CUDA 對 AI 軟件生態系統束縛做得的最新舉措。據介紹，SYCL（或更具體地說 SYCLomatic）是一個免版稅的跨架構抽象層，為英特爾的并行 C++ 編程語言提供支持。簡而言之，在將 CUDA 代碼移植為可在非 Nvidia 加速器上運行的過程中，SYCL 處理大部分繁重工作（據稱高達 95%）。但正如您所期望的那樣，通常需要進行一些微調和調整才能使應用程序全速運行。

當然，，SYCL 絕不是編寫與加速器無關的代碼的唯一方法。如Curley 所說，OpenAI 的 Triton 或 Google 的 Jax 等框架就是其中兩個例子。

AMD CEO Lisa Su在接受采訪談到英偉達CUDA是表示，不相信護城河。她直言，像 PyTorch 這樣的東西往往具有與硬件無關的功能。她同時指出，這意味著現在在 PyTorch 上運行 CUDA 的任何人都可以在 AMD 上運行，因為我們已經在那里完成了工作。坦率地說，它也可以在其他硬件上運行。

在去年的Advancing AI 大會上，AMD總裁Victor Peng就介紹了并行計算框架的最新版本ROCm 6，該框架專門針對 AMD Instinct 的綜合軟件堆棧進行了優化，特別適合生成 AI 中的大型語言模型。

專注于微調大型語言模型的初創公司 Lamini 則透露，它已經“秘密地在 100 多個AMD Instinct MI200 系列 GPU 上運行，并表示該芯片設計商的 ROCm 軟件平臺“已經實現了與 Nvidia 針對此類模型的主導 CUDA 平臺的軟件對等（software parity）。

曾從事 x86、Arm、MISC 和 RISC-V 處理器研究的傳奇處理器架構師Jim Keller早前也批評了Nvidia 的 CUDA架構和軟件堆棧，并將其比作 x86，他稱之為沼澤。他指出，就連英偉達本身也有多個專用軟件包，出于性能原因，這些軟件包依賴于開源框架。

keller在后續帖子中寫道。“如果你確實編寫 CUDA，它可能不會很快。[...] Triton、Tensor RT、Neon 和 Mojo 的存在是有充分理由的。”

即使在Nvidia 本身，也有不完全依賴 CUDA 的工具。例如，Triton Inference Server 是 Nvidia 的一款開源工具，可簡化 AI 模型的大規模部署，支持 TensorFlow、PyTorch 和 ONNX 等框架。Triton 還提供模型版本控制、多模型服務和并發模型執行等功能，以優化 GPU 和 CPU 資源的利用率。

Semianalysis作者Dylan Patel之前在一篇文章中也強調，隨著 PyTorch 2.0 和 OpenAI Triton 的到來，英偉達在這一領域的主導地位正在被打破。具體可參考文章《CUDA正在被趕下神壇》。

作為讀者，你是如何看英偉達這個決定和CUDA的未來啊？

【來源：半導體行業觀察】

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

事關CUDA兼容，英偉達禁止了？

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03