【ITBEAR科技資訊】6月28日消息,AI技術的蓬勃發展使得NVIDIA的顯卡成為市場上備受矚目的熱門產品。尤其是高端的H100加速卡,其售價超過25萬元,然而市場供不應求。該加速卡的性能也非常驚人,最新的AI測試結果顯示,基于GPT-3的大語言模型訓練任務刷新了記錄,完成時間僅為11分鐘。
據ITBEAR科技資訊了解,機器學習及人工智能領域的開放產業聯盟MLCommons發布了最新的MLPerf基準評測。其中包括8個負載測試,其中就包含基于GPT-3開源模型的LLM大語言模型測試,這對于評估平臺的AI性能提出了很高的要求。
參與測試的NVIDIA平臺由896個Intel至強8462Y+處理器和3584個H100加速卡組成,是所有參與平臺中唯一能夠完成所有測試的。并且,NVIDIA平臺刷新了記錄。在關鍵的基于GPT-3的大語言模型訓練任務中,H100平臺僅用了10.94分鐘,與之相比,采用96個至強8380處理器和96個Habana Gaudi2 AI芯片構建的Intel平臺完成同樣測試所需的時間為311.94分鐘。
H100平臺的性能幾乎是Intel平臺的30倍,當然,兩套平臺的規模存在很大差異。但即便只使用768個H100加速卡進行訓練,所需時間仍然只有45.6分鐘,遠遠超過采用Intel平臺的AI芯片。
H100加速卡采用GH100 GPU核心,定制版臺積電4nm工藝制造,擁有800億個晶體管。它集成了18432個CUDA核心、576個張量核心和60MB的二級緩存,支持6144-bit HBM高帶寬內存以及PCIe 5.0接口。
H100計算卡提供SXM和PCIe 5.0兩種樣式。SXM版本擁有15872個CUDA核心和528個Tensor核心,而PCIe 5.0版本則擁有14952個CUDA核心和456個Tensor核心。該卡的功耗最高可達700W。
就性能而言,H100加速卡在FP64/FP32計算方面能夠達到每秒60萬億次的計算能力,而在FP16計算方面達到每秒2000萬億次的計算能力。此外,它還支持TF32計算,每秒可達到1000萬億次,是A100的三倍。而在FP8計算方面,H100加速卡的性能可達每秒4000萬億次,是A100的六倍。