亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)宣布了一個(gè)新的基于GPU的實(shí)例Amazon P4d的可用性,該實(shí)例基于Nvidia的新Ampere架構(gòu),并且兩家公司都在宣稱性能。
AWS十年來一直提供基于GPU的實(shí)例,最新一代的實(shí)例稱為P3。AWS和Nvidia都聲稱,與P3實(shí)例相比,P4d實(shí)例在機(jī)器學(xué)習(xí)培訓(xùn)和高性能計(jì)算工作負(fù)載方面的性能提高了三倍,成本降低了60%,GPU內(nèi)存增加了2.5倍。
根據(jù)Nvidia的說法,與默認(rèn)的FP32精度相比,使用FP16實(shí)例可以將機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí)間減少三倍,而使用TF32則可以將訓(xùn)練時(shí)間減少多達(dá)六倍,但是還可以訓(xùn)練更大,更復(fù)雜的模型。
這些也是一些重量級(jí)的實(shí)例。在一個(gè)EC2實(shí)例中,具有八個(gè)Nvidia A100 GPU的P4d實(shí)例能夠提供高達(dá)2.5 petaflops的混合精度性能和320GB的高帶寬GPU內(nèi)存。AWS表示,P4d實(shí)例是第一個(gè)通過Elastic Fabric Adapter(EFA)和Nvidia GPUDirect RDMA網(wǎng)絡(luò)接口提供400 Gbps網(wǎng)絡(luò)帶寬的設(shè)備,以實(shí)現(xiàn)跨服務(wù)器的GPU之間的直接通信,從而降低延遲和提高擴(kuò)展效率。
每個(gè)P4d實(shí)例還提供96個(gè)Intel Xeon可擴(kuò)展(級(jí)聯(lián)湖)vCPU,1.1TB系統(tǒng)內(nèi)存和8TB本地NVMe存儲(chǔ),以減少單節(jié)點(diǎn)訓(xùn)練時(shí)間。通過將上一代P3實(shí)例的性能提高一倍以上,P4d實(shí)例可以將訓(xùn)練機(jī)器學(xué)習(xí)模型的成本降低多達(dá)60%。
“隨著數(shù)據(jù)變得越來越豐富,客戶正在訓(xùn)練具有數(shù)百萬甚至數(shù)十億個(gè)參數(shù)的模型,例如用于自然語言處理以進(jìn)行文檔摘要和問題解答,用于自動(dòng)駕駛汽車的對(duì)象檢測和分類,用于大規(guī)模內(nèi)容審核的圖像分類等參數(shù),電子商務(wù)網(wǎng)站的推薦引擎,以及智能搜索引擎的排名算法,所有這些都需要增加網(wǎng)絡(luò)吞吐量和GPU內(nèi)存。” AWS在一份聲明中說。
該公司表示,客戶可以使用帶有Amazon Elastic Kubernetes服務(wù)(Amazon EKS)或Amazon Elastic Container Service(Amazon ECS)庫的AWS深度學(xué)習(xí)容器運(yùn)行P4d實(shí)例。為了獲得更全面的管理體驗(yàn),客戶可以通過Amazon SageMaker使用P4d實(shí)例,該實(shí)例旨在幫助開發(fā)人員和數(shù)據(jù)科學(xué)家快速構(gòu)建,訓(xùn)練和部署ML模型。
HPC客戶可以將AWS Batch和AWS ParallelCluster與P4d實(shí)例結(jié)合使用,以幫助協(xié)調(diào)作業(yè)和集群。P4d實(shí)例支持所有的ML學(xué)習(xí)框架,包括TensorFlow,PyTorch和Apache MXNet,使客戶可以靈活地選擇他們喜歡的框架。
P4d實(shí)例在美國東部(弗吉尼亞北部)和美國西部(俄勒岡)地區(qū)可用,并計(jì)劃在不久的將來提供更多的可用性。AWS實(shí)例的起價(jià)為每小時(shí)32.77美元,但一年保留實(shí)例的價(jià)格降至每小時(shí)19.22美元,三年下來為11.57美元。