在 KubeCon + CloudNativeCon + Open Source Summit China 2021 大會上, 英特爾®有多場技術分享,這里要給大家特別推薦的一場分享為:
Friday, December 10 • 11:20 - 11:55
深入研究:基于 CRI-RM 的中央處理器和非統(tǒng)一內存訪問架構親和性實現(xiàn)人工智能任務加速
歡迎大家來交流。
在這個議題中,演講嘉賓將就開源項目 CRI-RM 以及它在浪潮 AIStation 的實際應用跟大家分享。
CRI-RM(Container Runtime Interface, Resource manager), 是英特爾®初創(chuàng)的一個開源項目,其目的是通過在節(jié)點上的動態(tài)劃分系統(tǒng)資源,配合 Kubernetes 調度器,實現(xiàn)在節(jié)點層面上的最優(yōu)任務編排,把 Intel® 平臺的特性完美的適配到 Kubernetes 的集群環(huán)境里。
AIStation 是浪潮發(fā)布的人工智能開發(fā)平臺,面向深度學習開發(fā)訓練場景,全面整合 AI 計算資源、訓練數(shù)據(jù)資源以及 AI 開發(fā)工具。
隨著 AI 技術創(chuàng)新、場景化 AI 應用持續(xù)落地,越來越多的企業(yè)開始嘗試搭建 AI 平臺,進行 AI 技術開發(fā)、模型訓練,并將其應用到業(yè)務流程之中。但是,AI 平臺的搭建并非一蹴而就。從 AI 模型的開發(fā),到最終進入到生產部署階段,企業(yè)將面臨資源管理、模型測試等帶來的不同挑戰(zhàn),同時還需要能夠充分發(fā)揮 CPU 等硬件的性能潛力,提升 AI 訓練性能。
浪潮與英特爾合作,利用基于容器運行時接口的資源管理器 CRI-RM 進行了 AI 訓練加速實踐,可以在 K8s 集群上,按照拓撲資源實現(xiàn)物理主機的最優(yōu)分配,從而突破使用 K8s 原生 CPU 管理機制所帶來的性能瓶頸,大幅提升 AI 計算的性能。
AI 模型訓練進入云原生時代,算力挑戰(zhàn)浮出水面,提到 AI 模型訓練,不少開發(fā)者腦海中浮現(xiàn)出的是繁瑣的資源申請與管理流程、巨大的算力消耗、漫長的模型訓練時間……而云原生技術的出現(xiàn),能夠在很大程度上化解 AI 資源的調度難題。通過 K8s ,企業(yè)將能夠管理云平臺中多個主機上的容器化應用,實現(xiàn) AI 資源的統(tǒng)一部署、規(guī)劃、更新和維護,能夠有效提高用戶的 AI 資源管理率,提升平臺的可管理性、可擴展性、彈性與可用性。
浪潮 AIStation 應運而生。面向人工智能企業(yè)訓練開發(fā)與服務部署場景,浪潮 AIStation包含完整的模型開發(fā)、訓練和部署全流程,可視化開發(fā)、集中化管理等特性,能夠為用戶提供高性能的 AI 計算資源,實現(xiàn)高效的計算力支撐、精準的資源管理和調度、敏捷的數(shù)據(jù)整合及加速、流程化的 AI 場景及業(yè)務整合。
圖:浪潮 AIStation V3 架構圖
要通過 AIStation 構建 AI 應用平臺,需要進行的一個重要抉擇便是:算力如何提供?雖然GPU 被普遍用于 AI 訓練,但這并不意味著 GPU 是唯一選擇。事實上,在大量的行業(yè)場景中,用戶希望充分利用既有的 CPU 計算資源,靈活地滿足 AI 等多種負載的要求,同時減少資本支出。 但是,在 K8s 集群上使用 CPU 進行訓練,用戶會遇到一定的性能瓶頸。這是因為 K8s 原生的 CPU 管理機制沒有考慮 CPU 綁定與 NUMA 親和性,高版本的 K8s 只會對 QOS 為 Guaranteed 的 Pod 生效,這可能會導致 CPU 在 AI 訓練中無法充分發(fā)揮性能。
CRI-RM 優(yōu)化助力浪潮 AIStation 突破性能瓶頸,在發(fā)現(xiàn) K8s 集群上的 AI 算力瓶頸之后,浪潮與英特爾展開了深入合作,使用 CRI-RM(基于容器運行時接口的資源管理器)技術對 K8s 進行了優(yōu)化。該組件可以插在 Kubelet 和 Container Runtime(CR) 之間,截取來自 Kubelet CRI 協(xié)議的請求,扮演 CR 的非透明代理,跟蹤所有集群節(jié)點容器狀態(tài),能夠更好地將處理器、內存、IO 外設和內存控制器等資源分配給應用負載,從而有效提升性能表現(xiàn)。
在TensorFlow CNN測試用例中,這一優(yōu)化被證明能夠實現(xiàn)高達 57.76% 的性能提升[1]。這意味著在未對硬件配置進行更新的前提下,CRI-RM 的應用會帶來大幅度的性能提升,使得用戶無需在進行硬件投入便能夠獲得可觀的 AI 訓練性能提升,從而提高基礎設施的利用效率,并節(jié)約總體擁有成本 (TCO)。
圖:使用 CRI-RM 進行優(yōu)化前后的性能對比
(Tensorflow | model: customized cnn,越低越好)
在此次優(yōu)化的基礎上,浪潮與英特爾還在探索在基于第三代英特爾® 至強® 可擴展處理器的 HPC 集群上進行進一步的性能驗證,并計劃在利用 CPU 進行人工智能推理和訓練方面進行更為廣泛的合作,通過硬件選型、軟件優(yōu)化、系統(tǒng)集成等多種不同的方式,加速從云端到邊緣基礎設施上的人工智能性能表現(xiàn)。
查看完整方案文,請訪問此方案
[1] 數(shù)據(jù)援引自浪潮內部測試結果;測試配置:英特爾至強金牌6132處理器 @ 2.60GHz,28 核,56 線程,192GB內存,Centos 7.8.2003,Kubernetes 1.14.8,Docker 19.03,AIStation 3.1
KubeCon + CloudNativeCon + Open Source Summit China 2021 由云原生計算基金會 CNCF 主辦。作為云原生領域的頂級技術盛會,歷年的 KubeCon + CloudNativeCon + Open Source Summit China 都匯聚了國內外最活躍的開源云原生社區(qū)、最先進的技術代表與行業(yè)的最佳落地實踐,推動云原生計算領域的知識更新和技術進步。本屆大會的議程安排現(xiàn)已全面上線,更多詳情請查看大會官網。