2012 年,人工智能(AI)在全球范圍內大普及。經過了十年發展,目前,人工智能在各行各業都有大量的應用,比如基因測序、路況識別、廣告推送、新藥研發、工業仿真、醫學圖像分割等,都需要通過算法建模來驅動業務發展。這必然會用到深度學習,而深度學習通常需要大規模的計算資源 GPU。
一開始,GPU 的使用及管理方式非常粗放,用戶直接在 GPU 機器上進行算法訓練。當 AI 模型越來越多,這種方式會帶來很大的問題,一是模型訓練效率低下,二是 GPU 資源利用率低。
與 CPU 服務器相比,GPU 服務器是非常昂貴的。在降本增效的大背景下,需要一個平臺統一管理。從 2016 年開始,Kubernetes 社區就不斷收到來自不同渠道的大量訴求:希望能在 Kubernetes 集群上運行 TensorFlow 等機器學習框架。目前大型企業在構建基于 GPU 的深度學習訓練平臺時,基本上都是使用 Kubernetes 來管理和調度 GPU 任務。
自建環境使用 GPU 非常繁瑣,涉及到自建 Kubernetes 集群、GPU 驅動安裝、GPU 節點初始化、GPU 節點納管到 Kubernetes 集群等配置工作。選擇一款合適的托管 Kubernetes 服務,一鍵創建 Kubernetes 集群并部署機器學習類應用,不僅可以提高集群資源利用率、保障資源獨享,還可以加速部署,讓構建 AI 應用變得更加簡單快捷!
本次青云科技“云上生長”系列網絡研討會第二期,邀請到了青云科技高級產品經理楊瑩,為大家分享青云QingCloud 容器服務 QKE(QingCloud Kubernetes Engine)如何管理和調度 GPU 資源,高效完成機器學習、深度學習、圖像識別等 AI 計算任務,高性能地承載企業大規模并行計算需求。
楊瑩,青云科技容器服務高級產品經理,負責基于青云云平臺的容器服務產品,以及容器服務相關的鏡像倉庫產品等。曾參與過多款云計算平臺產品建設,如超融合云計算平臺、DevOps 平臺等,對云原生建設有一定經驗。
9 月 27 日(星期二)下午 2:00,青云“云上生長”系列網絡研討會第二期,掃描海報二維碼報名,即有機會獲得熱門技術書籍!
本期抽獎圖書:
1.初學者 AI 入門書:博文視點出品《深度學習框架PyTorch:入門與實踐(第2版)》
2.后端技術人員與基礎平臺工程師必讀:圖靈出品《深入剖析Kubernetes》