為了滿足AI應用的需求,各地都在積極上馬智算中心。區別于傳統的數據中心,智算中心的建設與運維是一個新的課題,也面臨新的挑戰:智算中心投資規模巨大,平臺能力與運營效率將成為運作的關鍵;從技術和運營的角度來看,智算中心的建設更加專業且復雜;從數據的隱私性和屬地性特征來看,智算中心建設更加分散,運營能力參差不齊;智算中心要更好地支持業務的多樣化。
解決上述問題,關鍵是需要一個算力調度平臺。9月19日,青云科技AI算力調度平臺正式發布。AI算力調度平臺是智算中心運營者的核心工具,它主要面向智算中心現在的投資者和未來的運營者。“濟南超算這樣的成功案例已經說明,我們的AI算力調度平臺具備客戶所需的完整能力;三年前,我們就已經具備了開發AI算力調度平臺的能力;我們的AI算力調度平臺得到了實踐檢驗,濟南超算不僅運營得很好,而且還實現了盈利。”林源表示,“這就是青云科技的新機會。作為一家中立的云服務商,青云科技會與生態伙伴緊密協作,站在用戶的背后,提供智算中心所需的產品和服務的支撐,為用戶提供更好的選擇。”
“我們將所有與AI、GPU相關的產品,獨立提出來,并結合以前的整體智算解決方案,最終打造出現在的AI算力調度平臺。”青云科技產品經理苗慧介紹說,“我們的AI算力調度平臺可以實現多區域、多地點,面向不同業務進行算力調度。”
歸納來說,青云科技AI算力調度平臺主要從以下四個維度進行研發和優化:為國內外多種架構的芯片提供支持和優化;所有資源和產品一旦進入云平臺,青云科技就會提供全生命周期的管理;面向AIGC,青云科技做了大量業務化的實踐;實現更多的自動化,讓非計算機行業的用戶也能一鍵運行其數據、業務和模型等。
本次發布的青云科技AI算力調度平臺具有九大關鍵能力:多區多業務資源整合、混合組網、容器推理服務平臺、分布式調度與管理、算法開發支持、模型倉庫(MaaS)、AI訓練平臺、靈活調度、高速并行存儲。
相比其他的AI調度平臺,青云科技AI算力調度平臺的差異化具體表現在:針對大集群(比如上百臺機器的集群),青云科技研發了更加優化的調度算法,比如在親和政策、反親和政策以及調度的鏈路標簽上,做到盡可能地調度同一個交換機,讓數據少繞路; 在應用環境上,青云科技采用Kubernetes和Slurm兩種調度平臺同時為客戶服務,并且是完全集成好的,在顆粒度和運維傳統機器方面也有更多優化。