三年前,國家超級計算濟南中心(濟南超算)悄悄干了一件大事,投資數十億元致力于打造一個融HPC超算、傳統云計算(以CPU為主)和智算(以GPU為主)為一體的多元算力中心,這就需要一個統一的并且可以對外開放的運維和運營平臺。那時還在打磨階段的青云科技自主研發的AI算力調度平臺,幫助濟南超算建立了從建設到運營的閉環,對CPU、GPU、HPC等不同算力資源進行統一調度與統一運營,很好地支撐了濟南超算的異構算力服務創新。
人工智能的機會來了
濟南超算在算力服務上的創新,其實是我國超算行業持續演進的一個縮影。從以前專注于少數高精尖的科學計算應用,到后來乘云直上,超算云的概念逐漸被業界所接受,到現在從國家層面大力倡導超算互聯網平臺的建設,超算算力正加速開放化、服務化和社會化,變成一種普通企業也能唾手可得的算力資源。
由超算行業反觀整個算力行業的發展,其演進的路徑是一致的。從傳統的物理機時代到虛擬化、云計時代,再過渡到云原生時代,直至當前以AI為驅動的數智化時代,算力以及算力的應用因為云、AI、大模型等的牽引有了翻天覆地的變化。在架構上從以CPU為核心演進到以GPU為核心,在應用上從主要滿足延遲敏感應用的需求發展到“成本敏感+延遲敏感”并重,算力不僅要支撐移動互聯網應用與數字化轉型,更要在人工智能與數智化的雙重挑戰下,充分釋放其澎湃的力量。
實際上,不僅用戶的需求、市場和技術的發展趨勢如此,算力企業自身的成長與成熟也在重復和演繹相同的路徑。以青云科技為例,從2013年開始,移動互聯網的熱潮、公有云服務的興起,催生出一個巨大的增量市場。乘著數字化轉型之東風,青云科技借由私有云迎來了屬于自己的第一波業務增長潮。接著第二波增長潮很快到來,那就是信創及國產化替代,通過提供公有云、私有云和信創全棧云,青云科技在這一波大潮中成功“上岸”(上市)?,F在,第三波浪潮正在席卷而來。不過與前兩波浪潮相比,這一波的浪頭比較急、比較猛,甚至比較寒冷。后疫情時代的不確定性增加,全球經濟發展環境的動蕩等綜合因素,讓過去的增量市場變成了現今的存量市場,甚至是減量市場,企業的競爭與生存更加艱難。包括青云科技在內,所有的廠商都在尋找一個新的確定的機會或者說一個突破點。這就是人工智能。
“人工智能這個市場機會已經來了,而且它一定會帶來一波長達十年以上,而且比過去十年更大的市場需求和機會。”青云科技總裁林源非常肯定且自信地表示,“可以預見,未來AIGC的投入占企業IT投入的比重一定會越來越高,這是客戶與市場的需求共同決定的??蛻魧τ诘讓铀懔Φ囊髸絹碓礁摺H斯ぶ悄軐τ谒懔Φ拇碳ず蛶酉啾仁曛?,一定會有十倍甚至百倍的提升。”
算力將像熱力、電力、水力等資源一樣,變得不可或缺,并成為拉動數字經濟發展的重要引擎。算力企業如何抓住這波AI算力的紅利,這個考驗將十分艱巨。
十年之前與十年之后
“這是最好的時代,也是最壞的時代。”每當有巨大的時代變遷,我們總喜歡引用這句話。當以ChatGPT為代表的生成式AI快速崛起的時候,我們恐怕又要重復這句話了。AI將催生一個全新的算力時代。
雖然我們可能還有這樣或那樣的擔心,但是現在我們必須積極地擁抱AI。為什么?第一,在當前的環境下,所有人都需要一個新的生產工具,以提升效益和效能。而AI正是我們所需的最強有力的新生產力工具。第二,AI的加持可以大大降低用戶使用應用的門檻。以前,實現人機互動要敲擊鍵盤或滑動鼠標,但是基于AI,我們通過語音、動作就能輕松實現交互。這兩個因素疊加使得全社會對AI的需求量成倍增長,這背后就需要源源不斷的算力作為支撐。
“AI和大模型推動了生產力的變革。在此變革過程中,從客戶的需求到IT底層架構再到應用本身,都將發生巨大變化。而變化的好處是將帶來新的機會。所有人將重回同一起跑線,重新爭奪脫穎而出的機會。”林源如是說。
過去的十年,是云計算在中國蓬勃發展的十年。隨著云計算的普及,我們看到了新的應用和服務場景不斷涌現,不管是移動互聯網還是數字化,大多數應用都是跑在CPU上的。在這個階段,CPU驅動了應用革新。當AI和大模型漸成主流,幾乎所有的應用都開始擁抱AI技術或者被AI所改造,AI將很多原來不能做的事情變成可能,數字化也演進到數智化階段。從“字”到“智”,雖然只是一字之差,但這正是變革的決定因素。
公開財報顯示,NVIDIA在上個季度的收入已經超過了英特爾。這就是一個信號。在很多大型互聯網企業的IT設備采購中,GPU的采購量已經超越CPU。未來的時代將是一個以GPU為核心的時代,毋庸置疑。
當初,“東數西算”工程剛剛啟動之時,很多人還質疑“西算”的合理性。但是看看現在,西部的算力中心、智算中心建設如火如荼。“大量的西部能源公司慢慢發現電力即算力,所以能源公司不再賣電,而是開始賣算力。因為大家相信,未來‘西算’的應用一定會起來,成本敏感型的AI應用一定會在西部數據中心找到適合的場景。”林源表示,“未來的算力將是分散分布的,既有東部的算力,也有西部的算力。”
在未來十年甚至更長的時間里,像青云科技這樣的算力提供商將要面對更復雜和多樣化的應用,對于底層算力的要求,既有CPU也有GPU,既有成本敏感業務也有延遲敏感業務,而業態更豐富意味著對于技術和平臺的挑戰也更大。以何種心態、技術儲備、產品和服務,以及生態策略應對數智化時代AI對算力提出的更高更快更強,以及服務化、可運營的要求,是所有算力提供商的一道必答題。
關鍵還是AI算力如何調度
為了滿足AI應用的需求,各地都在積極上馬智算中心。區別于傳統的數據中心,智算中心的建設與運維是一個新的課題,也面臨新的挑戰:智算中心投資規模巨大,平臺能力與運營效率將成為運作的關鍵;從技術和運營的角度來看,智算中心的建設更加專業且復雜;從數據的隱私性和屬地性特征來看,智算中心建設更加分散,運營能力參差不齊;智算中心要更好地支持業務的多樣化。
解決上述問題,關鍵是需要一個算力調度平臺。9月19日,青云科技AI算力調度平臺正式發布。AI算力調度平臺是智算中心運營者的核心工具,它主要面向智算中心現在的投資者和未來的運營者。“濟南超算這樣的成功案例已經說明,我們的AI算力調度平臺具備客戶所需的完整能力;三年前,我們就已經具備了開發AI算力調度平臺的能力;我們的AI算力調度平臺得到了實踐檢驗,濟南超算不僅運營得很好,而且還實現了盈利。”林源表示,“這就是青云科技的新機會。作為一家中立的云服務商,青云科技會與生態伙伴緊密協作,站在用戶的背后,提供智算中心所需的產品和服務的支撐,為用戶提供更好的選擇。”
“我們將所有與AI、GPU相關的產品,獨立提出來,并結合以前的整體智算解決方案,最終打造出現在的AI算力調度平臺。”青云科技產品經理苗慧介紹說,“我們的AI算力調度平臺可以實現多區域、多地點,面向不同業務進行算力調度。”
歸納來說,青云科技AI算力調度平臺主要從以下四個維度進行研發和優化:為國內外多種架構的芯片提供支持和優化;所有資源和產品一旦進入云平臺,青云科技就會提供全生命周期的管理;面向AIGC,青云科技做了大量業務化的實踐;實現更多的自動化,讓非計算機行業的用戶也能一鍵運行其數據、業務和模型等。
本次發布的青云科技AI算力調度平臺具有九大關鍵能力:多區多業務資源整合、混合組網、容器推理服務平臺、分布式調度與管理、算法開發支持、模型倉庫(MaaS)、AI訓練平臺、靈活調度、高速并行存儲。
相比其他的AI調度平臺,青云科技AI算力調度平臺的差異化具體表現在:針對大集群(比如上百臺機器的集群),青云科技研發了更加優化的調度算法,比如在親和政策、反親和政策以及調度的鏈路標簽上,做到盡可能地調度同一個交換機,讓數據少繞路; 在應用環境上,青云科技采用Kubernetes和Slurm兩種調度平臺同時為客戶服務,并且是完全集成好的,在顆粒度和運維傳統機器方面也有更多優化。
AI Cloud是一個生態同盟
打個比方,AI算力調度平臺就像是智算中心的“神經中樞”,而這也只是青云科技技術能力的一種體現。作為云服務商,青云科技的“老本行”還是要在云上更好地滿足AI對算力的新需求。于是,青云科技AI算力云應運而生。
林源介紹說:“AI算力云是以青云科技為主,對外運營的一項AI算力服務。青云科技將以生態的方式,與合作伙伴聯營AI算力云。”為什么不自己大包大攬?過去十年中,確實有許多大廠喜歡從硬件、軟件到平臺的自建、自投、自營。但這種模式已經不能適應AI時代的要求:一是廠商自己干得越多,研發費用就越高,成本越重,經營和運作的壓力也更大;二是在AI時代,做好每一層的成本都比過去更高,比如大模型只是算力云中薄薄的一層,而一個大模型誕生所花費的人力、財力、算力卻是普通企業所無法承受的。
站在客戶的角度,肯定需要一個完整的解決方案,包括機房、算力、調度平臺、模型、應用等。從供應商的角度,當然也希望全面滿足客戶的需求。因此,我們可以大膽地預測,AI算力領域將出現新的巨頭,但這個巨頭可能不是一個獨立的公司,而是一個小的生態,因為要做的事情實在是太多了。按照青云科技的設想,AI算力云服務的定位是一個開放的生態同盟,青云科技將匯聚志同道合的伙伴,通過“同盟”的方式共同運營AI算力云服務。
“客戶需要完整的解決方案,生態是最好的解決之道;生態中的每一個參與者都必須是專業的且彼此需要,所以基本原則是開放協作;AI算力云應該是一個長期共贏的同盟。”林源表示,“青云科技希望基于一個開放、成熟、可運營的AI算力調度平臺,通過自營、合營乃至支撐第三方運營的方式,與生態同盟一起為客戶提供AI Cloud。”青云科技將從以下三個方面打造AI算力服務生態:AI算力基礎設施的生態共享、AI算力大模型的資源整合,以及AI數據資源的生態整合。
基于青云科技公有云的AI算力云,提供了更多產品,包括裸金屬服務器、虛擬化服務器、高速網絡、訓練集群、推理集群、鏡像倉庫和并行文件存儲等。
俗話說,術業有專攻。青云科技并不是什么都要插手,而是只做自己最擅長的,也就是AI算力調度平臺。AI算力調度平臺其實與原來的云調度平臺、IaaS等是一脈相承。這是青云科技的優勢,也是差異化的價值所在。
可以預見,在中國,AI Cloud將百花齊放。