三年前,國家超級計算濟(jì)南中心(濟(jì)南超算)悄悄干了一件大事,投資數(shù)十億元致力于打造一個融HPC超算、傳統(tǒng)云計算(以CPU為主)和智算(以GPU為主)為一體的多元算力中心,這就需要一個統(tǒng)一的并且可以對外開放的運(yùn)維和運(yùn)營平臺。那時還在打磨階段的青云科技自主研發(fā)的AI算力調(diào)度平臺,幫助濟(jì)南超算建立了從建設(shè)到運(yùn)營的閉環(huán),對CPU、GPU、HPC等不同算力資源進(jìn)行統(tǒng)一調(diào)度與統(tǒng)一運(yùn)營,很好地支撐了濟(jì)南超算的異構(gòu)算力服務(wù)創(chuàng)新。
人工智能的機(jī)會來了
濟(jì)南超算在算力服務(wù)上的創(chuàng)新,其實(shí)是我國超算行業(yè)持續(xù)演進(jìn)的一個縮影。從以前專注于少數(shù)高精尖的科學(xué)計算應(yīng)用,到后來乘云直上,超算云的概念逐漸被業(yè)界所接受,到現(xiàn)在從國家層面大力倡導(dǎo)超算互聯(lián)網(wǎng)平臺的建設(shè),超算算力正加速開放化、服務(wù)化和社會化,變成一種普通企業(yè)也能唾手可得的算力資源。
由超算行業(yè)反觀整個算力行業(yè)的發(fā)展,其演進(jìn)的路徑是一致的。從傳統(tǒng)的物理機(jī)時代到虛擬化、云計時代,再過渡到云原生時代,直至當(dāng)前以AI為驅(qū)動的數(shù)智化時代,算力以及算力的應(yīng)用因為云、AI、大模型等的牽引有了翻天覆地的變化。在架構(gòu)上從以CPU為核心演進(jìn)到以GPU為核心,在應(yīng)用上從主要滿足延遲敏感應(yīng)用的需求發(fā)展到“成本敏感+延遲敏感”并重,算力不僅要支撐移動互聯(lián)網(wǎng)應(yīng)用與數(shù)字化轉(zhuǎn)型,更要在人工智能與數(shù)智化的雙重挑戰(zhàn)下,充分釋放其澎湃的力量。
實(shí)際上,不僅用戶的需求、市場和技術(shù)的發(fā)展趨勢如此,算力企業(yè)自身的成長與成熟也在重復(fù)和演繹相同的路徑。以青云科技為例,從2013年開始,移動互聯(lián)網(wǎng)的熱潮、公有云服務(wù)的興起,催生出一個巨大的增量市場。乘著數(shù)字化轉(zhuǎn)型之東風(fēng),青云科技借由私有云迎來了屬于自己的第一波業(yè)務(wù)增長潮。接著第二波增長潮很快到來,那就是信創(chuàng)及國產(chǎn)化替代,通過提供公有云、私有云和信創(chuàng)全棧云,青云科技在這一波大潮中成功“上岸”(上市)?,F(xiàn)在,第三波浪潮正在席卷而來。不過與前兩波浪潮相比,這一波的浪頭比較急、比較猛,甚至比較寒冷。后疫情時代的不確定性增加,全球經(jīng)濟(jì)發(fā)展環(huán)境的動蕩等綜合因素,讓過去的增量市場變成了現(xiàn)今的存量市場,甚至是減量市場,企業(yè)的競爭與生存更加艱難。包括青云科技在內(nèi),所有的廠商都在尋找一個新的確定的機(jī)會或者說一個突破點(diǎn)。這就是人工智能。
“人工智能這個市場機(jī)會已經(jīng)來了,而且它一定會帶來一波長達(dá)十年以上,而且比過去十年更大的市場需求和機(jī)會。”青云科技總裁林源非??隙ㄇ易孕诺乇硎?,“可以預(yù)見,未來AIGC的投入占企業(yè)IT投入的比重一定會越來越高,這是客戶與市場的需求共同決定的??蛻魧τ诘讓铀懔Φ囊髸絹碓礁?。人工智能對于算力的刺激和帶動相比十年之前,一定會有十倍甚至百倍的提升。”
算力將像熱力、電力、水力等資源一樣,變得不可或缺,并成為拉動數(shù)字經(jīng)濟(jì)發(fā)展的重要引擎。算力企業(yè)如何抓住這波AI算力的紅利,這個考驗將十分艱巨。
十年之前與十年之后
“這是最好的時代,也是最壞的時代。”每當(dāng)有巨大的時代變遷,我們總喜歡引用這句話。當(dāng)以ChatGPT為代表的生成式AI快速崛起的時候,我們恐怕又要重復(fù)這句話了。AI將催生一個全新的算力時代。
雖然我們可能還有這樣或那樣的擔(dān)心,但是現(xiàn)在我們必須積極地?fù)肀I。為什么?第一,在當(dāng)前的環(huán)境下,所有人都需要一個新的生產(chǎn)工具,以提升效益和效能。而AI正是我們所需的最強(qiáng)有力的新生產(chǎn)力工具。第二,AI的加持可以大大降低用戶使用應(yīng)用的門檻。以前,實(shí)現(xiàn)人機(jī)互動要敲擊鍵盤或滑動鼠標(biāo),但是基于AI,我們通過語音、動作就能輕松實(shí)現(xiàn)交互。這兩個因素疊加使得全社會對AI的需求量成倍增長,這背后就需要源源不斷的算力作為支撐。
“AI和大模型推動了生產(chǎn)力的變革。在此變革過程中,從客戶的需求到IT底層架構(gòu)再到應(yīng)用本身,都將發(fā)生巨大變化。而變化的好處是將帶來新的機(jī)會。所有人將重回同一起跑線,重新爭奪脫穎而出的機(jī)會。”林源如是說。
過去的十年,是云計算在中國蓬勃發(fā)展的十年。隨著云計算的普及,我們看到了新的應(yīng)用和服務(wù)場景不斷涌現(xiàn),不管是移動互聯(lián)網(wǎng)還是數(shù)字化,大多數(shù)應(yīng)用都是跑在CPU上的。在這個階段,CPU驅(qū)動了應(yīng)用革新。當(dāng)AI和大模型漸成主流,幾乎所有的應(yīng)用都開始擁抱AI技術(shù)或者被AI所改造,AI將很多原來不能做的事情變成可能,數(shù)字化也演進(jìn)到數(shù)智化階段。從“字”到“智”,雖然只是一字之差,但這正是變革的決定因素。
公開財報顯示,NVIDIA在上個季度的收入已經(jīng)超過了英特爾。這就是一個信號。在很多大型互聯(lián)網(wǎng)企業(yè)的IT設(shè)備采購中,GPU的采購量已經(jīng)超越CPU。未來的時代將是一個以GPU為核心的時代,毋庸置疑。
當(dāng)初,“東數(shù)西算”工程剛剛啟動之時,很多人還質(zhì)疑“西算”的合理性。但是看看現(xiàn)在,西部的算力中心、智算中心建設(shè)如火如荼。“大量的西部能源公司慢慢發(fā)現(xiàn)電力即算力,所以能源公司不再賣電,而是開始賣算力。因為大家相信,未來‘西算’的應(yīng)用一定會起來,成本敏感型的AI應(yīng)用一定會在西部數(shù)據(jù)中心找到適合的場景。”林源表示,“未來的算力將是分散分布的,既有東部的算力,也有西部的算力。”
在未來十年甚至更長的時間里,像青云科技這樣的算力提供商將要面對更復(fù)雜和多樣化的應(yīng)用,對于底層算力的要求,既有CPU也有GPU,既有成本敏感業(yè)務(wù)也有延遲敏感業(yè)務(wù),而業(yè)態(tài)更豐富意味著對于技術(shù)和平臺的挑戰(zhàn)也更大。以何種心態(tài)、技術(shù)儲備、產(chǎn)品和服務(wù),以及生態(tài)策略應(yīng)對數(shù)智化時代AI對算力提出的更高更快更強(qiáng),以及服務(wù)化、可運(yùn)營的要求,是所有算力提供商的一道必答題。
關(guān)鍵還是AI算力如何調(diào)度
為了滿足AI應(yīng)用的需求,各地都在積極上馬智算中心。區(qū)別于傳統(tǒng)的數(shù)據(jù)中心,智算中心的建設(shè)與運(yùn)維是一個新的課題,也面臨新的挑戰(zhàn):智算中心投資規(guī)模巨大,平臺能力與運(yùn)營效率將成為運(yùn)作的關(guān)鍵;從技術(shù)和運(yùn)營的角度來看,智算中心的建設(shè)更加專業(yè)且復(fù)雜;從數(shù)據(jù)的隱私性和屬地性特征來看,智算中心建設(shè)更加分散,運(yùn)營能力參差不齊;智算中心要更好地支持業(yè)務(wù)的多樣化。
解決上述問題,關(guān)鍵是需要一個算力調(diào)度平臺。9月19日,青云科技AI算力調(diào)度平臺正式發(fā)布。AI算力調(diào)度平臺是智算中心運(yùn)營者的核心工具,它主要面向智算中心現(xiàn)在的投資者和未來的運(yùn)營者。“濟(jì)南超算這樣的成功案例已經(jīng)說明,我們的AI算力調(diào)度平臺具備客戶所需的完整能力;三年前,我們就已經(jīng)具備了開發(fā)AI算力調(diào)度平臺的能力;我們的AI算力調(diào)度平臺得到了實(shí)踐檢驗,濟(jì)南超算不僅運(yùn)營得很好,而且還實(shí)現(xiàn)了盈利。”林源表示,“這就是青云科技的新機(jī)會。作為一家中立的云服務(wù)商,青云科技會與生態(tài)伙伴緊密協(xié)作,站在用戶的背后,提供智算中心所需的產(chǎn)品和服務(wù)的支撐,為用戶提供更好的選擇。”
“我們將所有與AI、GPU相關(guān)的產(chǎn)品,獨(dú)立提出來,并結(jié)合以前的整體智算解決方案,最終打造出現(xiàn)在的AI算力調(diào)度平臺。”青云科技產(chǎn)品經(jīng)理苗慧介紹說,“我們的AI算力調(diào)度平臺可以實(shí)現(xiàn)多區(qū)域、多地點(diǎn),面向不同業(yè)務(wù)進(jìn)行算力調(diào)度。”
歸納來說,青云科技AI算力調(diào)度平臺主要從以下四個維度進(jìn)行研發(fā)和優(yōu)化:為國內(nèi)外多種架構(gòu)的芯片提供支持和優(yōu)化;所有資源和產(chǎn)品一旦進(jìn)入云平臺,青云科技就會提供全生命周期的管理;面向AIGC,青云科技做了大量業(yè)務(wù)化的實(shí)踐;實(shí)現(xiàn)更多的自動化,讓非計算機(jī)行業(yè)的用戶也能一鍵運(yùn)行其數(shù)據(jù)、業(yè)務(wù)和模型等。
本次發(fā)布的青云科技AI算力調(diào)度平臺具有九大關(guān)鍵能力:多區(qū)多業(yè)務(wù)資源整合、混合組網(wǎng)、容器推理服務(wù)平臺、分布式調(diào)度與管理、算法開發(fā)支持、模型倉庫(MaaS)、AI訓(xùn)練平臺、靈活調(diào)度、高速并行存儲。
相比其他的AI調(diào)度平臺,青云科技AI算力調(diào)度平臺的差異化具體表現(xiàn)在:針對大集群(比如上百臺機(jī)器的集群),青云科技研發(fā)了更加優(yōu)化的調(diào)度算法,比如在親和政策、反親和政策以及調(diào)度的鏈路標(biāo)簽上,做到盡可能地調(diào)度同一個交換機(jī),讓數(shù)據(jù)少繞路; 在應(yīng)用環(huán)境上,青云科技采用Kubernetes和Slurm兩種調(diào)度平臺同時為客戶服務(wù),并且是完全集成好的,在顆粒度和運(yùn)維傳統(tǒng)機(jī)器方面也有更多優(yōu)化。
AI Cloud是一個生態(tài)同盟
打個比方,AI算力調(diào)度平臺就像是智算中心的“神經(jīng)中樞”,而這也只是青云科技技術(shù)能力的一種體現(xiàn)。作為云服務(wù)商,青云科技的“老本行”還是要在云上更好地滿足AI對算力的新需求。于是,青云科技AI算力云應(yīng)運(yùn)而生。
林源介紹說:“AI算力云是以青云科技為主,對外運(yùn)營的一項AI算力服務(wù)。青云科技將以生態(tài)的方式,與合作伙伴聯(lián)營AI算力云。”為什么不自己大包大攬?過去十年中,確實(shí)有許多大廠喜歡從硬件、軟件到平臺的自建、自投、自營。但這種模式已經(jīng)不能適應(yīng)AI時代的要求:一是廠商自己干得越多,研發(fā)費(fèi)用就越高,成本越重,經(jīng)營和運(yùn)作的壓力也更大;二是在AI時代,做好每一層的成本都比過去更高,比如大模型只是算力云中薄薄的一層,而一個大模型誕生所花費(fèi)的人力、財力、算力卻是普通企業(yè)所無法承受的。
站在客戶的角度,肯定需要一個完整的解決方案,包括機(jī)房、算力、調(diào)度平臺、模型、應(yīng)用等。從供應(yīng)商的角度,當(dāng)然也希望全面滿足客戶的需求。因此,我們可以大膽地預(yù)測,AI算力領(lǐng)域?qū)⒊霈F(xiàn)新的巨頭,但這個巨頭可能不是一個獨(dú)立的公司,而是一個小的生態(tài),因為要做的事情實(shí)在是太多了。按照青云科技的設(shè)想,AI算力云服務(wù)的定位是一個開放的生態(tài)同盟,青云科技將匯聚志同道合的伙伴,通過“同盟”的方式共同運(yùn)營AI算力云服務(wù)。
“客戶需要完整的解決方案,生態(tài)是最好的解決之道;生態(tài)中的每一個參與者都必須是專業(yè)的且彼此需要,所以基本原則是開放協(xié)作;AI算力云應(yīng)該是一個長期共贏的同盟。”林源表示,“青云科技希望基于一個開放、成熟、可運(yùn)營的AI算力調(diào)度平臺,通過自營、合營乃至支撐第三方運(yùn)營的方式,與生態(tài)同盟一起為客戶提供AI Cloud。”青云科技將從以下三個方面打造AI算力服務(wù)生態(tài):AI算力基礎(chǔ)設(shè)施的生態(tài)共享、AI算力大模型的資源整合,以及AI數(shù)據(jù)資源的生態(tài)整合。
基于青云科技公有云的AI算力云,提供了更多產(chǎn)品,包括裸金屬服務(wù)器、虛擬化服務(wù)器、高速網(wǎng)絡(luò)、訓(xùn)練集群、推理集群、鏡像倉庫和并行文件存儲等。
俗話說,術(shù)業(yè)有專攻。青云科技并不是什么都要插手,而是只做自己最擅長的,也就是AI算力調(diào)度平臺。AI算力調(diào)度平臺其實(shí)與原來的云調(diào)度平臺、IaaS等是一脈相承。這是青云科技的優(yōu)勢,也是差異化的價值所在。
可以預(yù)見,在中國,AI Cloud將百花齊放。