2023年至2026年,全球在AI系統上的支出將翻一番,顯然,數據中心的容量將迅速增加,以滿足需求。
然而,令人驚訝的是,在過去的一年里,許多數據中心運營商對新項目踩下了剎車,放緩了投資,倫敦的空置容量在2022-23年間下降了6.3%。
這種違反直覺的趨勢背后是什么原因?要解釋這一點,我們需要了解圍繞AI計算和支持它的基礎設施的一些問題。
AI如何改變數據中心基礎設施
數據中心歷來是圍繞使用CPU的機架構建的,以應對傳統的計算工作負載,然而,AI計算轉而需要使用GPU驅動機架,與同等的CPU容量相比,它消耗更多的電力,釋放更多的熱量,占用更多的空間。
在實踐中,這意味著AI計算能力通常需要更多的電源連接或替代冷卻系統。
由于這是嵌入式基礎設施,它被內置到數據中心綜合體的結構中——這使得更換它往往代價高昂,如果不是在經濟上完全不可能的話。
在實踐中,運營商必須承諾在他們的新數據中心中有多少空間專門用于AI和傳統計算之間的“分割”。
如果弄錯了這一點,并過度承諾AI,可能會讓數據中心運營商背負著永久未充分利用和無利可圖的負擔。
AI市場還處于初級階段,這加劇了這個問題,Gartner聲稱,它目前正處于炒作周期中夸大預期的頂峰。因此,許多運營商選擇在設計階段按兵不動,而不是過早承諾在新數據中心項目中承擔AI計算的比例。
在設計階段采取全面的方法
然而,運營商敏銳地意識到,在失去市場份額和競爭優勢之前,他們只能冒著推遲投資的風險,但考慮到數據中心基礎設施的許多基本要素正在被實時重寫,這是一項艱巨的任務。
為了滿足成為先行者的需求,同時抵消風險,運營商需要將他們的數據中心設計為在AI計算時代具有最大的效率和彈性,這需要一種全新的整體設計方法。
1、讓更多利益相關者參與進來
無論操作員決定AI和傳統計算之間的確切分離,具有AI計算能力的數據中心站點有望比傳統設施復雜得多。更復雜的往往意味著更多的故障點,特別是在AI計算比傳統計算有更多需求的情況下。
因此,為了保證正常運行時間并降低站點生命周期內出現代價高昂的問題的風險,團隊需要在數據中心的規劃階段更加徹底。
特別是,設計階段應在項目開始時尋求更廣泛的團隊和專業知識的投入。除了尋求電力和冷卻方面的專業知識外,設計人員還應該及早接觸運營、布線和安全團隊,以了解潛在的瓶頸或故障來源。
2、將AI融入數據中心運營
由于運營商現在在現場進行AI計算,他們應該利用自己的能力來利用AI來提高運營的新效率。AI在數據中心的采用已經有很長時間了,這項技術能夠以極高的精度和質量承擔工作流。例如,AI可以在以下方面提供幫助:
- 溫度和濕度監測。
- 安全系統運營。
- 用電監控和分配。
- 硬件故障檢測和預測性維護。
通過在數據中心生命周期的每個階段主動使用該技術,運營商可以顯著提高其運營的效率和穩健性。AI非常適合于幫助應對采用這些新一代數據中心新穎而復雜的布局時遇到的新挑戰,例如通過故障檢測和預測性維護。
3、避免虛假的節約
在高峰期,例如在培訓運行期間或在生產中運行企業級模型時,AI會給數據中心帶來更大的負載。在這些期間,AI計算在功耗、冷卻需求和數據吞吐量方面往往會大大超出傳統的預期。
在最基本的層面上,這意味著數據中心的底層材料面臨更大的壓力。如果這些底層材料或部件質量不高,這意味著它們更容易失敗。由于AI計算意味著一個站點的組件和連接數量急劇增加,這意味著在傳統站點中運行良好的更便宜、更低質量的材料可能會使運行AI計算的數據中心陷入停頓。
為此,運營商應該避免通過購買質量較低的材料來節省資金,比如不合格的電纜。這樣做可能會帶來虛假的經濟風險,因為這些材料更容易失效,需要更頻繁地更換。但是,最有問題的是,不合格的材料和部件的故障往往會導致網站停機或停機,從而影響其盈利能力。
解決基礎設施難題
盡管AI計算的基礎設施要求可能是運營商拖延投資的主要原因,但從長遠來看,情況并非如此。
隨著市場不確定性的消除,公司將在數據中心的傳統計算和AI計算之間的分裂問題上匯聚到他們的“適中區域”。
隨著這種情況的發生,公司將需要確保隨著他們的學習和成熟,他們在網站的運營中擁有一切可能的優勢。
這意味著從一開始就進行整體設計,利用AI本身來發現他們網站的新效率,并投資于能夠滿足更大的AI計算需求的高質量組件。