“AI的盡頭是光伏和儲能”,相信很多人對這句話并不陌生。這句話非常形象地說明了AI對電力的高依賴和高消耗,言簡意賅,在業界廣為流傳。
近兩年以大模型為代表的人工智能非常火,引發了大模型投資熱,企業紛紛投入巨資開始訓練大模型和部署各種人工智能應用。然而,不少企業突然發現電出問題了,要么數據中心的電力不夠,要么機房溫度降不下來,或者用電成本太高賬單嚇人,嚴重的甚至直接影響數據中心正常運營,波及企業的數字化化轉型戰略的落實。為了破解這些難題,不少企業走上綠色數據中心的構建之路。
大模型的背后是對電力的高消耗
2022年年底,ChatGPT一炮走紅。ChatGPT表現出來的強大的內容生成能力讓人驚訝,但很多人不了解的是,這些能力是建立在大量數據的訓練之上,需要消耗大量的電力。
斯坦福人工智能研究所發布的《2023年人工智能指數報告》顯示,1750億參數的GPT-3在訓練階段的耗電量高達1287兆瓦時。隨著模型參數的不斷增加以及模型從單模態向多模態發展,耗電量還將進一步提升。
大模型不只是在訓練階段費電,推理階段同樣也相當費電。根據專家對ChatGPT的研究,每當ChatGPT試圖響應一次提問,它需要消耗2.9瓦時的電量。ChatGPT平均每天需要處理約2億個來自用戶的對話請求,這意味著它單日消耗的電量就要超過564兆瓦時,相當于1.7萬個美國家庭一天的用電量。
ChatGPT是通用大模型的一個代表,其他大模型的耗電情況大體類似。隨著大模型的流行,AI工作負載功耗占比正在快速提升。根據施耐德電氣的一份關于2024數據中心行業的研究報告,AI類工作負載功耗2023 年只占到8%,而到 2028 年會占15%-20%,總能耗預計會到 15GW,相當于十三峽水電站的總裝機容量 22.5GW的70%。
通用大模型之所以費電,一個重要原因是它的訓練和推理都需要大量GPU,今天GPU集群越來越大,萬卡甚至10萬卡也不稀奇,而GPU隨著性能的不斷提升功耗會不斷上升,正在從目前的350瓦向1000瓦邁進,英偉達新發布的最新GPU GB200已經突破了1000瓦。當然,不只是GPU,CPU的功耗也在上升,正在突破500瓦。
CPU、GPU功耗的不斷上升迫使企業越來越關注AI架構的優化,要把數千甚至上萬張CPU、GPU卡互聯,讓它們高效訪問所需要的數據,完成工作,對系統架構設計提出了很高的要求。
“一個設計良好的AI架構的確能大大提高整個設備的能效,這些年戴爾科技一直在做的事情。”戴爾科技集團大中華區網絡和第三方產品事業部虞頌峰介紹,戴爾科技的能力也得到了市場研究機構的認可,Forrester在 2024 年Q1 的《AI 基礎設施解決方案》報告中將戴爾科技列入 AI 基礎架構解決方案領導者。
傳統風冷不行,液冷勢在必行
AI負載的高電耗可能讓原來數據中心設計的電力不夠用,甚至外圍供電不足,迫使人們需要尋找更多能源,比如引入清潔能源、核能等。而另一個后果就是不得不關注綠色數據中心的建設,關注機房內部致冷問題。
通常數據中心中部署有大量IT設備,如服務器、存儲和交換機等,以及空調等附加設備,這些設備運行需要散發大量的熱,必須及時帶走,否則會因過高的溫度會導致設備損壞,系統宕機。傳統數據中心致冷方式是以風冷為主,老舊機架設計功率不超過10kw左右。然而,今天一臺配置多GPU卡的AI服務器單臺功率就可能突破10kw,傳統風冷技術很難解決其散熱問題,不得已人們開始選擇液冷技術。
“為了滿足 AI 的應用,實現可持續、低碳、節能和環保的綠色數據中心,從目前的技術手段來看,液冷是最佳的選擇。”虞頌峰表示。
液冷解決方案的普及除了要解決機房溫度過高或者局部熱點問題這些內因之外,還有非常重要的一個驅動因素是國家政策。近幾年國家在大力推動節能環保,一直在限制高能耗數據中心。比如,北京要求新建數據中心PUE值低于1.4,上海、深圳要求低于1.3。高PUE值意味著高能耗,特別是對于一些大型和超大型數據中心,其用電量大,降低運營成本和符合國產政策的要求雙重因素驅動下,對液冷技術積極性很高。
各種利好之下,液冷市場增長很快。根據IDC發布的《中國半年度液冷服務器市場(2023上半年)跟蹤》報告,2023上半年中國液冷服務器市場規模達到6.6億美元,同比增長283.3%,預計2023年全年將達到15.1億美元。IDC預計,2022-2027年,中國液冷服務器市場年復合增長率將達到54.7%,2027年市場規模將達到89億美元。
目前市場上主要有兩類主流液冷技術。一類是冷板式液冷,液體不直接接觸IT部件,通過液體在密閉的導管流經服務器內部的散熱冷盤將熱量帶走。另一個是浸沒式液冷,就是直接把整臺服務器泡在特殊液體中,通過與液體進行熱交換來帶走熱量。
一些領先的服務器廠商已經推出了自己的液冷服務器產品。虞頌峰介紹,戴爾科技通過與合作伙伴合作提供三種液冷解決方案,既有冷板式液冷也有浸沒式液冷,可以滿足不同客戶的需求。
DIY 冷板式液冷方案:方案采用戴爾科技的標準液冷服務器,配置 CoolIT 冷盤,加上第三方(綠色云圖和維諦)的CDU 和液冷機柜,在客戶現場組裝完成整套液冷方案交付。
標準的整機柜交付冷板液冷方案:戴爾在工廠預安裝液冷服務器和CoolIT的機柜、分水器,直接交付給客戶。
浸沒式液冷方案:采用的是經過戴爾科技驗證的綠色云圖的浸沒式液冷解決方案,由綠色云圖提供整合服務,適用于邊緣應用、靜音要求極高或者是極致PUE等應用場景。
高效節能需要整體優化設計
當然,要建成一個綠色數據中心光有液冷技術遠遠不夠。綠色數據中心的建設應該從最開始的設計、規劃就開始,一直到機房設備部署、冷卻系統的部署,還要選擇高效節能IT組件以及精細化的管理和運維等。
以系統的管理和監控為例,可以通過電源管理器實時監控并控制服務器的整體功耗和服務器的 CPU 負載情況實現風扇的動態調節,來有效降低數據中心的能耗。
F5公司解決方案顧問王志博透露,F5公司的產品落地場景中就有不少用來匯集各種IT設備運行狀況,借助F5的產品采集數據,然后進行大數據分析和呈現,從而幫助管理者更好地管理這些設備,提高設備運營能效。
并非只有新建數據中心才能談綠色節能,對于現有的數據中心也可以通過改造來提高能效。比如,通過模塊化的數據中心實現冷熱通道的隔離,通過后門熱交換提高熱交換效率,通過優化傳統數據中心最多可以實現PUE1.2 左右。
采用高能效的新一代產品也是一種有效的節能方法。英特爾中國可持續發展項目組負責人彭振飛介紹,采用英特爾最新的第五代至強可擴展處理器,通過選擇電源優化模式就可以在30-40%工作負載時輕松實現110瓦的能耗降低。英特爾即將正式發布的至強6在能效上表現更為優秀,至強6 Sierra Forest首次采用純能效核(E核)設計,可以帶來2.4倍的能效提升,機架密度則可以提高2.7倍。這意味著在相同的空間里能提供更高的算力,并且是更高能效的算力。
為了幫助企業構建綠色數據中心,英特爾還推出了綠色數據中心技術框架2.0,這是一個參考設計,它從XPU層、服務器層、機架層和數據中心層分別提出了合理實現節能減碳的技術路徑,一共提出了13種讓數據中心更綠色的技術能力和方案。
“這是一個框架,目的是希望通過高能效產品和技術的使用,通過液冷,通過更高能效的處理器等IT組件結合,實現高能效的計算,構建更綠色的數據中心。”彭振飛說。
結束語
當下在AI應用熱潮的推動下,算力需求井噴。數據中心作為承載AI應用的關鍵,在滿足算力需求的同時面臨能效問題的挑戰,這使得數據中心的綠色低碳和可持續發展成為剛需。
液冷技術在政策、技術與經濟性三大因素的共同推動下成為綠色數據中心建設的重要技術之一,正在快速替代風冷技術發展成為市場主流。面對這個新興市場,有著豐富的技術積淀和對產業了解的戴爾、英特爾等巨頭的加入無疑會大大推動液冷技術的進步,加速綠色數據中心在中國市場的落地步伐,最終為我國數字經濟的高質量發展提供更為強大的核心驅動力。