在讓人工智能變得更好的競賽中,麻省理工學院(MIT)林肯實驗室正在開發降低功耗、高效訓練和透明能源使用的方法。
在 google 上搜索航班時,您可能已經注意到,現在每個航班的碳排放量估算值都顯示在其成本旁邊。這是一種告知客戶其對環境影響的方式,并讓他們將這些信息納入決策中。
盡管計算機行業的碳排放量超過了整個航空業的碳排放量,但這種透明度尚不存在。這種能源需求不斷升級的是人工智能模型。像ChatGPT這樣巨大的流行模型預示著大規模人工智能的趨勢,預測到2030年,數據中心將消耗全球21%的電力供應。
麻省理工學院(MIT)林肯實驗室超級計算中心(LLSC)正在開發技術,以幫助數據中心控制能源使用。他們的技術范圍從簡單但有效的更改,如調整硬件的功率上限,到采用可以在早期停止人工智能訓練的新工具。至關重要的是,他們發現這些技術對模型性能的影響最小。
從更廣泛的角度來看,他們的工作是動員綠色計算研究并促進透明文化。“能源感知計算并不是一個真正的研究領域,因為每個人都在保留他們的數據,”領導能源感知研究工作的LLSC高級職員Vijay Gadepally說。“必須有人開始,我們希望其他人也能效仿。
抑制功率和冷卻
與許多數據中心一樣,LLSC 在其硬件上運行的 AI 作業數量顯著增加。注意到能源使用量的增加,LLSC的計算機科學家對更有效地運行作業的方法感到好奇。綠色計算是該中心的一項原則,該中心完全由無碳能源提供動力。
訓練 AI 模型(從龐大數據集中學習模式的過程)需要使用圖形處理單元 (GPU),這些硬件是耗電的硬件。例如,訓練 GPT-3(ChatGPT 的前身)的 GPU 估計消耗了 1,300 兆瓦時的電力,大致相當于1,450 個美國普通家庭一個月使用的電力。
雖然大多數人尋求 GPU 是因為其計算能力,但制造商提供了限制 GPU 允許消耗的功率的方法。“我們研究了封頂功率的影響,發現我們可以將能耗降低約12%至15%,具體取決于模型,”LLSC的研究員Siddharth Samsi說。
限制功率的影響是增加任務時間——GPU 完成任務所需的時間將延長約 3%,Gadepally 表示,考慮到模型通常需要幾天甚至幾個月的訓練,這種增加“幾乎不明顯”。在他們的一項實驗中,他們訓練了流行的 BERT 語言模型,將 GPU 功率限制在 150 瓦,訓練時間增加了兩個小時(從 80 小時增加到 82 小時),但節省了相當于一個美國家庭一周的能源。
然后,該團隊構建了軟件,將這種功率封頂功能插入到廣泛使用的調度器系統 Slurm 中。該軟件允許數據中心所有者在其系統中或逐個作業設置限制。
“我們今天就可以部署這種干預措施,我們已經在所有系統中這樣做了,”Gadepally說。
附帶的好處也出現了,自從實施功率限制以來,LLSC 超級計算機上的 GPU 一直在以更穩定的溫度運行 30 華氏度左右,從而減少了冷卻系統的壓力。運行硬件冷卻器還可以提高可靠性和使用壽命。他們現在可以考慮推遲購買新硬件——減少中心的“隱含碳”,即通過制造設備產生的排放——直到使用新硬件所獲得的效率抵消了這方面的碳足跡。他們還在尋找減少冷卻需求的方法,通過戰略性地將作業安排在夜間和冬季運行。
Gadepally說:“數據中心今天可以使用這些易于實施的方法來提高效率,而無需修改代碼或基礎設施。
全面了解數據中心的運營以尋找削減成本的機會可能會耗費大量時間。為了讓其他人更容易完成這一過程,該團隊與Northeastern大學的Devesh Tiwari教授和Baolin Li合作,最近開發并發布了一個用于分析高性能計算系統碳足跡的綜合框架。系統從業者可以使用此分析框架來更好地了解其當前系統的可持續性,并考慮對下一代系統進行更改。
調整模型的訓練和使用方式
除了對數據中心運營進行調整外,該團隊還在設計提高 AI 模型開發效率的方法。
在訓練模型時,AI 開發人員通常專注于提高準確性,并以以前的模型為基礎進行構建。為了實現所需的輸出,他們必須弄清楚要使用哪些參數,而要做到這一點可能需要測試數千種配置。這個過程被稱為超參數優化,是LLSC研究人員發現的減少能源浪費的成熟領域。
“我們開發了一個模型,基本上著眼于給定配置的學習速度,”Gadepally說。鑒于這個比率,他們的模型預測了可能的表現。表現不佳的模型會提前停止。“我們可以在早期給你一個非常準確的估計,最好的模型將在100個模型中的前10個模型中,”他說。
在他們的研究中,這種提前停止導致了巨大的節省:用于模型訓練的能源減少了80%。他們將這種技術應用于為計算機視覺、自然語言處理和材料設計應用程序開發的模型。
“在我看來,這種技術在推進人工智能模型訓練方式方面具有最大的潛力,”Gadepally說。
訓練只是 AI 模型排放的一部分。隨著時間的推移,排放的最大貢獻者是模型推理,或實時運行模型的過程,例如用戶與 ChatGPT 聊天時。為了快速響應,這些模型使用冗余硬件,一直運行,等待用戶提出問題。
提高推理效率的一種方法是使用最合適的硬件。此外,該團隊還與Northeastern大學合作,創建了一個優化器,將模型與碳效率最高的硬件組合相匹配,例如用于推理計算密集型部分的高功率GPU和用于要求較低的方面的低功耗中央處理器(CPU)。這項工作最近在國際ACM高性能并行和分布式計算研討會上獲得了最佳論文獎。
使用此優化器可以減少 10-20% 的能源使用,同時仍能滿足相同的“服務質量目標”(模型的響應速度)。
此工具對云客戶特別有用,這些客戶從數據中心租用系統,并且必須從數千個選項中選擇硬件。“大多數客戶高估了他們的需求;他們之所以選擇功能過強的硬件,只是因為他們不知道更好,“Gadepally 說。
綠色計算意識的增強
實施這些干預措施所節省的能源也降低了開發人工智能的相關成本,通常以一比一的比例降低。事實上,成本通常被用作能源消耗的代名詞。既然節省了這些成本,為什么不讓更多的數據中心投資于綠色技術呢?
“我認為這有點激勵失調的問題,”薩姆西說。“在構建更大更好的模型方面,有如此激烈的競爭,幾乎所有次要考慮因素都被擱置一旁。
他們指出,雖然一些數據中心購買了可再生能源信用額度,但這些可再生能源不足以滿足不斷增長的能源需求。為數據中心供電的大部分電力來自化石燃料,而用于冷卻的水正在導致流域壓力。
他們還承認,如果沒有能夠向人工智能開發人員展示其消費的工具,就很難實現透明度。他們希望能夠向每個LLSC用戶展示每項工作,他們消耗了多少能源,以及該能源量與其他能源量的比較情況,類似于家庭能源報告。
這項工作的一部分需要與硬件制造商更緊密地合作,以便更容易、更準確地從硬件中獲取這些數據。如果制造商能夠標準化數據的讀取方式,那么節能和報告工具就可以應用于不同的硬件平臺。LLSC 研究人員和英特爾之間正在開展合作,以解決這一問題。
即使對于意識到人工智能強烈能源需求的人工智能開發人員來說,他們也無法獨自做太多事情來遏制這種能源使用。LLSC團隊希望幫助其他數據中心應用這些干預措施,并為用戶提供能源感知選項。他們的第一個合作伙伴關系是與美國空軍合作,美國空軍是這項研究的贊助商,該研究運營著數千個數據中心,應用這些技術可以顯著降低其能耗和成本。