"算力"作為當代生產力的象征,已經成為業界的普遍認同。數據中心基礎設施,尤其是算力服務器,作為數據要素的核心載體和產業融合的橋梁,正在發揮著類似水和電在產業賦能和企業數字化轉型中的基礎性作用。它們不僅為產業提供動力,更是中國數字經濟高質量發展和推動新生產力發展的關鍵技術基礎。
在這一背景下,去年10月,國家發布了《算力基礎設施高質量發展行動計劃》,其中設定了到2025年的發展目標。該計劃明確提出,算力規模將超過300 EFLOPS,智能算力占比目標為35%,并推動東西部算力的平衡協調發展。此外,通過應用賦能,計劃將催生一系列新場景、新業態和新模式,標志著我國算力產業正式邁入了高速發展的新紀元。人工智能(AI)算力,作為這一進程中的核心驅動力,已成為數字經濟"主航道"上的關鍵因素。
但也要看到,當前整個社會的算力供需關系依然緊張,千行萬業的數智化轉型浪潮一波接一波的涌現,以大模型為代表的AI技術生態爆發式增長,都讓算力鴻溝不斷擴大。數據顯示,傳統算力時代,算力需求每18-20個月翻一倍,在深度學習出現之后,算力需求每6個月翻一倍,而到了大模型時代,對算力特別是AI算力的需求幾乎是每年數百倍的增長。
我們同樣需要認識到,目前社會對算力的需求與供給之間存在緊張關系。隨著各行各業數字化轉型的浪潮不斷涌現,以大型模型為代表的人工智能技術生態正在經歷爆炸式增長,這進一步加劇了算力資源的缺口。相關數據顯示,在傳統算力時代,算力需求大約每18到20個月翻一番。然而,隨著深度學習技術的出現,這一周期縮短至每6個月翻一番。進入大型模型時代后,特別是對人工智能算力的需求,呈現出每年數百倍的驚人增長速度。這種迅猛的增長對算力基礎設施提出了更高的要求,也凸顯了優化算力資源分配和提升算力供給能力的重要性。
AI時代算力迎來全新挑戰
人工智能對人類社會來說并不是一項簡單的技術革命,它象征著一個時代的到來,如同工業時代之于農業時代一樣,會帶來天翻地覆的變革,影響人類社會百年、甚至千年的進程。
而AI算力對于推動人工智能應用的重要性毋庸置疑,特別是隨著今年整個生成式AI和大模型的爆發,不僅帶來了對算力基礎設施的巨大需求,同時更讓本就供需不平的算力產業結構進一步“承壓”,而這讓算力基礎設施迎來了全新的挑戰,主要體現在以下幾個方面:
一是,生成式人工智能(AI)和大型模型的崛起,正推動著對算力資源的巨大需求,為AI的持續發展提供動力。這些AI大模型的創新性發展,無論是在訓練還是推理階段,都對算力提出了前所未有的需求。隨著模型參數規模的顯著增長,算力市場的供需關系面臨日益嚴峻的挑戰。特別是,訓練和推理的算力需求正在以指數級的速度增長,預示著未來對邊緣計算和端側算力的巨大潛在需求。
此外,預訓練大型模型的實施,不僅需要龐大的數據資源,還需要高性能服務器的持續高效運行。這一需求對算力基礎設施的多個方面提出了更高標準,包括網絡帶寬、能源效率、散熱技術、數據存儲解決方案以及數據安全保護等。這些要求推動了對基礎設施軟硬協同能力的提升,以確保AI技術能夠在一個更加強大和可靠的平臺上發展。
二是,算力基礎設施的運維和運營模式正迎來一場全面的革新,以適應AI時代的快速發展需求。運維作為算力基礎設施生命周期管理的關鍵環節,正經歷著以下幾方面的轉變:
隨著運維數據量的激增,智能運維技術如Dell AIOps等日益普及。這些技術不僅與監控、服務臺和自動化系統實現聯動,而且能夠從多個系統中提取數據,以服務為導向,為決策提供支持,成為行業發展的新趨勢。
其次,運維與安全領域的融合日益加深。隱私數據、流轉數據以及人的行為數據等,正逐漸成為日常運維工作的一部分,這要求運維團隊不僅要關注系統的正常運行,還要確保數據的安全性和合規性。
此外,從運營模式的角度來看,面向下一代數據中心的建設、能源使用、規劃布局以及技術創新等方面,都面臨著新的挑戰和機遇。這要求數據中心的運營者不斷探索新的解決方案,以提高能效、優化資源配置,并推動技術創新,從而滿足AI時代對算力基礎設施的高標準要求。
三是,節能減排也是算力基礎設施面臨的重大挑戰。我們知道,一直以來數據中心作為“能耗大戶”,其建設和發展過程中也帶來了巨大的能耗挑戰。根據前瞻產業研究院分析數據顯示,過去十年,我國數據中心整體用電量以每年超過10%的速度遞增。截至2020年,數據中心約占我國用電量的2.7%,而預計到2024年數據中心耗電量將占到全社會耗電量的5%以上。因此,在國家“雙碳”戰略的背景下,無論是算力基礎設施,還是數據中心產業也需要以降碳為目標,走向低碳化、綠色化的發展階段,由此才能夠支撐起千行萬業走向“低碳”高質量發展的創新之路。
不難看出,在全新的AI時代,全新的要求都讓以算力服務器為代表的數據中心基礎設施亟待通過新一輪的變革與創新,進一步推動現代化數據中心的進化與演進,才能為千行萬業的數智化轉型提供更為堅實的保障。
夯實AI時代的“算力底座”
也正是洞察到這種市場變化,作為全球領先的科技企業,戴爾科技通過推動算力基礎設施產品和解決方案的技術創新,打造“端到端AI平臺解決方案”,可以說為企業的數智化轉型和激發新質生產力,夯實了AI時代的“算力底座”。
在戴爾科技集團信息基礎架構解決方案事業部AI企業技術架構師、全球CTO大使吳躍看來,無論是哪種AI應用,背后都離不開AI算力與AI基礎架構平臺的支持。基于此,戴爾科技打造了面向AI的基礎架構平臺解決方案,并圍繞“算、網、存、管”提供整體參考架構,以“端到端”的創新方式幫助企業級用戶應對不同算力場景下的需求挑戰:
基于戴爾PowerEdge AI加速計算平臺,戴爾科技科提供多元化的AI加速計算選型支持。GPU是當前AI計算中使用最廣泛、最成熟的加速計算技術。為此,戴爾新一代PowerEdge(16G)先后推出了多款專門針對GPU計算設計和優化的專業服務器,可為企業提供GPU分布式訓練解決方案、GPU池化解決方案以及邊緣AI計算解決方案等,支持企業面向AI的端到端訓練、微調、推理以及面向傳統AI(如機器視覺、語音識別)的模型訓練及推理場景。
不僅如此,為了更好的釋放算力資源,戴爾PowerEdge 16G服務器平臺面向AI GPU計算還做了專門的優化設計,其中在機柜空間方面,通過更加緊湊的機箱設計, PowerEdge XE9680 的6U空間可以支持8張通過NVLink高速互連的NVIDIA最新GPU;在供電方面,通過對GPU與CPU模組的統一供電,實現了電源峰值功率140%-170%增強設計,更好地應對GPU開機啟動風暴及GPU實際運行功耗可能會超出額定功率的現象;同時,在散熱方面,也通過多矢量散熱技術,實現了動態調整冷卻風強度;此外,在安全性和可管理型方面,戴爾PowerEdge 16G服務器也是基于零信任原則設計的服務器平臺,具備更強的安全性和抗風險能力,而可管理性方面,通過iDRAC帶外管理卡功能,也可以動態監控GPU的運行狀態(功率/溫度/散熱等),GPU碳足跡的追蹤報告等。
憑借強大的性能和優秀的設計,在2023年9月正式發布的MLPerf Inference v3.1 AI推理基準測試中,Dell PowerEdge GPU加速服務器在Datacenter Closed賽道項目中,取得了圖像分類(ResNet-50)、語音識別(RNN-T)、自然語言處理(BERT)、推薦系統(DLRM)等7個項目的性能測試第一名。
基于戴爾PowerEdge + Intel Xeon Max解決方案,戴爾科技還可提供無需GPU亦可支撐的AI加速計算,更好的滿足企業在模型微調和模型推理場景中的需求,其優勢在于能夠顯著加速內存帶寬密集型業務,同時通用性更強,成本更低。
其次,針對AI全生命周期的數據管理,戴爾科技通過“數據湖存儲+GPU加速訓練”的方式,一站式滿足企業級用戶的需求,最大化加快企業的創新步伐,以滿足當今、未來以及接下來任何挑戰的需求。
在這方面,戴爾科技推出了專為AI打造的新一代PowerScale全閃存節點,這是全球首個率先通過NVIDIA SuperPOD驗證的以太網存儲平臺,借助這個全新的平臺,企業可以加快創新速度,以更高的靈活性和安全性部署AI應用,同時利用高速的NVIDIA Spectrum以太網技術加速數據訪問并借助智能橫向擴展實現性能最大化。
除此之外,作為構建AI數據平臺的關鍵底座,PowerScale“橫向擴展存儲家族”發展至今,其陣容也非常強大,能夠為企業提供更加多元化的選擇,包括定位“綜合性”的PowerScale A300/A3000;定位“平衡性”的PowerScale H700/H7000,以及定位“性能型”的PowerScale F900、F600以及F200。
今年隨著PowerScale F210/710/F910的“加入”,其性能和密度又得到了全面的提升,由此也能更好地應對AI對于存儲基礎設施的要求和挑戰。
除了針對算力基礎設施創新之外,戴爾科技也提供AI智算平臺軟件解決方案,為企業提供AI框架與系統管理軟件以及專業服務,更好地加速AI工程化、場景化落地。其中,AI框架與系統管理軟件方面,戴爾科技可提供NVIDIA AI Enterprise軟件套件、NVIDIA NeMo框架軟件和系統管理軟件等;同時,借助戴爾科技提供專業技術服務,也能更快的幫助企業將AI平滑地部署到生產環境中。
據了解,戴爾科技在2024年第一季度Forrester Wave人工智能基礎架構解決方案中被評為“領導者”,同時目前國外內已經有很多金融、制造、通訊等行業用戶基于戴爾科技提供的“端到端AI平臺解決方案”構建了企業的AI平臺,不僅實現了AI應用的快速部署與規模擴展,同時也顯著提高了GPU資源的有效利用率,而這也印證了戴爾科技在算力基礎設施領域領先的實力和能力。
由此可見,戴爾科技基于PowerEdge 16G服務器平臺打造的“端到端AI平臺解決方案”,不僅能夠加快推動作為數字經濟基礎設施的AI算力服務器在千行萬業中發揮更大的價值,更快地打通AI落地行業的“最后一公里”,為AI提供關鍵的“技術底座”支撐,也能夠加速讓AI進入行業中各個核心生產環節,更好地賦能千行萬業。
讓每一分算力發揮關鍵價值
另據戴爾科技集團大中華區數據中心解決方案架構師張進介紹,戴爾PowerEdge還不斷從“性能、智能和效能”三個維度保持創新與進化,最大化釋放算力資源,讓每一分算力在企業的數智化轉型中都能夠發揮關鍵價值,具體來看:
第一,在性能維度,高密度和高性能將是未來AI計算的主要趨勢。一方面,大型AI訓練+推理對算力服務器的高密度提出了更高的要求,包括需要強大的擴容性,以滿足AI應用對數據和計算需求的快速增長;更高的機柜功率密度,能夠實現高性能的計算和數據處理能力,以支持復雜的AI算法和模型訓練;具備高效的運行方案,能夠快速、敏捷地響應企業的定制化需求,以滿足企業不斷變化的算力需求。
為此,戴爾科技近期推出的PowerEdge XE9680服務器,就是專為需要高性能以及應對新興復雜AI和HPC工作負載而構建的服務器系統,是首款8路SXM GPU服務器,能夠提供10 個 Gen5 x16 PCIe 插槽和多達 16 個驅動器,為企業提供了巨大靈活性,同時其采用密集風冷設計,即使在高溫環境下也支持最高功率的下一代技術,可為企業提供領先的AI性能。
另一方面,是芯片的“多樣性”,與以往相比,CPU、GPU 和加速器目前出現了許多新的選項,因此決定支持哪些 CPU、GPU 和加速器變得至關重要。戴爾科技為適應這一趨勢,同樣也采用了多樣化的技術路線,比如在桌面端,戴爾科技采用高通的芯片,構建AI PC;在數據中心端,戴爾科技采用通用的加速平臺,支持NVIDIA、Intel和AMD的加速芯片,從工作站平臺,不斷推出適合個人桌面開發的AI Workstation, 到機架式AI workstation,到適合邊緣推理的服務器平臺,再到4卡,8卡的AI加速計算平臺。
在此基礎上,戴爾科技還與NVIDIA、Intel、AMD加強合作,打造就緒的下一代加速卡,未來戴爾科技還將采用Open Rack v3開放機柜,集成液冷組件,形成整機柜交付平臺。
第二,在智能維度,目前計算正從以CPU為核心的系統結構轉向以AI為核心的異構計算體系結構,因此如何更加“精細化”管理AI算力資源,進一步實現“降本增效”的價值就顯得“迫在眉睫”。
為此,在零信任架構方面,PowerEdge服務器平臺全面支持零信任,同時今天零信任更已成為了戴爾科技集團基礎架構端到端生命周期“不可或缺”的一部分。比如,在設計和開發之初,戴爾科技安全開發生命周期(SDL)就優先考慮網絡彈性和零信任,從功能構思到設計再到生產和維護,都要確保能夠為企業提供的基礎架構能成為其彈性基礎的保障;同樣,在制造和交付環節,戴爾科技“供應鏈保證計劃”也實施了在實體、人員和網絡安全領域的“零信任”保障措施,以最大化的確保彈性的制造和交付的過程中。
而在運維管理方面,PowerEdge也提供“三位一體”的全方位算力管理能力。比如PowerEdge服務器是業界首家推出iDRAC(免代理管理)軟件的公司,iDRAC具有嵌入式、遠程、功能豐富、免代理的管理功能,能夠提供超過180項的服務器測量結果;此外,OpenManage Enterprise(OME)功能,可管理高達8000臺服務器,平均可節省高達85%的時間,并能夠通過自動化消除幾十個步驟,給企業客戶在未來全面實現自主部署、自主配置和自主管理的數字化基礎架構夯實了基礎;而全新的“CloudIQ for PowerEdge”,則是一款面向戴爾基礎架構的AIOps軟件,能夠基于云的方式,為企業級客戶提供統一的門戶網站開展監控、分析和提示能力,由此客戶就能夠運用主動監控和預見性分析能力,獲得智能化基礎架構的洞察力。
第三,在效能維度,戴爾科技認為算力效率的達成既要確保算力的穩定,也要確保算力“功耗”的平衡。為確保算力的穩定,PowerEdge服務器在產品設計上通過模塊化、松耦合設計,讓服務器硬盤背板、LOM、iDRAC均為可無工具拆卸的部件;在散熱方面,利用MVC技術,讓散熱效率更高;在電源上,也通過電源前端電壓保護殼設計的“小巧靈活”,不影響后端電源;在用戶體驗上,PowerEdge服務器在每個部件方面也都做了創新,確保為企業提供更好的產品使用體驗。
而在算力“功耗”平衡方面,戴爾科技也打造了智能冷卻解決方案“全家福”, 提供包括風冷,冷板式(DLC)和浸沒式液冷方案等,為企業數據中心帶來更加高效和豐富的冷卻方案,助力企業“節能減排”,幫助企業最大化降低運營成本。
其中,在風冷領域,PowerEdge服務器提供創新功能,擴大了空氣冷卻配置的范圍,如通過先進的設計,讓服務器內的氣流通道得以簡化,將適量的氣流導向需要的位置;采用最新一代的風扇和散熱片,由此可以管理先進的高TDP CPU和其他關鍵組件;智能化熱控制功能的加入,也可以幫助企業在工作負載或環境變化期間,自動調節氣流,無縫地支持氣流通道插入,以及圍繞溫度/電力/聲響提供增強的控制選項等。此外,冷板式液冷領域, PowerEdge服務器也可以對高密度配置中的高性能CPU和GPU選項,進行有效地管理散熱,進一步提升整體系統效率;而浸沒式液冷領域,PowerEdge服務器不僅支持將服務器完全浸入冷卻液TANK中,也支持非傳統空間,無需空調空氣(例如倉庫)等高密度機架或高TDP零件,幫助客戶100%熱捕獲和節能。
將AI算力融入企業,成就了各行各業的數智化轉型;將AI算力融入智慧應用,促成了人工智能和大模型的爆發;將AI算力融入千行萬業,就推動了數字經濟的前進和新質生產力的發展。
可以預期的是,未來數字世界的一切基礎,都源于AI算力基礎設施的持續發展,而在此過程中,戴爾科技基于PowerEdge服務器夯實AI時代的“算力底座”,不僅為人工智能的騰飛提供了澎湃動力,同時讓不同的算力在使用上,也都可以像“用水、用電”一樣彈性獲取,讓每一分算力都能夠真正“物盡其用”,其重要價值也可以說:“不止于現在,更關乎未來。”