2023年8月31日,第十八屆中國IDC產業(長三角)年度大典在上海召開,本次大會重點關注生成式AI和大模型對算力產業所帶來的變革,通過交流探討算力產業趨勢及應用,促進算力產業的互聯互通與創新發展,為打造數字未來提供堅實支撐。
憑借在上海青浦數據中心自主研發的“白露”間接蒸發冷卻技術、“啟蟄”余熱回收利用等多項數據中心創新技術,UCloud優刻得在本次IDC產業年度大典榮獲“IDCC 2023長三角區域綠色算力基礎設施獎”。
上海市通信管理局最新發布的新型數據中心“算力浦江”行動計劃2023年度重點任務提出:持續統籌優化算力布局、筑強新型算力網絡體系、提升算力賦能應用水平、推動算力產業創新發展、促進綠色低碳算力發展、加強算力安全防護水平。
長三角地區是我國算力產業的重要聚集地,也是人工智能、金融、游戲等數字產業的創新高地。UCloud優刻得上海數據中心正好位于長三角國家算力網絡樞紐節點起步區的上海市青浦工業園區,符合國標A級數據中心標準,具備良好的網絡條件和資源配套,可有效承載金融市場高頻交易、遠程醫療、AI推理等對實時數據分析和網絡條件要求較高的企業數字化業務。
為實現“雙碳”目標,UCloud優刻得在數據中心的設計和建設過程中始終秉持著“綠色、低碳、環保”的發展理念,采用自然冷卻、余熱回收利用、露點式間接蒸發冷卻,并充分利用光伏發電、智能照明、能源管理與智能控制等眾多先進的節能技術,實現了低于1.3的PUE值,大幅降低了數據中心的碳排放量,提升綠色化水平。
“白露”間接蒸發冷卻是UCloud優刻得自主研發的專利技術,重構了間接蒸發冷卻流程,將送風極限由室外濕球溫度調整為室外露點溫度,極大的提高了制冷效率、降低數據中心能耗;“啟蟄”數據中心余熱回收技術,創造性地提出“集散分離、遠近兩宜”的余熱回收利用理念,利用集中式余熱回收方案來實現熱量的遠距離輸送和利用,分布式余熱回收方案來實現熱量的就近利用,以此保障余熱利用效率。
在大會的“算力底座,承載數智未來”主題篇章,UCloud優刻得服務器中心總監丁振雷結合自建數據中心的系統工程經驗進行了內容演講,與大家分享了UCloud優刻得作為中立云計算廠商為AI大模型構建智能算力基礎設施的實踐與思考。
大模型發展勢必需要重資產的投入,同時構建千卡規模的算力集群是一項復雜的系統工程,數據中心高功率機柜的選擇、高速算力網絡的建立健全、GPU服務器的選型等,都是行業所面臨的痛點。而云廠商的價值在于,通過多年成熟的云服務經驗和工程實踐能力,幫助用戶降低大模型的研發門檻和投入成本。
根據“東數西算”國家戰略,UCloud優刻得自建了烏蘭察布和上海青浦兩大高標準、高性價比的數據中心,支持機房模塊布置、基礎設施配置的靈活部署、深度定制,可提供從數據中心、服務器、到計算、存儲、網絡、安全、架構設計的一整套AIGC解決方案,將產品能力轉化成差異性的服務交付給客戶,為企業構建穩定可靠的大模型算力底座。
大會現場,丁振雷從電力功耗、存儲、網絡等方面介紹了當前大模型發展所面臨的挑戰。滿足大模型訓練要求的機房需要以高電機柜支撐高性能GPU算力服務器的運行,同時還需要承擔高昂的電費成本。UCloud優刻得烏蘭察布數據中心具備電力充分、電費低廉、可自然制冷等優勢,相較于北京、上海等同質量數據中心成本可下降40%。數據中心內提供A800/H800等多款適用于模型訓練和推理等不同場景的GPU算力資源,可充分滿足大模型算力集群的高電需求,實現“訓推一體”、“東推西訓”,這種“算力租賃”的方式也會極大的降低使用者的成本。
大模型訓練依賴于大規模分布式并行集群,且GPU服務器之間需要確保高速網絡互聯,大模型訓練的RDMA網絡設計要滿足“大規模、高帶寬”的要求。基于在公有云大規模使用RoCE網絡的工程經驗,UCloud優刻得自建大模型訓練集群RoCE網絡,有效滿足算力集群對高速網絡的性能需求,支持萬張以上的GPU同時接入。
基于大模型訓練對存儲系統高讀寫吞吐的要求,UCloud優刻得升級了基于US3對象存儲的冷熱分離的分布式文件系統。支持本地文件形式掛載,易于適配;GPU節點可使用本地NVMe磁盤作為近端緩存,滿足多層次加速需求;此外還提供高性能和容量一體方案,以滿足訓練數據集的訓練數據和CheckPoint數據長期的大容量存儲需求,以此實現模型訓練效率提升。
在圓桌對話環節,UCloud優刻得混合云業務中心總經理唐立參與探討了“智算變局下商業模式的轉型與創新”。唐立表示,大模型引爆了算力需求,也驅動數據中心向智算中心轉變,擁有成熟的算力部署能力,以及從拿到卡到構建整體算力平臺的一體化工程交付能力,才能追趕上這一波的浪潮和機遇。UCloud優刻得可以提供GPU算力資源、托管算力底座和部署方案,聯動高性能網絡、存儲系統等一整套的解決方案,為AIGC發展提供智算基礎設施支撐。