2023年8月23日-25日,全國高性能計算學術年會(CCF HPC China 2023)在青島舉辦。 在本屆大會上,華為自研企業級超大規模集群分布式管理軟件-多瑙調度器憑借其高效調度能力、多樣性算力支持和極簡管理的先進性和創新性,榮獲中國計算機學會高性能計算專業委員會頒發的技術創新獎。
高性能計算正在從高精尖科研創新領域走向千行百業。2022年,華為正式發布了鯤鵬高性能計算解決方案(鯤鵬HPC解決方案),該方案基于鯤鵬全棧(含硬件、基礎軟件、應用優化等),通過硬件開放和軟件開源,打造高性能、高算力的整機產品和完整的高性能計算基礎軟件棧。多瑙套件(含多瑙管理平臺和多瑙調度器)是鯤鵬HPC解決方案的核心軟件,多瑙調度器支持百萬核超大規模調度和異構多集群統一管理,大幅提升集群管理效率和多核作業調度能力。
調度器作為集群計算的大腦,主要負責為任務分配相應的系統資源。好的調度器可以充分發揮集群資源的有效算力,為用戶帶來極致的性價比;反之則會導致嚴重的資源浪費,甚至是集群癱瘓。
華為自研企業級超大規模集群分布式管理軟件-多瑙調度器,支持融合應用跨多樣性算力資源的統一調度和管理,實現大規模、高資源利用效率、高調度性能,為多樣性計算集群提供應用和資源的最佳匹配。多瑙調度器基于前沿的架構設計理念進行設計開發,橫向支持HPC、AI、大數據多場景統一調度;縱向支持應用、算力、存儲、網絡、能耗深度感知和多維度智能調度;跨數據中心支持數據中心間資源協同,全局調度,并具備以下三大先進性和創新性:
●高效調度:通過自研多線程事件引擎、IO技術優化,支持單集群1萬節點/百萬核資源調度,資源利用率90%+,吞吐量超過400萬/小時;通過啟動作業多級樹狀分發關鍵技術創新,支持40萬RANK MPI作業調度啟動。
●多樣性支持:通過節點標簽、資源模型抽象統一技術,支持鯤鵬/x86/GPU多樣性算力混合部署;通過架構分層、接口適配,以不侵入修改三方集群方式支持異構多集群統一管理,實現資源統籌規劃和高效利用。
●極簡管理:集成應用、監控、報表、計費四大中心功能,通過Web界面可視化管理集群,管理效率提升30%;提供設計計算一體化集成能力,數據不出湖,端到端保障數據安全。
多瑙度器一經推出,受到了廣大客戶的青睞,目前已經在教育科研、制造、氣象、生命科學、高能物理、材料化學等各個行業應用,幫助客戶打造性能更佳、成本更優、效率更高的高性能計算基礎設施“底座”提供重要支撐,為高性能計算用戶提供更容易落地的產品和解決方案,加速構建創新發展格局。