日前,GOPS全球運維大會在深圳正式召開。GOPS 全球運維大會由高效運維社區(GreatOPS)、開放運維聯盟(OOPSA)和 DevOps 時代社區聯合主辦,面向互聯網、金融、通信及傳統行業廣大運維技術人員,旨在傳播先進技術思想和理念,分享業內最佳實踐。
會上,華為云SRE首席架構師李浩發表題為“基于量化分析設計高可用架構,構建確定性運維能力”的主題演講,深入分享確定性運維能力如何為行業業務構建穩定可靠的云底座。同期,華為云還舉辦了“維享會”精英沙龍,攜手趣丸、丹姿、金蝶、小鵝網絡等企業的運維總監、技術負責人,共同針對不同行業、不同規模、不同數字化轉型階段的企業運維經驗進行交流分享。
維享會·精英沙龍(GOPS專場)
龐大、復雜、快速變化,成為系統運維的關鍵挑戰
在千行百業的數字化轉型中,軟硬件迭代加速,企業的業務系統越來越龐大、復雜且處于快速變化中,保障系統的穩定可靠,是企業業務最基本的“生命線”。
為此,華為云SRE提出“確定性運維”能力體系,這是面向云時代的高效能、高質量的運維體系,也是融合“高可用架構”、“動態風險治理”、“高度智能運維框架”形成的有機結合體。通過“確定性運維”,華為云將業務高速發展帶來的“不確定性”變成SLO的“確定性”。 其中,通過高可用設計消除風險因素,是達成確定性的前提。
華為云主張的確定性運維能力體系
“運維也許被認為是默默干活的‘駱駝’,但是未來不能總是‘駱駝’,因此要正本清源,在前端架構上把交付產品設計好。一個高可用的架構才有現網好的質量結果,現網的高質量結果,不是僅靠簡單運維出來的,而是前端設計和后端運維一起努力得到的效果。”李浩在演講時表示。
“用數學工具解決工程問題”,建立云系統和云應用的高可用模型
設計確定性高可用架構,首先要解決的就是如何度量的問題。在架構設計中,華為云使用了系統可用度評估模型,該模型是由三個決定性因素構成:失效率,即中斷次數;恢復時長,包括發現時間、定界時間、恢復時長;故障影響,即每次中斷影響的租戶數量。通過這三個因素,可計算出系統最終的可用度,基于這一評估模型,運維團隊可更有針對性地進行高可用設計,追求系統整體可用度的最優。
華為云SRE首席架構師李浩
“SLO的優秀結果絕對不是靠運氣實現,系統的可用性一定需要靠前端設計出來”。李浩表示,系統的可用度如何,并不是現網通過事件度量出來的,而是通過前端設計,在架構設計階段就保障SLO是可信的。在這個過程中,還可能遇到各種挑戰,如質量要素的非線性導致的結果不確定性、質量要素的數量爆炸、質量要素之間存在相關性等問題。
為了解決這些問題,華為云以RBD(Reliability Block Diagram)模型和馬爾科夫模型作為理論基礎,對華為云現網長時間運轉產生數據進行分析,圍繞硬件故障、軟件故障、變更問題、過載/安全這四大中斷因素,將這些故障的中斷次數、中斷時長等數據作為模型的基礎參數。基于這些方法,可進一步準確統計服務器的可用度,軟件bug概率等,從而構建出華為云架構可用度評估模型和技術規范。
華為云通過這樣一套工程體系,建立每個云服務的SLO檔案,并通過數據分析和量化計算的方式找到系統的短板,支撐高可用方案選型。據介紹,當前華為云已基于該模型解決了大量實際問題,包括集群節點數量設定、多組件復雜分布式系統的組件連接方式等。
面向未來,量化分析模型完整系統還有很多路要走。李浩表示,華為云將持續創新,把各種子模型合并,實現更加完備的、更準確的計算系統可用度。
一切皆服務,幫助企業構建確定性運維能力
為了幫助更多企業構建穩定可靠的云上業務,華為云將自身確定性運維實踐經驗沉淀,以服務的形式提供給千行百業,讓運維變革成為企業數字化轉型的加速器。
首先,華為云根據與眾多企業交流經驗梳理出“確定性運維能力成熟度模型”,支撐企業評估自身運維的成熟度并識別短板,從而制定符合其需求的運維變革目標和轉型、進階措施,加快提升企業整體運維能力。
確定性運維成熟度模型
其次,華為云SRE提供了規劃與設計服務,可協助企業應用開發及運維團隊規劃運維體系藍圖及演進路標,使得企業運維在能力上向確定性升級、在組織上向SRE模式轉型、在流程上持續優化、在工具上加快智能化,從而持續優化SLO指標、人均維護基線、故障恢復時長,達到高度確定性結果。
最后,華為云SRE還提供確定性運維專家培訓課程,采用理論+案例實戰的方式,為企業運維人員深度解讀國內外SRE實踐的發展方向,分享如何構建與提升軟件及系統工程能力,從而幫助企業進行組織與團隊能力建設。
從2022年開始,華為云加快攜手客戶、業界伙伴共創確定性運維能力,在全國開展“維享會”(確定性運維經驗交流分享會)活動。目前,維享會已經開展了30余期,覆蓋不同的城市、行業、客戶,打造了行業分享運維最佳實踐和創新技術的優秀平臺。
高效一站式運維,支撐高可用架構量化分析及能力構建
本次大會,華為云還首次對外展示了云運維中心(Cloud Operations Center)。作為一體化運維平臺,該平臺可助力企業用戶更好實現確定性運維,打造高度集中化的運維和管控能力;同時,平臺支持混合云及多云管理,并沉淀SRE最佳實踐,實現場景智能化運維全局最優決策推薦等,實現“一站式”的操作能力。
站點健康監測大屏演示效果
面對行業數字化轉型和確定下運維需求,華為云云運維中心將主要助力企業構建6大運維能力:
故障快速恢復:沉淀多年SRE故障領域知識庫,實現故障恢復最優決策和自愈;
變更風險管控:變更風險智能識別和攔截,確保變更過程安全可信;
資源運維管理:高效的資源自動化運維,智能分批灰度,極大提升效率;
韌性評估優化:應用高可用架構自動評估,及時發現問題驅動改進;
全棧可觀測性:應用資源全場景視角的數據層現,按需自定義看板;
統一運維門戶:運維風險、事件、任務等集中可視和操作,一站式完成處理;
在產品架構設計上,華為云以集成促統一,以統一促簡化,以數字化使能運維主動管理和優化改進,通過持續治理與敏捷并重,在安全合規的基礎上不斷提升效率,實現運維競爭力突破。
面向數字化未來,企業的IT運維將迎來更多新變革和新挑戰。華為云SRE基于自身數字化轉型實踐經驗,攜手客戶、伙伴持續開展運維變革與創新,助力運維成為企業業務發展加速器,加速千行百業數字化轉型,共同構建“確定”的數字世界。