11月19日,為期兩天的2021 GOPS全球運維大會完美落幕。大會由高效運維社區(GreatOPS)和開放運維聯盟(OOPSA)、RPA時代社區聯合主辦,于上海舉行。七牛云受邀出席了此次大會,七牛云運維架構師敖文武在會中為大家分享了七牛云關于AIOps的探索與實踐經驗。
2021 GOPS全球運維大會,主要面向運維行業的中高端技術人員,目的在于幫助運維人員系統學習了解相關知識體系,讓創新技術推動社會進步。七牛云成立至今始終堅定不移地推動開發者生態的建設。七牛云團隊運營著數十個面向開發者的社群,主張技術共享并發起各類技術傳播的活動,如架構師實踐日、Niu Talk 數據科學系列論壇等,在全球開發者社區有著深遠的影響力和領導力,對AIOps也進行了探索、實踐與思考,擁有著豐富的行業經驗。
七牛云敖文武分別從 AI 和運維 OPS 的關系、七牛云內部AIOps探索和實踐、七牛云對AIOps的思考與總結分三個方面進行了講解與分享。敖文武指出,運維在故障處理流程中的各個環節,如問題發現、檢測、分析、根因定位和響應處理等,其中在整個流程中根因定位分析所占時間長達 60%,嚴重依賴運維專家的知識和經驗。而七牛云「PISA」產品,能夠進行梳理數據建模分析,構建出關鍵業務調用鏈路,并通過動態閾值計算,預測未來服務分數等算法能力。實現快速根因定位,有效縮短MTTR 40%,并逐步在運維內部落地,進一步優化了根因定位分析占時長的問題。
從運維角度,為什么需要 AIOps?
整個故障處理過程中,問題定位所需要的時間占比達到 60%。
在實踐中,MTTK (Mean Time to Know) 環節嚴重依賴運維專家的知識和經驗,且難以口口相傳,這也從一定程度上影響了實踐的效果與人才的培養。
所以,我們需要一種方法將專家知識和經驗沉淀下來,實現更加高效的定位和決策。
七牛云內部的探索和實踐
內部在 AIOPS 上針對如何快速定位問題上做了一些探索和落地實踐:
系統可觀測性
依托“PISA”智能服務分析,構建系統可觀測性。SRE 專家經驗知識沉淀,加速問題定位。
業務健康評分
多維度 KPI 指標占比評分計算,主動綜合預測業務健康和趨勢預測。
告警智能降噪
針對不同告警規則做指標數據分類,降低告警風暴,提升告警準確度。
動態閾值
靜態指標弊端很多,無法適應流量峰值周期,集群規模一直在變化。靜態的閾值要么是設置過低、要么是過高。所以我們采用時序檢測算法、訓練指標歷史數據,有效識別周期性異常波動。
可觀測性核心要素:1、Metrics 指標性統計
度量應用某一類信息的正確率、成功率、流量等,這是我們常見的應用單個統計聚合。2、Tracing 分布式追蹤
一次請求的范圍,服務于服務,服務于組件之間的依賴追蹤。3、Logging 日志記錄
程序在執行的過程中間發生了一些日志,會包含報錯信息、堆棧信息等詳細日志內容。
基于七牛云 Pandora 平臺,構建智能運維分析工具「PISA」。「PISA」針對企業在數字信息化過程中,業務系統與 IT 系統割裂,面對IT 人員分析問題難,解決問題耗時長,各類監控軟件數量繁多但無法協同等問題現狀,需要有效連接企業的業務系統和 IT 系統,通過提升整體的可觀測性、實時洞察隱患、快速根因定位、提前預知故障等手段,才能幫助企業提高系統穩定和減少損失。將傳統的被動式運維變成主動式運營,讓數據產生更高價值。
除此之外,在平臺機器學習工具包上,還集成了大量的算法、能夠進行管理模型和快速驗證。雖然工程師直接做算法存在門檻,但卻可以參與模型的訓練,也能通過不同條件組合進行參數調整,特征優化以追求更好的效果表達。關于我們自己的思考和總結
數據維度越全面越好。
所有數據標準化越規范統一越好。
第三,場景(知識)越深入越好。如果本身對運維場景理解不是特別深,不理解場景當成產品功能去做的話,只能做出一個完整的產品功能,但很大概率上無法直接落地。因為線上環境復雜多元,而且非常依賴運維專家的能力和經驗。AIOps 能夠順利落地,一定是在 SRE 或 DevOps 最佳實踐中升華而來。
如何借助AI能力與運維場景進行一個數據維度全面、數據標準規范統一、場景知識深入的深度結合并順利落地實現,是七牛云對AIOps的深刻思考與理解。