“數智互聯,瞰見未來”2023第六屆上海人工智能大會近日圓滿閉幕,必示科技作為智能運維行業代表企業,受邀出席并分享題為《AI賦能金融運維領域的落地與應用》的主題演講。
本屆上海人工智能大會由中國科學技術協會指導,中國國際科技促進會,中國民營科技實業家協會專精特新專委會,長三角人工智能發展聯盟,長三角數字化轉型公共服務平臺主辦;上海市突出貢獻專家協會,上海市人工智能學會,上海市計算機學會,上海士研管理咨詢有限公司承辦;中小銀行互聯網金融(深圳)聯盟,“一帶一路”信息產業國際發展聯盟,上海大數據聯盟聯合主辦,是國內人工智能領域產-學-研交融互動的年度盛會。必示科技作為智能運維企業代表,與現場的頂級學者和業內著名技術大咖一道,共同探討人工智能的學術、人才、技術以及行業發展痛點,探討人工智能的發展路徑及未來愿景。
在“數字賦能”AI+金融科技主題論壇上,必示科技資深算法專家殷康璘在題為《AI賦能金融運維領域的落地與應用》的演講中,分享了必示科技近幾年利用人工智能技術賦能金融運維領域的產品落地經驗。
必示科技資深算法專家殷康璘博士
AIOps(智能運維)的本質是將AI技術與傳統IT運維領域生態深度融合,利用AI技術實現運維數據服務和運維專屬AI服務。企業通過構建智能運維平臺,加速智能運維場景落地,助力運維提質增效,賦能行業數智化升級。
一方面,智能運維既隸屬于國家的戰略領域,也是在銀行、證券、保險等金融行業數字化轉型的大背景下運維行業的發展方向,同時銀保監會、中國人民銀行等機構近兩年也在金融科技、數字化轉型等方面對智能運維提出了實質性的要求。另一方面,當前新技術、新應用導致IT系統環境管理規模、復雜性、要求迅速提升,傳統的“監、管、控”工具需要調整以適應混合架構的管理要求,同時需要具備運維數據分析的能力,這些對傳統運維團隊都提出了從技術到管理的全面挑戰。
智能運維(AIOps)概念提出到實施落地已有多年,伴隨著業界一些AIOps項目的落地實施,業內逐漸對智能運維的價值、效果和建設路徑等方面產生疑惑。作為深耕于金融行業智能運維產品研發與落地實施的國家高新技術企業-必示科技,通過服務60余家金融頭部企業的經驗,經過多年的技術探索和工業實踐,總結出了聚焦智能運維落地效果方面的方法論:即目標明確、人機協同、多方協作、持續運營。
必示科技經過持續的技術研發、工業實踐和產品迭代,推出了滿足AIOps事前、事中、事后階段均對“運維系統穩定性”產生價值和效果的必示智能產品矩陣。
發生即發現:智能監控+智能事件管理平臺
必示智能監控產品對實時數據流進行動態監測。提前發現異常并生成故障預警,故障發現準確率95%以上。平均故障發現時間下降至5分鐘內,最快可達30秒。
告警管理是運維過程中不可或缺且耗時耗力的工作。傳統告警管理平臺,多數僅聚焦于告警的集中管控,缺乏對告警的分析及結論推薦。必示智能事件管理平臺,在實現告警全生命周期集中管控的基礎上,結合先進的告警分析算法,實現“關鍵告警一屏清”、“故障排查有方向”、“告警治理有保障”等運維目標。
某銀行使用必示智能運維產品后,無論從系統覆蓋和監控點的數量、分析維度均有較大幅度的提升,同時分析鏈路上也從調用鏈路分析升級到了全局交易鏈路分析。
必示智能監控平臺通過無監督學習算法,支持數十萬級指標實時檢測。通過智能檢測實現動態閾值調整,以及曲線特征自動提取和選擇、聚類算法使用、自動敏感度調整等技術創新,使故障發現準確率95%以上,平均故障發現時間下降至5分鐘內,最快可達30秒。從源頭上減少告警數量,提升告警發生時告警發現和處理效率,
通過智能摘要分析實現多維度多視角的告警分析報告。從傳統的盯告警列表變成看摘要報告,幫助一線運維人員或者應急值班經理實現分鐘級的故障定界,加速故障排查和處置,特別適用于處理告警風暴的場景。
在大規模故障發生時,通過針對重要業務,構建告警智能分析大屏,實現從告警風暴識別、告警路徑分析到可疑應用推薦的全棧能力。而在重保場景下對告警數據進行實時智能分析,從而保障業務的健康度和業務連續性。
發現即定位:故障定位分析
故障排查是運維人員最復雜且最心累的工作。目前故障排查基本通過多團隊協作,人工收集信息,并憑經驗做決策判斷,整個過程效率低,時間長。必示智能故障分析平臺利用各種AI檢測技術,自動化專家排障經驗,實現對70%以上故障的分鐘級精準排查,降低故障恢復時間,減少業務損失。
傳統排障的典型場景是:凌晨3點20,一線值班人員接到oracle告警并電話通知二線值班工程師,二線要起床從賓館趕到ECC,登錄到Grafana查看具體原因。這個過程至少應該10-15分鐘。而二線值班工程師排障過程更是根據經驗判斷,需要多團隊寫作、人工收集信息,并憑借經驗做判斷決策,排障時間也因故障程度和排障難度而不受控制。
必示故障分析平臺可以通過告警拓撲展現和自動根因推薦,提升排障效率,實現分鐘級排障。通過排障圖的方式固化排障經驗,來沉淀運維專家經驗。當故障發生時可按照排障圖去自動摸排根因,像運維專家親臨現場。同時,通過自動識別CMDB數據的缺失、異常和錯誤,自動判斷關鍵告警缺失,為數據治理提供依據和方向。某銀行銀行使用智能故障分析系統快速發現故障后,在接到告警后的處置情況如下:
提前發現風險:必示風險感知平臺
70%以上運維生產事故是由變更引起,目前變更問題發現主要靠人工檢查和經驗判斷的方式經常出現錯查漏查的情況,必示智能變更風險感知平臺通過人機協同的方式幫助運維人員減少90%的變更驗證時間并有效發現60-80%的變更風險隱患。
某客戶在部署風險感知平臺后,在某應用系統夜間變更,風險感知平臺在變更后10分鐘啟動變更風險檢查,針對該系統和相關交易碼的業務指標在變更前后的變化進行分析,發現變更后該系統業務指標與多個易碼業務指標均存在明顯異常,包括系統級風險4項、交易碼風險7項、主機風險72項。提醒客戶關注變更異常問題。管理員和項目組確認問題后,及時進行了版本回退,避免了嚴重運行風險的產生。
必示變更風險感知平臺提供靈活的任務模板編排能力,基于運維專家對業務場景的理解和風險檢查經驗,內置豐富的風險檢查智能算子,能夠封裝不同領域對象、不同類型指標,支持用戶根據自身業務特點、場景需求來積極探索人機協同模式下的更多個性化風險感知場景,提升場景上線效率,加速場景落地。
總結:
必示科技的智能運維產品矩陣,利用人工智能技術賦能金融行業的運維系統,平臺產品包括:提前發現風險-智能風險感知平臺、事件發生即發現-智能監控平臺&智能事件管理平臺、發現即定位-智能故障分析平臺,從事前預警和預防、事中快速發現和定位、事后經驗知識沉淀三個方面助力企業提升智能運維平臺能力,降低MTTR,延長MTBF。
未來,必示科技進一步明確“具有清晰可度量的運維價值”的產品定位, 以人工智能技術和工匠精神,推動智能運維產品力和創新力的提升,助力金融企業系統運行風險防范,加速必示智能運維矩陣,在金融行業高質量落地,助力金融企業數智化轉型。