近日,由清華大學、中國移動、中國計算機協會互聯網專業委員會主辦的第三屆國際智能運維(AIOps)挑戰賽決賽在杭州舉行。來自全國產學研各界的141個企業與高校團隊、673名選手報名參賽,經過五個多月的激烈角逐,微眾銀行智能運維團隊首次參賽便挺進六強,最終獲得全國季軍。
據了解,國際智能運維(AIOps)挑戰賽已經舉行兩屆,旨在加強工業界與學術界的交流,促進AIOps技術的迅速發展和落地。此次挑戰賽的課題是“微服務”應用系統的故障排查,是微眾銀行過去兩年在智能化領域主要研究的方向。微眾銀行基于自主可控的分布式架構搭建,運維該架構最大的挑戰便是微服務的穩定運行。當應用系統異常時,如何快速定位及恢復,一直是運維人員亟待解決的首要問題。在此次復賽階段,各參賽團隊需每晚22點上傳運維數據,在最短時間提交檢測結果,對參賽隊伍的檢測速度和檢測準確率都提出了極大挑戰。微眾銀行的代表團隊最快3秒提交結果,真正做到了秒級識別和秒級定位,這也是對其兩年來智能運維系統建設的成果檢驗。
作為首家互聯網銀行,微眾銀行自上線之初即承擔著如何降低IT運維成本、降低金融服務門檻以便讓更廣泛的用戶享受到普惠金融服務的使命,而利用人工智能、大數據等創新科技提升智能運維水平,正是提升運維效率、降低運維成本的有效手段。
據了解,2018年微眾銀行開始應用機器學習算法進行運維智能化建設。借助智能化運維手段,微眾銀行實現了由機器人管家負責資源調配,僅需不超過10名運維人員就可以管理萬余臺服務器,大幅度降低IT運維成本,減少人為可能造成的失誤;運用神經網絡技術,通過系統自動學習,無需人工介入即可實時精確的發現指標異動,減少95%的監控配置工作量;應用機器學習、神經網絡與知識圖譜技術,大幅提升異常檢測準確率,異常識別準確率提升至96%;應用異常根因定位(RCA)方法論,在異常發生的1分鐘內根因定位系統即可給出異常根因的方向和結論,根因定位準確率高于80%,并自動通知運維人員,大幅減少異常處置時間,平均通報時長僅12.6分鐘。在疫情期間,異常根因定位更支持運維團隊實現了部分事件手機遠程在線處理,有效提升了運維效率。
智能化的運維系統有力保障了銀行信息系統的穩定運行、大大降低了運維成本。2019年,微眾銀行有效客戶數逾2億,單日交易筆數近6億,消息峰值 24萬/秒,達到國有大型銀行同等規模水平。在如此高并發高交易壓力下,全年產品綜合可用率達99.9985%。得益于系統的穩定性和高可用,2019年微眾銀行戶均IT運維成本僅3.5元,約為國內銀行業界的10%。
在數字技術日新月異的當今,運維智能化重要性愈發成為工業界的共識,未來,微眾銀行將會繼續著力推進AIOps落地探索和實踐,為普惠金融業務的進一步發展提供可靠的基礎支撐。