基金證券行業(yè)與其他金融機(jī)構(gòu)相比,在業(yè)務(wù)模式、風(fēng)險(xiǎn)特征、監(jiān)管機(jī)構(gòu)等方面都存在鮮明差異,這也意味著相比于其他金融機(jī)構(gòu),基金證券行業(yè)在運(yùn)維監(jiān)控工具的選擇與應(yīng)用上,必須更加關(guān)注業(yè)務(wù)數(shù)據(jù)及投資運(yùn)營的相關(guān)指標(biāo),而不僅僅是基礎(chǔ)設(shè)施的狀態(tài)。
同時(shí)基金行業(yè)機(jī)構(gòu)的業(yè)務(wù)、技術(shù)和數(shù)據(jù)提速極快,各類基礎(chǔ)和應(yīng)用系統(tǒng)相互交叉,帶來了更為復(fù)雜的影響關(guān)系,也帶來了指數(shù)增加的業(yè)務(wù)風(fēng)險(xiǎn)和運(yùn)維挑戰(zhàn),最容易感知的影響就體現(xiàn)在——曾經(jīng)靠人力做到的問題定位時(shí)間被無限拉長(zhǎng)。大多機(jī)構(gòu)雖然已部署多種監(jiān)控系統(tǒng),但由于缺乏一體化、智能化的監(jiān)控分析手段,在監(jiān)控的全面性、日志有效分析、異常定位準(zhǔn)確和效率、容量預(yù)估精細(xì)度等方面,已明顯表現(xiàn)出不滿足實(shí)際工作需求的現(xiàn)狀。
基于關(guān)鍵指標(biāo)的傳統(tǒng)監(jiān)控,難以應(yīng)對(duì)復(fù)雜IT和業(yè)務(wù)
傳統(tǒng)基于關(guān)鍵指標(biāo)的監(jiān)控方法,通常是通過設(shè)定一組指標(biāo)或閾值來實(shí)現(xiàn)監(jiān)控。當(dāng)這些指標(biāo)或閾值超出預(yù)設(shè)范圍時(shí),系統(tǒng)就會(huì)發(fā)出預(yù)警信號(hào)或自動(dòng)化處理。然而,在基金證券行業(yè)的運(yùn)營中,傳統(tǒng)基于關(guān)鍵指標(biāo)的監(jiān)控方法已經(jīng)不再適用,原因和影響如下:
第一,傳統(tǒng)監(jiān)控方式忽略了交易鏈路中的細(xì)節(jié)環(huán)節(jié),容易造成大量業(yè)務(wù)故障。
基金證券行業(yè)的交易鏈路非常復(fù)雜,包括多個(gè)環(huán)節(jié)和參與方。傳統(tǒng)基于關(guān)鍵指標(biāo)的監(jiān)控方法難以對(duì)每個(gè)細(xì)節(jié)環(huán)節(jié)進(jìn)行有效的監(jiān)控,監(jiān)控的粒度較低,不能很好地捕捉交易鏈路中的所有異常情況,容易產(chǎn)生漏報(bào)和誤報(bào)。
第二,基礎(chǔ)IT設(shè)施和業(yè)務(wù)缺乏有效關(guān)聯(lián),問題無法快速定位。
對(duì)于業(yè)務(wù)而言,其判斷標(biāo)準(zhǔn)為:是否能夠打開、慢不慢、是否卡頓、有沒有崩潰。但這些業(yè)務(wù)系統(tǒng)的表象對(duì)于運(yùn)維而言,需要通過大量監(jiān)測(cè)手段和經(jīng)驗(yàn)才能夠匹配業(yè)務(wù)系統(tǒng),傳統(tǒng)監(jiān)控和處理方式經(jīng)常導(dǎo)致問題發(fā)生不能快速定位,造成業(yè)務(wù)停滯風(fēng)險(xiǎn)。
第三,業(yè)務(wù)系統(tǒng)間數(shù)據(jù)互不相通,復(fù)雜故障的權(quán)責(zé)定位耗時(shí)耗力。
基金證券行業(yè)的運(yùn)營模式越來越復(fù)雜,涉及多個(gè)產(chǎn)品、客戶和業(yè)務(wù)流程。傳統(tǒng)基于關(guān)鍵指標(biāo)的監(jiān)控方法難以有效地跟蹤和管理所有運(yùn)營環(huán)節(jié),很難滿足日益增長(zhǎng)的市場(chǎng)需求。
最后,傳統(tǒng)監(jiān)控方式對(duì)于各類網(wǎng)絡(luò)安全威脅無法實(shí)時(shí)進(jìn)行風(fēng)險(xiǎn)提示。
基金證券行業(yè)的風(fēng)險(xiǎn)類型繁多,風(fēng)險(xiǎn)事件的發(fā)生具有一定的隨機(jī)性和不確定性。傳統(tǒng)基于關(guān)鍵指標(biāo)的監(jiān)控方法無法準(zhǔn)確識(shí)別和評(píng)估風(fēng)險(xiǎn),也無法快速做出相應(yīng)的決策和響應(yīng)。
業(yè)務(wù)鏈路復(fù)雜、風(fēng)險(xiǎn)控制嚴(yán)格、資產(chǎn)多樣化、數(shù)據(jù)決策實(shí)時(shí)性等行業(yè)強(qiáng)特征帶來的系統(tǒng)穩(wěn)定性挑戰(zhàn),促使基金證券行業(yè)機(jī)構(gòu)需要加速升級(jí)更加智能化和全面化的監(jiān)控方法。
對(duì)于監(jiān)控能力的需求,從單點(diǎn)發(fā)展到全鏈路升級(jí)
同時(shí),隨著人工智能技術(shù)的發(fā)展,預(yù)測(cè)性運(yùn)維已經(jīng)逐漸成為運(yùn)維領(lǐng)域的主流趨勢(shì)。在運(yùn)維的監(jiān)控場(chǎng)景管理中,也已經(jīng)不僅停留在監(jiān)控的全面性上,從監(jiān)控的問題發(fā)現(xiàn),到告警的智能化管理,再到根因定位輔助決策和一些問題的自動(dòng)化修復(fù),對(duì)于基金證券行業(yè)機(jī)構(gòu)而言愈加重要。這也讓很多機(jī)構(gòu)對(duì)于運(yùn)用AIOps能力來提升運(yùn)維管理的需求,也從單點(diǎn)AI賦能快速擴(kuò)充至端到端全鏈路流程閉環(huán)管理上來。
在多年的行業(yè)實(shí)踐中,鼎茂發(fā)現(xiàn):以運(yùn)維對(duì)象為視角出發(fā),可以實(shí)現(xiàn)針對(duì)每個(gè)運(yùn)維對(duì)象的全面管理和優(yōu)化,從而有效實(shí)現(xiàn)運(yùn)維流程的自動(dòng)化和規(guī)范化管理。
具體來說,以運(yùn)維對(duì)象為視角出發(fā),可以實(shí)現(xiàn)以下幾個(gè)方面的優(yōu)化:
從監(jiān)控方面來看,對(duì)于每個(gè)運(yùn)維對(duì)象,需要定義相應(yīng)的監(jiān)控指標(biāo)和閾值,建立監(jiān)控規(guī)則和策略。通過對(duì)運(yùn)維對(duì)象的監(jiān)控,可以實(shí)時(shí)了解對(duì)象的狀態(tài)和運(yùn)行情況,及時(shí)發(fā)現(xiàn)問題并進(jìn)行處理。
從告警方面來看,當(dāng)運(yùn)維對(duì)象發(fā)生異常或出現(xiàn)故障時(shí),需要及時(shí)進(jìn)行告警。通過對(duì)每個(gè)運(yùn)維對(duì)象設(shè)置告警規(guī)則和通知方式,可以快速響應(yīng)告警事件,并及時(shí)進(jìn)行相應(yīng)的處理。
從根因分析方面來看,當(dāng)出現(xiàn)故障時(shí),需要對(duì)每個(gè)運(yùn)維對(duì)象進(jìn)行根因分析,找出故障的原因和來源。通過對(duì)對(duì)象的日志、指標(biāo)、配置等信息進(jìn)行分析,可以確定故障的根本原因,并提供相應(yīng)的解決方案。
從決策輔助方面來看,針對(duì)每個(gè)運(yùn)維對(duì)象,可以通過數(shù)據(jù)分析和挖掘,提供決策支持和參考。通過運(yùn)用各種算法和模型,可以對(duì)數(shù)據(jù)進(jìn)行分析和挖掘,幫助運(yùn)維人員更加科學(xué)地做出決策。
從運(yùn)維對(duì)象的角度出發(fā),可以將系統(tǒng)中的各個(gè)組件、服務(wù)或應(yīng)用作為獨(dú)立的運(yùn)維對(duì)象進(jìn)行管理和監(jiān)控。通過對(duì)每個(gè)運(yùn)維對(duì)象進(jìn)行定義、建模和配置,可以實(shí)現(xiàn)系統(tǒng)的自動(dòng)化管理和優(yōu)化,從而提高運(yùn)維效率和質(zhì)量。
在針對(duì)兼顧滿足上述需求和挑戰(zhàn)的情況下來看,相比傳統(tǒng)基于關(guān)鍵指標(biāo)的監(jiān)控方法,以運(yùn)維對(duì)象角度來進(jìn)行監(jiān)控,可以將整個(gè)交易鏈路分解為多個(gè)運(yùn)維對(duì)象,并可以根據(jù)需求靈活調(diào)整監(jiān)控對(duì)象和監(jiān)控指標(biāo),針對(duì)每個(gè)運(yùn)維對(duì)象的指標(biāo)和閾值進(jìn)行監(jiān)控,并建立運(yùn)維對(duì)象的模型和預(yù)測(cè)算法……以此支持粒度更精細(xì)、靈活性更高、支持實(shí)時(shí)監(jiān)測(cè)風(fēng)險(xiǎn)、趨勢(shì)預(yù)測(cè)和定位問題根源的全流程智能化監(jiān)控升級(jí)。
鼎茂科技在監(jiān)控場(chǎng)景中的雙需求滿足探索
基于對(duì)監(jiān)控場(chǎng)景本身的難點(diǎn),以及全鏈路解決方案的價(jià)值實(shí)現(xiàn),鼎茂科技在其基于運(yùn)維對(duì)象的一體化智能監(jiān)控解決方案中,從基金行業(yè)的電商、APP、交易、商戶等多類業(yè)務(wù)系統(tǒng)監(jiān)測(cè)指標(biāo)作為切入視角,通過對(duì)多源指標(biāo)、日志、調(diào)用鏈、事件、CMDB等數(shù)據(jù)的統(tǒng)一治理和建模分析,跨系統(tǒng)、跨層級(jí)映射到基礎(chǔ)設(shè)施,形成關(guān)聯(lián)業(yè)務(wù)與IT設(shè)施的一體化智能監(jiān)控體系,涵蓋運(yùn)行監(jiān)測(cè)、趨勢(shì)預(yù)估、端到端分析、告警管理、故障定位、容量預(yù)測(cè)等場(chǎng)景功能,幫助不同數(shù)字化階段的基金機(jī)構(gòu)輕松應(yīng)對(duì)業(yè)務(wù)擴(kuò)展和系統(tǒng)運(yùn)行風(fēng)險(xiǎn)。
該解決方案植入了鼎茂多年在基金證券行業(yè)的運(yùn)維管理知識(shí)沉淀,根據(jù)各類管理角色視角設(shè)定運(yùn)維管理對(duì)象,通過指標(biāo)管理體系和AI分析,全面透視對(duì)象和對(duì)象、對(duì)象和指標(biāo)、指標(biāo)和指標(biāo)之間的影響關(guān)系,將傳統(tǒng)監(jiān)控升級(jí)為基于對(duì)象的全域指標(biāo)可觀測(cè),實(shí)現(xiàn)對(duì)整個(gè)交易鏈路的監(jiān)控和管理,并自動(dòng)做出相應(yīng)的處理和反應(yīng)。這樣可以有效提高監(jiān)控的效率和精度,降低交易風(fēng)險(xiǎn)和成本,提高市場(chǎng)的透明度和穩(wěn)定性。
在技術(shù)架構(gòu)的處理上,解決方案除了采用面向各類混合云環(huán)境和分布式、微服務(wù)等技術(shù)環(huán)境的云原生架構(gòu),還創(chuàng)新采用了全流計(jì)算體系架構(gòu),來應(yīng)對(duì)監(jiān)控運(yùn)營類場(chǎng)景要求極高的數(shù)據(jù)實(shí)效性。
在數(shù)據(jù)治理層面,實(shí)時(shí)采集數(shù)據(jù),經(jīng)過數(shù)據(jù)解析、字典附意和數(shù)據(jù)脫敏等實(shí)時(shí)計(jì)算,提升運(yùn)維大數(shù)據(jù)質(zhì)量,并且根據(jù)不同的數(shù)據(jù)應(yīng)用場(chǎng)景進(jìn)行數(shù)據(jù)分發(fā),從而確保智能監(jiān)控場(chǎng)景的順利構(gòu)建;系統(tǒng)內(nèi)置關(guān)于指標(biāo)時(shí)空多維預(yù)測(cè)和異常檢測(cè)、日志智能分析和基于時(shí)空多維分析的根因定位等標(biāo)準(zhǔn)場(chǎng)景件的AI引擎,通過批處理與數(shù)據(jù)流式計(jì)算結(jié)合,實(shí)時(shí)產(chǎn)生數(shù)據(jù)洞察;同時(shí),系統(tǒng)中包含了低代碼前端構(gòu)建、數(shù)據(jù)模型映射、算法模型編排和流批任務(wù)配置等分布式組件模塊,快速支撐形成個(gè)性化智能監(jiān)控場(chǎng)景。
解決方案在數(shù)據(jù)和計(jì)算層上,搭載了開箱即用的應(yīng)用層功能模塊,包括智能檢測(cè)中心、智能分析中心、智能安全中心、智能預(yù)測(cè)中心和智能定位中心,以及緊貼業(yè)務(wù)和運(yùn)維人員的可視化大屏、ITSM系統(tǒng)對(duì)接和告警事件平臺(tái)等。
同時(shí)方案緊貼業(yè)務(wù)系統(tǒng)和IT物理架構(gòu),不管是負(fù)責(zé)基礎(chǔ)設(shè)施還是應(yīng)用運(yùn)維的員工,都能快速、清晰、準(zhǔn)確地獲取所需要的監(jiān)控及分析信息,同時(shí)在管理及應(yīng)用上,實(shí)現(xiàn)統(tǒng)一視覺,統(tǒng)一語言。
基于這些功能模塊,可以快速協(xié)助基金證券機(jī)構(gòu)實(shí)現(xiàn)從監(jiān)控到問題定位的全流程、業(yè)務(wù)&IT一體化的智能管理能力。
能力1.實(shí)現(xiàn)各類信息系統(tǒng)運(yùn)行狀態(tài)的監(jiān)控
基于【智能監(jiān)測(cè)中心】功能模塊,實(shí)現(xiàn)完整的、端到端的IT基礎(chǔ)架構(gòu)、網(wǎng)絡(luò)及業(yè)務(wù)應(yīng)用程序可用性和性能綜合監(jiān)控。支持通過對(duì)系統(tǒng)和應(yīng)用進(jìn)行智能分組,來創(chuàng)建自定義的業(yè)務(wù)視圖,更為有效地管理系統(tǒng)和應(yīng)用。更重要的是能夠幫助運(yùn)維人員了解底層設(shè)備在每個(gè)業(yè)務(wù)流程中的運(yùn)行情況以及哪些業(yè)務(wù)將受到影響,及時(shí)捕獲各類系統(tǒng)報(bào)錯(cuò)及異常信息。
能力2.支持對(duì)各類應(yīng)用的跨系統(tǒng)數(shù)據(jù)勾稽
基于【智能分析中心】功能模塊,支持根據(jù)不同業(yè)務(wù),配置各類勾稽規(guī)則,實(shí)現(xiàn)不同系統(tǒng)之間各類關(guān)聯(lián)業(yè)務(wù)數(shù)據(jù)的自動(dòng)核對(duì)及告警,運(yùn)維人員可以通過平臺(tái)頁面及大屏,第一時(shí)間發(fā)現(xiàn)異常。
能力3.實(shí)現(xiàn)對(duì)各類業(yè)務(wù)結(jié)果的分析與監(jiān)控
基于【智能分析中心】功能模塊,支持使用時(shí)空多維離群分析,定位不同業(yè)務(wù)行為異常,并進(jìn)行包括頻繁交易、頻繁撤單和頻繁交易失敗等業(yè)務(wù)行為異常場(chǎng)景組合,以此對(duì)異常賬號(hào)進(jìn)行風(fēng)險(xiǎn)等級(jí)評(píng)估和預(yù)警。
能力4.實(shí)現(xiàn)對(duì)各類攻擊信息的分析與監(jiān)控
基于【智能安全中心】功能模塊,使用大數(shù)據(jù)分析結(jié)合機(jī)器學(xué)習(xí)算法,對(duì)基礎(chǔ)架構(gòu)內(nèi)鏈路上所有的設(shè)備日志進(jìn)行串聯(lián)分析,精細(xì)化定位各類攻擊的行為與路徑,匹配特征庫實(shí)時(shí)進(jìn)行風(fēng)險(xiǎn)提示。
能力5.支持基礎(chǔ)及應(yīng)用系統(tǒng)運(yùn)行趨勢(shì)的分析
基于【智能預(yù)測(cè)中心】功能模塊,對(duì)基礎(chǔ)架構(gòu)性能指標(biāo)、服務(wù)吞吐指標(biāo)、服務(wù)響應(yīng)指標(biāo)和業(yè)務(wù)容量等指標(biāo)進(jìn)行時(shí)空多維分析,實(shí)現(xiàn)業(yè)務(wù)容量預(yù)測(cè)、IT規(guī)模預(yù)測(cè)和吞吐增長(zhǎng)預(yù)測(cè)等。
能力6.協(xié)助各類異常的快速定位
基于【智能定位中心】功能模塊,針對(duì)基金行業(yè)較多業(yè)務(wù)系統(tǒng)架構(gòu)相對(duì)穩(wěn)定的特性,以業(yè)務(wù)問題為入口,在業(yè)務(wù)系統(tǒng)固定服務(wù)鏈路下定位根因組件和指標(biāo),再結(jié)合日志模式的異常檢測(cè)與事件引發(fā)鏈的分析,實(shí)現(xiàn)更細(xì)粒度的問題根因定位。
對(duì)鼎茂科技來說,“為企業(yè)數(shù)智化運(yùn)營續(xù)航”不僅僅是一句口號(hào),每個(gè)企業(yè)數(shù)字化轉(zhuǎn)型過程中的每一個(gè)差異化,都在不斷的驅(qū)動(dòng)我們持續(xù)創(chuàng)新。鼎茂科技也將繼續(xù)全力做到深度洞察、深度融合、深度探索、深度鉆研、深度耕耘、深度思考,基于全域AIOps解決方案體系,充分幫助我們的客戶解決數(shù)智化進(jìn)程中的各種問題。