隨著分布式架構(gòu)和云原生技術(shù)加速推進(jìn),運(yùn)維工具相比過去呈現(xiàn)出更高強(qiáng)度的進(jìn)化態(tài)勢(shì),從多個(gè)相對(duì)獨(dú)立的軟件向EA形態(tài)的一體化系統(tǒng)進(jìn)化?;谶@一新的變革點(diǎn),4月7日,DCMG和雙態(tài)IT聯(lián)盟,以“分布式架構(gòu)和云原生時(shí)代的運(yùn)維軟件進(jìn)化”為主題,在武漢舉辦櫻花論壇,央國(guó)企、金融機(jī)構(gòu)等行業(yè)專家和運(yùn)維廠商齊聚,深入探討運(yùn)維平臺(tái)發(fā)展之道,鼎茂科技作為聯(lián)盟成員單位受邀出席。
鼎茂發(fā)表了《基于對(duì)象指標(biāo)管理體系的一體化AIOps探索》的主題Topic,與業(yè)內(nèi)嘉賓探討在分布式云原生背景下AIOps對(duì)企業(yè)運(yùn)維和業(yè)務(wù)的賦能空間,并針對(duì)目前制約AIOps發(fā)展的瓶頸問題,分享了鼎茂在數(shù)據(jù)治理、算法應(yīng)用和場(chǎng)景構(gòu)建等關(guān)鍵領(lǐng)域,運(yùn)用創(chuàng)新技術(shù)和知識(shí)沉淀,全面升級(jí)AIOps價(jià)值落地的探索實(shí)踐。
以下為觀點(diǎn)性內(nèi)容
分布式和云原生帶來的運(yùn)維挑戰(zhàn),AIOps仍然是解決之道
分布式系統(tǒng)和云原生環(huán)境都是高度動(dòng)態(tài)和復(fù)雜的環(huán)境,而且這些環(huán)境正處于不斷變化中。這些環(huán)境包含大量的微服務(wù)、容器和虛擬機(jī)等組件,這些組件會(huì)頻繁部署、擴(kuò)展或縮小。同時(shí)環(huán)境中還面臨各種復(fù)雜的風(fēng)險(xiǎn)、故障,并且由于它們的動(dòng)態(tài)性,傳統(tǒng)的手動(dòng)方法往往無法解決這些問題。
同時(shí)各種組件和服務(wù)之間存在著復(fù)雜的依賴和影響關(guān)系,這給運(yùn)維工作增加了了解和維護(hù)系統(tǒng)的難度。由于這些影響關(guān)系,跨服務(wù)進(jìn)行故障排除和性能分析變得更加困難,當(dāng)分布式架構(gòu)中的一個(gè)模塊出現(xiàn)問題時(shí),可能會(huì)影響整個(gè)系統(tǒng)的性能和可用性,需要花費(fèi)更長(zhǎng)時(shí)間來診斷和解決問題。
因此在分布式系統(tǒng)和云原生環(huán)境中,AIOps變得尤為重要,通過人工智能來補(bǔ)足應(yīng)對(duì)節(jié)點(diǎn)數(shù)量巨大、資源復(fù)雜的IT環(huán)境和彈性業(yè)務(wù)的可能。
在很多實(shí)際應(yīng)用中,AIOps尚未達(dá)到最大化價(jià)值利用
雖然AIOps已經(jīng)被廣泛應(yīng)用于各種組織中,但實(shí)際應(yīng)用還存在許多挑戰(zhàn)和限制,同時(shí)一些企業(yè)可能認(rèn)為AIOps只是一個(gè)技術(shù),還沒有真正體驗(yàn)應(yīng)用場(chǎng)景,因此AIOps尚未達(dá)到最大化價(jià)值利用。
依托AIOps原生具備的能力,可以從整體上賦能企業(yè)運(yùn)維甚至運(yùn)營(yíng)。但從應(yīng)用實(shí)踐來看,對(duì)于AIOps的應(yīng)用局限在一些單一技術(shù)場(chǎng)景,比如告警的異常檢測(cè)、日志分析、性能管理和故障定位等,通過某一領(lǐng)域數(shù)據(jù)和算法賦能,也獲得了速度快、準(zhǔn)確性高的效果。但應(yīng)用場(chǎng)景在復(fù)雜IT環(huán)境下也快速顯現(xiàn)出了場(chǎng)景局限,比如:在金融交易當(dāng)中,我們能夠看到的一些關(guān)鍵指標(biāo)是:交易的成功率、交易的延時(shí)、交易的失敗率、交易的時(shí)間。在單一維度上進(jìn)行算法分析時(shí),看到好的效果;當(dāng)它拓展到IT業(yè)務(wù)層、交易層、服務(wù)層、乃至基礎(chǔ)設(shè)施層,就出現(xiàn)了無法關(guān)聯(lián)定位的情況,也同樣難以支撐分布式系統(tǒng)的跨服務(wù)整體分析。
回歸IT本質(zhì),用【關(guān)系】一體化,突破AIOps制約
拉通服務(wù)和組件,拉通業(yè)務(wù)和IT,拉通數(shù)據(jù)和組織,是一體化運(yùn)維的追求目標(biāo),反觀來看,目前制約AIOps發(fā)展的瓶頸,主要是數(shù)據(jù)治理的質(zhì)量、算法應(yīng)用的效果,和構(gòu)建有業(yè)務(wù)價(jià)值的智能場(chǎng)景。突破了AIOps的制約,也就能夠?qū)崿F(xiàn)一體化智能運(yùn)維的建設(shè)。
從原因找到破解方案。
首先從數(shù)據(jù)層面來看。AIOps需要整合各種數(shù)據(jù)源,包括日志、指標(biāo)、業(yè)務(wù)等數(shù)據(jù)。但是,在企業(yè)中這些數(shù)據(jù)通常散落在不同的系統(tǒng)和應(yīng)用程序中,并且它們之間相互依存。如果這些系統(tǒng)之間的【關(guān)系】沒有得到清晰建模和定義,那么就很難將這些數(shù)據(jù)整合起來,從而限制了AIOps的效果和范圍。
其次從算法層面來看。AIOps需要對(duì)發(fā)生的事件進(jìn)行分析和診斷,以確定根本原因并提出解決方案。但是,在復(fù)雜的IT系統(tǒng)中,一個(gè)問題可能會(huì)涉及多個(gè)組件和依賴關(guān)系。如果這些【關(guān)系】沒有追蹤分析,就很難確定問題的來源和影響范圍。
最后從場(chǎng)景的層面來看。AIOps分析場(chǎng)景眾多,維度復(fù)雜,在業(yè)務(wù)監(jiān)控領(lǐng)域,部分還有很強(qiáng)的關(guān)聯(lián)【關(guān)系】,所以當(dāng)需要進(jìn)行問題追蹤的時(shí)候,不僅發(fā)現(xiàn)算法受到了局限,導(dǎo)致業(yè)務(wù)和IT管理剝離。
針對(duì)【關(guān)系】的解決思路。
1. 以運(yùn)維對(duì)象為視角構(gòu)建運(yùn)維體系
運(yùn)維對(duì)象是指對(duì)于某個(gè)運(yùn)維任務(wù)需要被管理的具體實(shí)體,針對(duì)不同的運(yùn)維管理角色,支持不同的運(yùn)維對(duì)象定義,例如一個(gè)應(yīng)用程序、一個(gè)數(shù)據(jù)庫(kù)或一個(gè)虛擬機(jī)。每個(gè)運(yùn)維對(duì)象都與若干個(gè)運(yùn)維指標(biāo)相關(guān)聯(lián),這些指標(biāo)反映了該對(duì)象在一定時(shí)間范圍內(nèi)的性能和狀態(tài),例如CPU使用率、內(nèi)存利用率、磁盤空間占用等。
IT 的本質(zhì)是很多不同的組件構(gòu)建起一個(gè)個(gè)復(fù)雜的業(yè)務(wù)體系,在復(fù)雜的業(yè)務(wù)體系里,我們能看到的就是不同的對(duì)象,和對(duì)象之間的關(guān)系。一個(gè)有效的運(yùn)維體系應(yīng)該基于具體的運(yùn)維對(duì)象,以確保運(yùn)維活動(dòng)能夠?qū)@些對(duì)象進(jìn)行全面的管理和支持。
2. 面向運(yùn)維對(duì)象的指標(biāo)管理體系
在傳統(tǒng)數(shù)據(jù)庫(kù)的分類里,構(gòu)建的是一套一套的業(yè)務(wù)體系(比如金融的營(yíng)銷、項(xiàng)目管理、保險(xiǎn)理賠等等),這些都是煙囪式的豎井結(jié)構(gòu)。我們需要把它們拉通,建立橫向的關(guān)聯(lián)結(jié)構(gòu)——運(yùn)行時(shí)數(shù)據(jù)關(guān)系。
基于關(guān)鍵指標(biāo)的監(jiān)控,利用AI進(jìn)行計(jì)算和數(shù)據(jù)追蹤,得到對(duì)象間的關(guān)系指標(biāo),我們稱之為衍生指標(biāo)。衍生指標(biāo),就是基于IT本質(zhì)的對(duì)象關(guān)系,對(duì)關(guān)鍵指標(biāo)重要補(bǔ)足,更深入地了解系統(tǒng)運(yùn)行情況。并以此快速評(píng)判目前的監(jiān)控體系是不是完整的、是不是覆蓋度全面的,觀測(cè)對(duì)象整個(gè)健康度評(píng)估狀態(tài)。如何把這些對(duì)象指標(biāo),按照運(yùn)維經(jīng)驗(yàn)把整個(gè)規(guī)范和校準(zhǔn)體系建立起來,是比較重要的。
3. 以對(duì)象+指標(biāo)為中心建立數(shù)據(jù)治理和篩選
區(qū)別于傳統(tǒng)基于數(shù)據(jù)湖為目標(biāo)的數(shù)據(jù)治理方法,鼎茂AIOps的數(shù)據(jù)治理結(jié)合了對(duì)象指標(biāo)關(guān)系,面向?qū)ο蟮年P(guān)系體系,也就是常說的血緣、因果關(guān)系等等,再加上蘊(yùn)含整個(gè)運(yùn)維管理指標(biāo)模型的體系,基于對(duì)象和對(duì)象的關(guān)系企業(yè)建立拓?fù)?,以獲得整個(gè)系統(tǒng)內(nèi)的相互依賴的關(guān)系。
應(yīng)用于分析的數(shù)據(jù)篩選難點(diǎn)在于如何確定哪些數(shù)據(jù)與故障有關(guān),哪些數(shù)據(jù)是無關(guān)或者干擾數(shù)據(jù)。在大規(guī)模的系統(tǒng)中,數(shù)據(jù)可能非常多,需要對(duì)數(shù)據(jù)進(jìn)行快速準(zhǔn)確的篩選。
這樣的數(shù)據(jù)治理和篩選機(jī)制可以基于場(chǎng)景進(jìn)行設(shè)計(jì)和實(shí)施,確保數(shù)據(jù)質(zhì)量、準(zhǔn)確性和可信度,并確保數(shù)據(jù)可以在正確的時(shí)間和地點(diǎn)進(jìn)行分析和使用,從而幫助組織做出更好的決策,降低數(shù)據(jù)治理上的成本。
4. 用關(guān)系為算法和場(chǎng)景賦能
傳統(tǒng)依賴數(shù)據(jù)特征的算法分析是根據(jù)規(guī)律來標(biāo)識(shí)異常點(diǎn)。但加上對(duì)象指標(biāo)為中心的數(shù)據(jù)治理體系之后,上層不僅是單線條觸發(fā),而變成了多條線的交錯(cuò)的、一個(gè)因果范圍里的觸發(fā)。
在事前監(jiān)控階段,包括面向業(yè)務(wù)環(huán)境的指標(biāo)趨勢(shì)、面向IT架構(gòu)的指標(biāo)監(jiān)控等,都注入了對(duì)象指標(biāo),將傳統(tǒng)基于數(shù)據(jù)特征的算法升級(jí)到了以對(duì)象、指標(biāo)、關(guān)系元素的多維分析。比如:上層一個(gè)系統(tǒng)出了問題,當(dāng)有對(duì)象關(guān)系的話,可以分析道具體是哪個(gè)IP、哪個(gè)交易碼的問題。帶來的業(yè)務(wù)價(jià)值是:提前做預(yù)測(cè)、降低傳統(tǒng)的誤報(bào)漏報(bào)、快速定位;以及面向海量Infra指標(biāo)的全量智能覆蓋。
在事中的觀測(cè)階段,利用基于對(duì)象指標(biāo)的數(shù)據(jù)全域治理,加上端到端可視化數(shù)字運(yùn)營(yíng)工具,可以低成本實(shí)現(xiàn)托拉拽建設(shè),還可以將業(yè)務(wù)過程、IT系統(tǒng)、網(wǎng)絡(luò)設(shè)備等多種運(yùn)維對(duì)象聯(lián)系起來,形成一張全面的運(yùn)維管理圖。
在時(shí)候的告警及處置階段,依賴對(duì)象指標(biāo)關(guān)系模型,可以把不同來源、不同維度的告警放到一張按照告警分類分層分級(jí)的標(biāo)準(zhǔn)規(guī)則視圖,實(shí)現(xiàn)根因級(jí)告警能力。
鼎茂基于面向企業(yè)運(yùn)維數(shù)據(jù)對(duì)象指標(biāo)體系為核心的深層治理,全面建設(shè)以事前問題智能發(fā)現(xiàn)、事中快速收斂聚焦、事后多維高效分析為一體化的智能運(yùn)維藍(lán)圖,綜合提升持續(xù)透明管理效能、打造算法和場(chǎng)景雙向賦能的一體化閉環(huán)運(yùn)維,探索面向更具縱深場(chǎng)景能力的全域AIOps體系建設(shè)。