數(shù)字化浪潮之下,運維能力也逐漸成為現(xiàn)代企業(yè)的競爭力之一。
在過去的數(shù)十年間,運維發(fā)展經(jīng)歷了數(shù)個階段。從早期的手工運維到標準化運維、自動化運維,再到DevOps、AIOps,追溯整個歷程不難發(fā)現(xiàn),運維方式隨著技術(shù)的不斷發(fā)展,逐漸邁向智能化。
2016年,Gartner面向運維提供了一個新概念——“AIOps”,中文釋義智能運維。即其是以AI等手段為核心,為運維提供更為智能和數(shù)字化的支撐。也就是說,把運維從“人”的要素抽離出來,更多的放到“數(shù)據(jù)”一側(cè)。其中包含的場景更加豐富,包括異常告警、告警收斂、故障分析、趨勢預(yù)測、故障畫像等等。
所謂的AIOps,簡單理解就是基于自動化運維,將AI和運維很好的結(jié)合起來。
AIOps的落地在多方面直擊傳統(tǒng)運維的痛點,AI算法承擔起分析海量運維數(shù)據(jù)的重任,能夠自動、準確地發(fā)現(xiàn)和定位問題,從決策層面提高運營效率,為企業(yè)運營和運維工作在成本、質(zhì)量和效率方面的優(yōu)化提供了重要支持。
市場方面,全球IT研究機構(gòu)Gartner預(yù)測:“到2022年,將有40% 的大型企業(yè)部署AIOps(智能運維)平臺。”
可見,AIOps 在企業(yè)中的作用正在進一步放大。但事實上,很多企業(yè)對于AIOps 能解決什么問題并不清晰,今天我們就以博睿數(shù)據(jù)的AIOps 的三大場景和算法說起。
博睿數(shù)據(jù)的AIOps 實踐
作為領(lǐng)先的APM應(yīng)用性能管理廠商,在AIOps實踐方面,多年來博睿數(shù)據(jù)積極擁抱人工智能、機器學(xué)習(xí)等新技術(shù)變革的浪潮,并基于AI和機器學(xué)習(xí)技術(shù),自主研發(fā)了“數(shù)據(jù)接入、處理、存儲與分析技術(shù)”核心技術(shù)體系,全面布局智能基線、異常檢測、智能告警、關(guān)聯(lián)分析、根因分析等豐富且廣泛的智能運維功能,并將AIOps能力融入端到端全棧監(jiān)控產(chǎn)品線,可為傳統(tǒng)企業(yè)提供強大的數(shù)據(jù)處理、存儲和分析的軟件工具,幫助客戶整合各類IT運維監(jiān)控數(shù)據(jù),實現(xiàn)數(shù)據(jù)的統(tǒng)一存儲和關(guān)聯(lián)分析,打破數(shù)據(jù)孤島,構(gòu)建統(tǒng)一的IT運維管理平臺,讓企業(yè)的IT運維更加智能化、自動化。
在此基礎(chǔ)上,博睿數(shù)據(jù)還依托完整的IT運維監(jiān)控能力,利用大數(shù)據(jù)和機器學(xué)習(xí)技術(shù)持續(xù)構(gòu)建先進的智能運維監(jiān)控產(chǎn)品,2021年先后推出了搭載了AI能力的新一代APM產(chǎn)品Server7.0和新版的統(tǒng)一智能運維平臺Dataview,不斷落地智能異常檢測、根因分析、故障預(yù)測等場景。基于人工智能的能力實現(xiàn)運維監(jiān)控場景的信息整合、特征關(guān)聯(lián)和業(yè)務(wù)洞察,幫助企業(yè)確保數(shù)字化業(yè)務(wù)平穩(wěn)運行,并保障良好的數(shù)字化體驗。
博睿數(shù)據(jù)AIOps 場景與算法
目前,博睿數(shù)據(jù)在AIOps 技術(shù)方面主要落地了三大場景。即智能基線預(yù)測、異常檢測及告警收斂。
首先來看智能基線預(yù)測。
智能基線預(yù)測指的是基于歷史數(shù)據(jù),利用智能算法進行深度學(xué)習(xí),對未來一段時間內(nèi)每個時間點的數(shù)值進行精準預(yù)測,將預(yù)測值作為基線來監(jiān)控和告警。
如上圖所示,對未來 24 小時的數(shù)據(jù)預(yù)測結(jié)果用虛線表示, 灰色區(qū)域代表正常數(shù)據(jù)的波動范圍。 如果實際值超出灰色區(qū)域就代表出現(xiàn)了異常。
IT運維人員在對業(yè)務(wù)服務(wù)數(shù)據(jù)進行問題檢測時,通常會使用動態(tài)基線來對實時數(shù)據(jù)進行檢驗和衡量。在實時數(shù)據(jù)與動態(tài)基線數(shù)據(jù)兩條曲線的擬合度相似的情況下,則該業(yè)務(wù)是較為健康的;若動態(tài)基線與實時數(shù)據(jù)離散程度較大,則當前業(yè)務(wù)存在問題。
目前,博睿數(shù)據(jù)在智能基線預(yù)測方面應(yīng)用的算法包含實時預(yù)測算法、離線算法預(yù)測、流式算法預(yù)測三種。
再來看下異常檢測。
異常檢測指的是通過歷史數(shù)據(jù)的機器學(xué)習(xí)來動態(tài)預(yù)測數(shù)據(jù)的趨勢,無須手動設(shè)置閾值,可以根據(jù)指標的數(shù)據(jù)特征自動識別異常。
如圖所示,灰色區(qū)域代表了正常數(shù)據(jù)的波動范圍, 紅色數(shù)據(jù)點即為異常數(shù)據(jù)點。
IT運維人員在對應(yīng)用服務(wù)運行狀態(tài)的檢測過程中,通過AIOps的異常檢測算法,可以判斷圖中紅色區(qū)域的數(shù)據(jù)即為異常數(shù)據(jù),深灰色條狀區(qū)域為可容忍的業(yè)務(wù)波動范圍。同時,運維人員也可以通過數(shù)據(jù)集特征數(shù)據(jù),對當前時段內(nèi)數(shù)據(jù)進行事件聚合,全面分析當前事件對應(yīng)用的全部影響波動范圍。
目前,博睿數(shù)據(jù)在異常檢測方面應(yīng)用的算法包括靜態(tài)基線(絕對靜態(tài)基線 +差分靜態(tài)基線) 、智能基線+NSigma判別等。
最后來看下告警收斂。
所謂告警收斂即基于多條有關(guān)聯(lián)的告警信息,合并為一條故障,對當前處于故障狀態(tài)的的警報可能造成的影響進行預(yù)測判斷,從而實現(xiàn)故障的提前預(yù)警,減少冗余告警事件對運維工作的干擾。
目前,博睿數(shù)據(jù)在告警收斂方面應(yīng)用及規(guī)劃使用的的算法包括事件熵、頂點熵、時域關(guān)聯(lián)、文本相似度關(guān)聯(lián)、拓撲關(guān)聯(lián)、NMF+Kmeans等。
為AIOps行業(yè)發(fā)展添磚加瓦
在現(xiàn)有博睿數(shù)據(jù) AIOps 場景、算法、能力的基礎(chǔ)上進一步延展和豐富,打磨日志異常檢測、根因分析、影響分析、自然語言處理、diy算法等能力, 用 AI 算法賦能日志管理、一體化運維、應(yīng)急自愈快恢和算法實驗室等業(yè)務(wù)場景,助力企業(yè)加快數(shù)字化轉(zhuǎn)型進程。
隨著企業(yè)業(yè)務(wù)規(guī)模擴大,云原生與微服務(wù)的興起,企業(yè)IT架構(gòu)復(fù)雜性呈現(xiàn)指數(shù)級增長。而傳統(tǒng)的IT運維手段面臨故障發(fā)生后,查找故障原因困難,故障平均修復(fù)時間周期長,已無法滿足新的運維要求。因此運用人工智能賦能運維,去取代緩慢易錯的人力決策,快速給出運維決策建議,降低問題的影響并提前預(yù)警問題就成為了必然。AIOps作為目前運維發(fā)展的最高階目標,未來將會賦能運維帶給用戶全新的體驗。
但需要注意的是,當前智能運維的很多產(chǎn)品和項目在企業(yè)側(cè)落地效果并不理想,究其原因可歸類為三點:一是數(shù)據(jù)采集與AI平臺割裂,多源數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系缺失導(dǎo)致AI平臺缺乏高質(zhì)量的數(shù)據(jù),進而導(dǎo)致模型訓(xùn)練效果不佳;二是數(shù)據(jù)采集以metric和log為主,導(dǎo)致應(yīng)用場景較窄且存在數(shù)據(jù)孤島問題;三是AI平臺能力尚有提升空間。當前落地的場景多以異常檢測與智能告警為主,未來需要進一步提升根因分析與故障預(yù)測的能力。
因此,未來企業(yè)首先要建設(shè)一體化監(jiān)控運維平臺,一體化是智能化的基礎(chǔ)。基于一體化監(jiān)控運維平臺采集的高質(zhì)量的可觀測數(shù)據(jù)數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,進一步將AIOps的能力落地到一體化監(jiān)控運維平臺中,從而實現(xiàn)問題精準定位與見解能力。
此外,在實際應(yīng)用中,依據(jù)信通院的相關(guān)調(diào)查,其受訪企業(yè)中只有不足20%的企業(yè)具有智能化監(jiān)控和運維決策能力,超過70%的企業(yè)在應(yīng)用系統(tǒng)出現(xiàn)故障的10分鐘內(nèi)一籌莫展。
各行業(yè)的數(shù)字化轉(zhuǎn)型正在改變這一現(xiàn)狀,不僅互聯(lián)網(wǎng)企業(yè),更多傳統(tǒng)企業(yè)的數(shù)字化轉(zhuǎn)型為智能運維開拓了更廣闊的市場,智能運維有著巨大的發(fā)展空間,這也是博睿數(shù)據(jù)等行業(yè)領(lǐng)先企業(yè)發(fā)力的大好時機。
提升創(chuàng)新能力,推廣智能運維不僅是相關(guān)服務(wù)商自身發(fā)展的要求,也是提升我國企業(yè)應(yīng)用管理和運維水平的使命。
中國企業(yè)數(shù)字化轉(zhuǎn)型加速,無論是前端的應(yīng)用服務(wù)迭代更新,還是后端IT運維架構(gòu)的復(fù)雜度提升,都在加速培育智能運維的成長。????