國(guó)內(nèi)各行業(yè)的IT信息化建設(shè)正處于高速發(fā)展階段,業(yè)務(wù)量與日劇增,伴隨著數(shù)據(jù)大集中,以及業(yè)務(wù)系統(tǒng)的快速上線,運(yùn)維部門作為業(yè)務(wù)網(wǎng)絡(luò)保障部門面臨著巨大挑戰(zhàn)和壓力。由于各種關(guān)鍵業(yè)務(wù)和應(yīng)用都被承載在基礎(chǔ)架構(gòu)、WEB應(yīng)用、中間件和數(shù)據(jù)庫(kù)上,同時(shí)業(yè)務(wù)系統(tǒng)上線需實(shí)現(xiàn)快速、靈活、按需的可插入式部署能力,這使得業(yè)務(wù)的復(fù)雜性和維護(hù)難度大幅增加。如何對(duì)這些復(fù)雜的業(yè)務(wù)系統(tǒng)進(jìn)行有效監(jiān)控和風(fēng)險(xiǎn)防范,保障關(guān)鍵業(yè)務(wù)的高性能和高可用性,以及如何對(duì)現(xiàn)有的運(yùn)維流程進(jìn)行優(yōu)化,不斷提升管理和運(yùn)維水平已經(jīng)成為新的難題。
以某企業(yè)為例,該企業(yè)的數(shù)據(jù)中心部署了大量負(fù)載均衡設(shè)備,經(jīng)常出現(xiàn)大量Limiting closed port RST Respond 告警信息,由于沒(méi)有流量分析能力以及標(biāo)準(zhǔn)運(yùn)維工作流程,每次出現(xiàn)該問(wèn)題時(shí)運(yùn)維人員不知道是如何引起,對(duì)業(yè)務(wù)有沒(méi)有影響。因此定位故障總是需要耗費(fèi)大量時(shí)間,造成排查效率較低。具體難點(diǎn)如下:
業(yè)務(wù)運(yùn)行環(huán)境越來(lái)越復(fù)雜,故障定位慢,各種業(yè)務(wù)系統(tǒng)越來(lái)越多,系統(tǒng)對(duì)相關(guān)資源的依賴性高,系統(tǒng)一但出現(xiàn)任何問(wèn)題,需要逐個(gè)排查,故障定位難;
運(yùn)維工作繁重,缺少工具和手段,維護(hù)人員每天面臨大量的重復(fù)性、手工性的故障排查工作,不僅費(fèi)時(shí)費(fèi)力,而且容易出錯(cuò),亟需新的手段幫助提升效率;
日常運(yùn)維工作流程混亂,或者沒(méi)有標(biāo)準(zhǔn)流程,造成工作效率低下,同時(shí)客戶抱怨、投訴不減;
為解決以上運(yùn)維痛點(diǎn),nCompass流量分析平臺(tái)從用戶的實(shí)際情況出發(fā),以數(shù)據(jù)作為切入點(diǎn)進(jìn)行面向業(yè)務(wù)的數(shù)據(jù)可視化智能分析,從智能告警-數(shù)據(jù)回溯-數(shù)據(jù)分析-故障定位-分析流程代碼化-智能分析六方面解決目前運(yùn)維管理中面臨的一些實(shí)際問(wèn)題。
告警出現(xiàn)
F5設(shè)備出現(xiàn)大量Limiting closed port RST Respond 告警信息。
【告警示意圖】
由上圖可以看出,某企業(yè)F5設(shè)備出現(xiàn)了大量Limiting closed port RST Respond告警信息,并且告警信息一直在持續(xù),運(yùn)維人員無(wú)從下手。
數(shù)據(jù)回溯
nCompass通過(guò)數(shù)據(jù)可視化手段,將維度指標(biāo)的組合過(guò)濾進(jìn)行問(wèn)題回溯,可查詢各個(gè)VLAN中Reset包信息以及Reset包數(shù)量。經(jīng)過(guò)過(guò)濾后的表格可以看到是哪一個(gè)VLAN的 Reset數(shù)量最高。
【維度選擇示意圖】
【指標(biāo)選擇示意圖】
【數(shù)據(jù)表格示意圖】
通過(guò)上圖“數(shù)據(jù)表格示意圖”,可以看出,在nCompass數(shù)據(jù)表格選擇好維度與指標(biāo)后,可以將相關(guān)數(shù)據(jù)全部在數(shù)據(jù)表格中得以展現(xiàn),通過(guò)展示出的數(shù)據(jù)得出VLAN2007 REST數(shù)量最高。
數(shù)據(jù)分析
接下來(lái)對(duì)表格中通過(guò)添加維度的方式對(duì)Reset數(shù)量最高的VLAN進(jìn)行下鉆分析,可以看出客戶側(cè)Reset包無(wú)明顯異常IP,服務(wù)側(cè)Reset列發(fā)現(xiàn)0.16服務(wù)端Reset占比超過(guò)80%。
【客戶端下鉆示意圖】
【服務(wù)端下鉆示意圖】
在得出VLAN2007 REST數(shù)量最高后,我們要對(duì)其進(jìn)行下鉆分析,首先進(jìn)行客戶端下鉆,通過(guò)上圖“客戶端下鉆示意圖”可以看出,客戶端REST數(shù)量雖然總數(shù)過(guò)高,但是平均在每一個(gè)客戶端上之后,只有幾個(gè)或者幾十個(gè),所以可以先排除客戶端異常。我們接下來(lái)在對(duì)服務(wù)端進(jìn)行下鉆分析,通過(guò)上圖“服務(wù)端下鉆示意圖”發(fā)現(xiàn)服務(wù)端REST指標(biāo)列最高達(dá)到了1,565,194個(gè),他對(duì)應(yīng)的IP為*.*.0.16,可以得出結(jié)論,服務(wù)端*.*.0.16為異常IP。
再通過(guò)nCompass DNS解析發(fā)現(xiàn)0.16對(duì)應(yīng)域名telemetry.*******.com非公司域名。
【DNS解析示意圖】
得出異常IP后,我們可以將其帶入至nCompass內(nèi)置視圖DNS解析中,通過(guò)“DNS解析示意圖”中可以看出,異常IP*.*.0.16對(duì)應(yīng)域名為telemetry.*******.com,經(jīng)過(guò)DNS與CMDB的排查得出telemetry.*******.com非本公司正常域名。
故障定位
通過(guò)F5將0.16加入黑名單進(jìn)行攔截后,整體服務(wù)端Reset下降明顯,Limiting closed port RST Respond相關(guān)告警趨勢(shì)明顯下降。由此可見(jiàn),造成Limiting closed port RST Respond相關(guān)告警量突增的原因就是由0.16導(dǎo)致。
【告警趨勢(shì)示意圖】
將異常IP的訪問(wèn)進(jìn)行攔截后,可以通過(guò)上圖“告警趨勢(shì)示意圖”看出,告警趨勢(shì)明顯下降。
分析流程代碼化
nCompass作為新一代數(shù)據(jù)可視化智能分析平臺(tái),不僅擁有可視化分析能力,可以快速定位故障所在,同時(shí),系統(tǒng)還支持將運(yùn)維人員分析問(wèn)題的經(jīng)驗(yàn)代碼化,將個(gè)體經(jīng)驗(yàn)留存至系統(tǒng)知識(shí)庫(kù)中,此后再有類似告警產(chǎn)生,系統(tǒng)將自動(dòng)調(diào)用先前錄入的智能分析腳本。
【代碼化示意圖】
如上圖“代碼化示意圖”所示,在每一次解決問(wèn)題之后,nCompass可以將分析經(jīng)驗(yàn)進(jìn)行代碼化,當(dāng)在出現(xiàn)類似問(wèn)題時(shí),可以直接進(jìn)行調(diào)用,一鍵分析問(wèn)題,提高運(yùn)維效率。如果您是一位編程高手或是遇有復(fù)雜的分析場(chǎng)景,產(chǎn)品也提供Python編輯器,來(lái)實(shí)現(xiàn)復(fù)雜的數(shù)據(jù)分析腳本。
智能分析
當(dāng)告警產(chǎn)生,系統(tǒng)將自動(dòng)調(diào)用智能知識(shí)庫(kù),給出故障的詳細(xì)分析報(bào)告。報(bào)告內(nèi)容包括分析對(duì)象、異常現(xiàn)象、分析結(jié)論、排錯(cuò)具體命令、后續(xù)建議等,同時(shí)報(bào)告中還會(huì)提供詳盡的數(shù)據(jù)分析過(guò)程數(shù)據(jù),以支撐分析結(jié)論,為運(yùn)維人員下一步處置提供決策支持。
【智能分析報(bào)告示意圖】
nCompass采用多源數(shù)據(jù)的采集方式,不僅可以基于流量進(jìn)行分析,還支持與DNS、CMDB等進(jìn)行對(duì)接,實(shí)現(xiàn)更深層次的關(guān)聯(lián)分析。如上圖“智能分析報(bào)告示意圖”所示可以看出,分析對(duì)象為VLAN2007,在8月22日,發(fā)生了異常REST日志現(xiàn)象,我們不僅通過(guò)流量對(duì)其進(jìn)行分析,還通過(guò)DNS與CMDB的自動(dòng)調(diào)用來(lái)確定域名為異常域名,并且針對(duì)現(xiàn)象給出合理建議。
nCompass 流量分析平臺(tái)從告警出現(xiàn)-數(shù)據(jù)回溯-數(shù)據(jù)分析-故障定位-分析流程代碼化-智能分析六個(gè)方面為運(yùn)維人員實(shí)現(xiàn)了從人工分析到智能分析的轉(zhuǎn)變,在提供大量數(shù)據(jù)支撐的同時(shí),還為運(yùn)維人員提供一鍵式的故障分析能力,大幅降低了運(yùn)維數(shù)據(jù)分析時(shí)對(duì)某些特定領(lǐng)域內(nèi)專業(yè)經(jīng)驗(yàn)的依賴,提升了團(tuán)隊(duì)的整體排障效率。為運(yùn)維人員真正解決了日常運(yùn)維故障定位難、運(yùn)維工作繁重、重復(fù)性高、沒(méi)有標(biāo)準(zhǔn)流程的困擾,實(shí)現(xiàn)運(yùn)維故障“簡(jiǎn)單、快速,一鍵輸出分析結(jié)果”。