用戶業(yè)務(wù)應(yīng)用增多,硬件性能跟不上?
云環(huán)境變得復(fù)雜,運維工作量不減反增?
運維人力成本日益激增,技術(shù)人才越招越少?
——信服云托管云的AIOps業(yè)務(wù)全生命周期持續(xù)性保障系統(tǒng)來啦!
幫助企業(yè)構(gòu)建實時、持續(xù)的保障體系,覆蓋業(yè)務(wù)全生命周期場景,以多層級時序監(jiān)控對關(guān)鍵指標(biāo)進(jìn)行采集與觀測,基于規(guī)則預(yù)測以及AI預(yù)測算法構(gòu)建故障預(yù)測引擎。
同時,圍繞業(yè)務(wù)全生命周期,建立基于AI技術(shù)的全棧預(yù)測,分析以及評估系統(tǒng),完成問題自動定位和自動修復(fù)閉環(huán),實現(xiàn)事先風(fēng)險預(yù)防和主動規(guī)避,保障業(yè)務(wù)全生命周期的持續(xù)性。
↑ 業(yè)務(wù)全生命周期持續(xù)性保障系統(tǒng)能力概覽
一、磁盤故障預(yù)測
通過智能采樣,解決故障磁盤的樣本不均衡問題,并解決時序依賴,自研小樣本場景下基于深度學(xué)習(xí)的故障預(yù)測技術(shù),捕捉相鄰磁盤間的故障傳播的模式,從而實現(xiàn)精準(zhǔn)的磁盤故障預(yù)測。
↑ 智能采樣
二、內(nèi)存ECC預(yù)測與隔離
(1)內(nèi)存ECC告警與隔離
大量CE報錯會導(dǎo)致CE風(fēng)暴,造成系統(tǒng)宕機(jī),故需要對其先進(jìn)行地址隔離,然后更換內(nèi)存條,完成處置閉環(huán)。要想做到隔離地址的快速精確,最好是先對高風(fēng)險CE地址的進(jìn)行預(yù)隔離,進(jìn)而做到內(nèi)存條物理插槽快速定位,方便運維人員及時更換。另外,還需要采取持久化隔離,避免主機(jī)重啟后隔離失效。
(2)內(nèi)存ECC預(yù)測
基于機(jī)器學(xué)習(xí)算法,系統(tǒng)對歷史特征進(jìn)行學(xué)習(xí),并進(jìn)行內(nèi)存失效預(yù)測,提前預(yù)警,防患未然。其中主要包括基于CE特征預(yù)測CE風(fēng)暴、UE等內(nèi)存故障,基于內(nèi)存性能、電壓等指標(biāo)評估DRAM健康狀況,使預(yù)測結(jié)果更準(zhǔn)確,降低誤報導(dǎo)致的物料浪費,預(yù)測周期1-2小時。
↑ CE風(fēng)險地址關(guān)聯(lián)分析↑ CE隔離效果
三、資源預(yù)測
資源預(yù)測告警可以展示即將資源耗盡的服務(wù)器組、資源池、虛擬機(jī)。
CPU、內(nèi)存、存儲預(yù)測中,可以看到歷史數(shù)據(jù)和未來趨勢,以及剩余安全容量、預(yù)計多少天后將超過安全容量閾值、以及建議擴(kuò)容容量。
當(dāng)資源過剩時,也可基于智能算法對閑置虛擬機(jī)進(jìn)行識別,回收對應(yīng)的資源池或服務(wù)器資源。
↑ 識別閑置虛擬機(jī)
未來,在故障預(yù)測、分析與自愈上,該系統(tǒng)將完善各個業(yè)務(wù)場景的故障預(yù)測分析工作,根據(jù)專家經(jīng)驗的處置決策樹設(shè)置自動處置閉環(huán),并基于強(qiáng)化學(xué)習(xí)優(yōu)化處置策略。
在識別業(yè)務(wù)特征上,將識別包含業(yè)務(wù)性能與不同資源的敏感度、業(yè)務(wù)特定的最佳實踐方案等。使得業(yè)務(wù)在故障、亞健康等場景下,能夠準(zhǔn)確、快速地定位問題,比如幫助后端運維提前感知問題,及時更換硬件,避免因硬件問題引發(fā)的業(yè)務(wù)中斷。
另外,在硬件亞健康集群的分析上,系統(tǒng)可以提供集群版本升級建議,以及DRS各類調(diào)度優(yōu)化能力,可以更加準(zhǔn)確地針對性地對業(yè)務(wù)進(jìn)行優(yōu)化,一定程度上避免資源浪費。
還可根據(jù)托管云硬件故障情況分析硬件故障率,硬件故障變化趨勢等信息,為硬件導(dǎo)入選型提供事實舉證,并結(jié)合硬件故障率在數(shù)據(jù)中心的分布,給倉儲備件的分配提供優(yōu)化建議。
在托管云上,借助于業(yè)務(wù)全生命周期持續(xù)性保障系統(tǒng),用戶可以直觀地了解當(dāng)前業(yè)務(wù)運行健康程度與面臨的風(fēng)險大小,提前預(yù)測風(fēng)險,并及時處置,從而實現(xiàn)業(yè)務(wù)的穩(wěn)定連續(xù)運行。