近日,QCon全球軟件開(kāi)發(fā)大會(huì)在廣州舉辦。深信服創(chuàng)新研究院高級(jí)技術(shù)專(zhuān)家易佳在現(xiàn)場(chǎng)帶來(lái)《深信服桌面云AIOps智能運(yùn)維一體化方案演進(jìn)》的主題演講。
本次演講重點(diǎn)分享了深信服在桌面云場(chǎng)景下AIOps的相關(guān)實(shí)戰(zhàn)經(jīng)驗(yàn),以下是他的演講內(nèi)容摘要。
一、深信服桌面云簡(jiǎn)介
桌面云,即虛擬桌面架構(gòu)(Virtual Desktop Infrastucture),俗稱(chēng)虛擬云桌面(VDI)。VDI的核心是云桌面的計(jì)算存儲(chǔ)網(wǎng)絡(luò)在服務(wù)器端完成,通過(guò)專(zhuān)有協(xié)議連接云桌面。易佳介紹,深信服桌面云具有移動(dòng)性強(qiáng)、不受地域限制、集中管控、安全度高等特點(diǎn)。
二、挑戰(zhàn)與方案設(shè)計(jì)
隨著桌面云運(yùn)維遇到第三方軟件兼容性、藍(lán)屏、木馬等挑戰(zhàn),企業(yè)需要快速定位問(wèn)題所在,如應(yīng)用卡慢、響應(yīng)延遲等,以及企業(yè)可能遇到私有云資源不足、硬件故障、網(wǎng)絡(luò)等深層挑戰(zhàn),為此,深信服提出了桌面云智能運(yùn)維一體化技術(shù)方案。
該方案包括數(shù)據(jù)服務(wù)和智能分析服務(wù)兩大核心部分。其中,數(shù)據(jù)源主要為L(zhǎng)ogs、Traces和Metrics,表示桌面云的日志、鏈路和指標(biāo)數(shù)據(jù)。
所有數(shù)據(jù)經(jīng)由數(shù)據(jù)總線流入數(shù)據(jù)分析引擎,統(tǒng)一存儲(chǔ)于InfluxDB、MongoDB等數(shù)據(jù)庫(kù),結(jié)合OpenAPI,供上層調(diào)度、分析和業(yè)務(wù)應(yīng)用。
調(diào)度器部分,包括策略下發(fā)器、動(dòng)作與建議編排、平臺(tái)自身健康監(jiān)測(cè)等;
算法分析部分,包含特征工程、訓(xùn)練與模型調(diào)優(yōu),常用算法如故障預(yù)測(cè)、異常檢測(cè)、關(guān)聯(lián)推理等;
業(yè)務(wù)系統(tǒng)部分,包括閑置虛擬機(jī)識(shí)別、虛擬機(jī)擴(kuò)容縮容建議等,如果出現(xiàn)故障,對(duì)故障進(jìn)行溯源和故障分析。
這里數(shù)據(jù)采集引擎使用的是Sangfor AIOps Agent,借鑒了telegraf、datadog等開(kāi)源agent的思想,實(shí)現(xiàn)了基于Golang的插件化采集引擎,支持采集Windows、Linux等多類(lèi)不同維度的指標(biāo)數(shù)據(jù),供給AIOps分析。
隨著用戶(hù)訴求和用戶(hù)體量的的不斷變化,AIOps數(shù)據(jù)模型與AI框架演進(jìn)了三個(gè)版本。
第一個(gè)版本主要是一套輕量級(jí)監(jiān)控分析系統(tǒng),支持時(shí)序數(shù)據(jù)、告警數(shù)據(jù)、統(tǒng)計(jì)分析和容器化部署;支持主機(jī)、虛擬機(jī)數(shù)據(jù)采集做簡(jiǎn)單AI分析,適用于小規(guī)模用戶(hù)。
第二個(gè)演進(jìn)的版本是一個(gè)輕量級(jí)AIOps引擎,支持OpenAPI和數(shù)據(jù)統(tǒng)一調(diào)度。同時(shí)也在這個(gè)版本引入緩存機(jī)制,實(shí)現(xiàn)了存算分離。同時(shí),更多的AI算法也得到了支持。
從第三個(gè)版本開(kāi)始,實(shí)現(xiàn)了一套桌面云全棧AIOps引擎。在該版本中,面對(duì)數(shù)據(jù)上報(bào)的性能瓶頸問(wèn)題,抽象了數(shù)據(jù)接口,實(shí)現(xiàn)負(fù)載均衡。
其次是設(shè)計(jì)了投遞分級(jí),內(nèi)存磁盤(pán)雙對(duì)列。對(duì)于優(yōu)先級(jí)比較高的實(shí)際數(shù)據(jù)、實(shí)際體驗(yàn)影響比較關(guān)鍵的指標(biāo),優(yōu)先保障入庫(kù)。
同時(shí),也做了多級(jí)分表,優(yōu)化了數(shù)據(jù)結(jié)構(gòu)。保留橫向擴(kuò)展能力,按集群分庫(kù)分表。減少非必要的tag入庫(kù),如ip和hostname,只在tag中保留一個(gè)。
為了平衡實(shí)時(shí)性與準(zhǔn)確度,減少重復(fù)數(shù)據(jù),可以按采集指標(biāo)區(qū)分不同采集周期,如CPU設(shè)定為10s采集一次,memory設(shè)定為20s采集一次;靜態(tài)數(shù)據(jù)盡量只采集一次,如服務(wù)器型號(hào)、磁盤(pán)大小;加入了時(shí)間窗口內(nèi)數(shù)據(jù)去重,如進(jìn)程信息等;根據(jù)指標(biāo)量與繁忙程度,動(dòng)態(tài)調(diào)整采集周期。
最后,針對(duì)多維異構(gòu)數(shù)據(jù)進(jìn)行了冷熱分層處理,冷數(shù)據(jù)存檔供AI離線分析和模型訓(xùn)練,熱數(shù)據(jù)實(shí)時(shí)監(jiān)控和展示。
三、算法設(shè)計(jì)
深信服桌面云AIOps引擎提供業(yè)務(wù)自適應(yīng)的AI調(diào)度,包括統(tǒng)一數(shù)據(jù)管理、統(tǒng)一模型管理和統(tǒng)一平臺(tái)策略。
涉及的算法包括基于bagging策略的分段線性回歸算法、基于網(wǎng)格搜索的縮擴(kuò)容模型、基于資源約束算法和貪心策略的虛擬機(jī)新增模型、基于時(shí)間序列特征提取和隨機(jī)森林的閑置資源識(shí)別模型等。
基于bagging策略的分段線性回歸算法,目的是設(shè)計(jì)一套評(píng)分模型來(lái)評(píng)測(cè)當(dāng)前虛擬機(jī)、主機(jī)和集群的健康程度。
基于CPU、內(nèi)存、磁盤(pán)、告警等多維度學(xué)習(xí),為每個(gè)維度建立弱學(xué)習(xí)器,最后綜合多個(gè)弱學(xué)習(xí)器構(gòu)建強(qiáng)學(xué)習(xí)器,計(jì)算得出整體的健康評(píng)分。
該算法綜合評(píng)價(jià)多維核心資源消耗數(shù)據(jù),以識(shí)別整體負(fù)載水平,結(jié)合專(zhuān)家經(jīng)驗(yàn)設(shè)置的告警規(guī)則以捕捉偶發(fā)異常,運(yùn)用bagging策略進(jìn)行加權(quán)投票計(jì)算出機(jī)器的最終健康度評(píng)分。
基于網(wǎng)格搜索的縮擴(kuò)容模型在公有云或混合云場(chǎng)景也比較常見(jiàn)。當(dāng)虛擬機(jī)CPU和內(nèi)存資源不夠或過(guò)剩時(shí),需要做精細(xì)化調(diào)度,在保證體驗(yàn)的同時(shí),控制運(yùn)營(yíng)成本。
該模型基于歷史的CPU和內(nèi)存時(shí)序數(shù)據(jù)來(lái)計(jì)算有效峰值,根據(jù)計(jì)算得到的資源有效峰值數(shù)據(jù)判斷是否命中縮容/擴(kuò)容策略,若命中則進(jìn)一步判斷該虛擬機(jī)是否處于懶惰機(jī)制保護(hù)時(shí)間段,判斷通過(guò)后基于網(wǎng)格搜索以及A/B Test方法給出虛擬機(jī)最佳推薦配置。
資源約束算法和貪心策略的虛擬機(jī)新增模型,是基于總體可容納并發(fā)和當(dāng)前并發(fā)來(lái)設(shè)計(jì)的,根據(jù)并發(fā)量來(lái)計(jì)算整個(gè)集群剩下多少內(nèi)存和vCPU,讀取集群整體配置情況以及當(dāng)前虛擬機(jī)并發(fā)情況。
根據(jù)經(jīng)驗(yàn)換算公式得到mhz單位的CPU容量剩余數(shù)據(jù)與內(nèi)存剩余數(shù)據(jù),捕捉虛擬機(jī)平均vCPU消耗數(shù)據(jù)后,基于資源約束算法結(jié)合貪心策略,輸出可新增虛擬機(jī)建議和硬件擴(kuò)容優(yōu)化指引。
基于時(shí)間序列特征提取和隨機(jī)森林的閑置資源識(shí)別模型,結(jié)合可擴(kuò)展假設(shè)測(cè)試的時(shí)間序列特征,擴(kuò)充虛擬機(jī)特征維度,訓(xùn)練隨機(jī)森林模型,輸出虛擬機(jī)閑置概率以及處置建議,同時(shí)收集用戶(hù)反饋迭代優(yōu)化預(yù)訓(xùn)練模型以形成閉環(huán)。
四、實(shí)踐與落地效果
該方案支撐大盤(pán)、集群、主機(jī)、虛擬機(jī)、網(wǎng)絡(luò)、存儲(chǔ)、應(yīng)用軟件全棧監(jiān)控與分析。方案引入50+規(guī)則診斷一些核心指標(biāo)問(wèn)題,采集超過(guò)800維度的數(shù)據(jù),適配30+卡慢場(chǎng)景,實(shí)現(xiàn)20+機(jī)器學(xué)習(xí)和統(tǒng)計(jì)算法,從而做到識(shí)別出常見(jiàn)的異常問(wèn)題。
在桌面云場(chǎng)景下,虛擬機(jī)內(nèi)第三方進(jìn)程問(wèn)題比較多,應(yīng)用深信服桌面云AIOps方案之后可以改善很多。
針對(duì)卡慢問(wèn)題,深信服桌面云卡慢/故障異常檢測(cè)準(zhǔn)確率達(dá)到87%。實(shí)施卡慢緩解建議后,約有47%的問(wèn)題能夠得到明顯緩解。
執(zhí)行AIOps優(yōu)化策略后,整體成本平均下降18%左右。同時(shí),AIOps的智能診斷能力,可以覆蓋桌面云65%的已知資源卡慢問(wèn)題。
此外,深信服桌面云AIOps也面臨一些挑戰(zhàn)。比如私有云場(chǎng)景下,因網(wǎng)絡(luò)限制,很難獲取大規(guī)模數(shù)據(jù)持續(xù)不斷地進(jìn)行AI學(xué)習(xí),這導(dǎo)致整個(gè)AI鏈路過(guò)長(zhǎng)。其次,用戶(hù)的業(yè)務(wù)場(chǎng)景很多,在醫(yī)療、金融等不同場(chǎng)景下,算法模型如何做到較高的覆蓋率和精準(zhǔn)的識(shí)別,這也是當(dāng)前比較棘手的一個(gè)問(wèn)題。
深信服桌面云未來(lái)的演進(jìn)方向,會(huì)體現(xiàn)在增加更多的反饋和模型的自更新機(jī)制,實(shí)現(xiàn)多業(yè)務(wù)場(chǎng)景的覆蓋。同時(shí),基于業(yè)務(wù)畫(huà)像和運(yùn)維知識(shí)圖譜,實(shí)現(xiàn)精細(xì)化故障診斷。
以上就是關(guān)于《深信服桌面云AIOps智能運(yùn)維一體化方案演進(jìn)》的分享,關(guān)注“深信服科技”公眾號(hào),持續(xù)獲取更多技術(shù)干貨內(nèi)容。