11月16日,OFweek第七屆人工智能產(chǎn)業(yè)大會暨行業(yè)年度頒獎典禮在深圳舉辦。深信服AIOps技術(shù)憑借在人工智能領(lǐng)域的實力和優(yōu)勢,獲得維科杯 · OFweek 2022 人工智能行業(yè)“技術(shù)突破獎”。當(dāng)天,深信服高級研發(fā)技術(shù)專家易佳受邀出席大會,發(fā)表《桌面云場景下的AIOps技術(shù)實踐》的演講,介紹了桌面云運維遇到的挑戰(zhàn),以及如何利用AIOps簡化桌面云運維等內(nèi)容。
↑ 人工智能產(chǎn)業(yè)大會現(xiàn)場
桌面云運維面臨諸多挑戰(zhàn)
近年來,由于疫情多發(fā)等原因,桌面云已經(jīng)成為企業(yè)數(shù)字辦公的首選方案,但在實際使用過程中,也面臨第三方軟件兼容性、藍(lán)屏、木馬、應(yīng)用卡慢、響應(yīng)延遲等問題,這些問題的背后暴露出來的可能是私有云資源不足、硬件故障難以定位、網(wǎng)絡(luò)故障等深層次問題。
↑ 桌面云運維的挑戰(zhàn)
為此,深信服提出了AIOps 智能運維一體化技術(shù)方案。該方案通過采集桌面云的日志、鏈路和指標(biāo)數(shù)據(jù),執(zhí)行故障預(yù)測、異常檢測、關(guān)聯(lián)推理等算法,為用戶提供智能分析服務(wù)。
“AIOps的數(shù)據(jù)采集引擎基于Golang實現(xiàn)了插件化探針,支持采集Windows、Linux、Docker等多類指標(biāo)數(shù)據(jù),可以跨平臺、多應(yīng)用地進(jìn)行動態(tài)采集,也支持Prometheus協(xié)議和導(dǎo)出,在數(shù)據(jù)采集上實現(xiàn)了高效和可擴(kuò)展。”易佳補(bǔ)充。
歷經(jīng)三次迭代,打造更優(yōu)運維體驗
易佳介紹,隨著用戶訴求和用戶體量的的不斷變化,深信服AIOps數(shù)據(jù)模型與AI框架演進(jìn)了三個版本。
第一個版本適用于小規(guī)模用戶,是一套輕量級監(jiān)控分析系統(tǒng),支持時序數(shù)據(jù)、告警數(shù)據(jù)、統(tǒng)計分析和容器化部署,也支持主機(jī)、虛擬機(jī)數(shù)據(jù)采集做簡單AI分析,但是DB/存儲與業(yè)務(wù)耦合嚴(yán)重,算法效果難保障,難以支撐大規(guī)模虛擬機(jī)接入。
第二個版本是輕量級AIOps引擎,支持OpenAPI和數(shù)據(jù)統(tǒng)一調(diào)度,引入緩存機(jī)制,實現(xiàn)了存算分離。但OpenAPI、Requests Handler和Prometheus容易遇到瓶頸,導(dǎo)致體驗欠佳。
從第三個版本開始,深信服打造了全棧的AIOps引擎。在該版本中,面對數(shù)據(jù)上報的性能瓶頸問題,抽象數(shù)據(jù)接口,實現(xiàn)Requests Handler負(fù)載均衡;其次是設(shè)計了投遞分級,內(nèi)存磁盤雙對列的模式,為低優(yōu)先級數(shù)據(jù)設(shè)立單獨通路,可以優(yōu)先保障高優(yōu)先級數(shù)據(jù)入庫;同時,設(shè)計了多級分表,優(yōu)化了數(shù)據(jù)結(jié)構(gòu),這樣可以保留橫向擴(kuò)展能力。
另外,為了平衡實時性與準(zhǔn)確度,減少重復(fù)數(shù)據(jù),AIOps可以按采集指標(biāo)區(qū)分不同采集周期,例如設(shè)定10s采集一次CPU,20s采集一次memory;服務(wù)器型號、磁盤大小等靜態(tài)數(shù)據(jù)盡量只采集一次。
最后,針對多維異構(gòu)數(shù)據(jù)進(jìn)行了冷熱分層處理,冷數(shù)據(jù)存檔供AI離線分析和模型訓(xùn)練,熱數(shù)據(jù)實時監(jiān)控和展示。
在AI算法方面,易佳介紹,“桌面云AIOps算法包括基于bagging策略的分段線性回歸算法、基于網(wǎng)格搜索的縮擴(kuò)容模型、基于資源約束算法和貪心策略的虛擬機(jī)新增模型、基于時間序列特征提取和隨機(jī)森林的閑置資源識別模型等”,基于這些算法,最終形成了包含AIOps算法、AI調(diào)度決策、OpenAPI、數(shù)據(jù)管理、服務(wù)化等功能在內(nèi)的AIOps基礎(chǔ)結(jié)構(gòu)。
AIOps 實踐與落地效果
易佳表示,AIOps可以快速識別出卡慢故障等異常問題。通過引入50多個規(guī)則、采集800多個維度數(shù)據(jù),實現(xiàn)20多個機(jī)器學(xué)習(xí)算法,診斷出30+核心卡慢場景。AIOps的監(jiān)測分析能力已經(jīng)能夠全方位地支撐大盤、集群、主機(jī)、虛擬機(jī)、網(wǎng)絡(luò)、存儲、應(yīng)用軟件全棧監(jiān)控與分析。
在算法效果上,桌面云卡慢/故障異常檢測準(zhǔn)確率達(dá)到87%。實施卡慢緩解建議后,約有47%的問題能夠得到明顯緩解,AIOps的智能診斷能力,可以覆蓋桌面云65%的已知資源卡慢問題。
易佳最后總結(jié),AIOps未來會增加更多的反饋和模型的自更新機(jī)制,實現(xiàn)多業(yè)務(wù)場景的覆蓋。同時,基于業(yè)務(wù)畫像和運維知識圖譜,實現(xiàn)精細(xì)化故障診斷,打造讓用戶滿意的產(chǎn)品體驗。