出于對業務連續性和數據安全性的考慮,越來越多的用戶選擇建設分布式數據中心來作為災備節點。而隨著分布式數據中心越來越多,企業及其運維人員也面臨越來越多的難題:
缺乏統一的運維管理
分布式數據中心沒有專業運維人員,難以運維包含服務器、桌面等復雜的IT系統;IT建設“各自為政”,缺乏統一的管理規劃,運維管理成本高;辦公終端部署在不同地理位置,維護周期長,造成業務中斷,影響辦公效率。
傳統組網方式運維復雜
分布式數據中心網絡設備遠程運維復雜,難以統一策略下發,廣域網鏈路、應用難以可視化監控;廣域網安全流量無法可視分析,分支容易被潛伏威脅當做跳板攻擊總部,且難以發現和處置。
缺乏統一的業務支撐架構
分布式數據中心業務和數據之間存在孤島,導致其與總部數據中心無法形成業務協同和數據協同;非云化數據中心更新難,不能有效保障應用、漏洞、補丁的上傳下達。
日益嚴重的安全威脅
分布式數據中心缺乏員工準入規則,導致其成為全網安全的薄弱點;如果能構建統一安全入口,就可以降低數據丟失風險。
這些問題的存在,要求分布式數據中心要建立起一套統一的、全棧的、運維管理體系。
信服云托管云以穩定的通信網、集約高效的管理服務信息系統和高科技IT設施設備為技術核心,以信息感知、趨勢預測、資源共享為應用重點,結合互聯網、大數據技術,集中海量數據跨行業、跨部門高度共享,實現對分布式數據中心業務透徹全面、實時智能的感知或預測趨勢。通過統一管理、統一運維,以及標準化的運維流程和智能化的監控與事件分析,提高運維效率、降低運維成本。
綜合考慮網絡安全等級保護要求和業務應用的實際需求,提供事前防御、事中控制、事后審計全方位保障,提高信息安全防護能力。同時提供可靠的數據備份與業務容災機制,保障業務連續性。
信服云托管云采用超融合架構,構建分布式云化資源池,融合計算、存儲、網絡基礎設施資源,承載云計算管理平臺以提供對的分支節點監控、管理及運維服務。
對于核心業務承載需求,云化資源池可以實現平滑的線性擴容,為業務系統提供充足的IaaS層資源,同時結合數據庫管理平臺、大數據服務、桌面云等提供豐富的PaaS層服務。
托管云SCC管理中心統一運維、遠程升級乃至應用推送,副中心無需專業IT人員,采用自動化的手段,降低總部人員對大量邊緣節點的運維的難度。分支節點開箱即用,新業務上線時間縮短70%,日常運維效率提升50%以上。
托管云智能運維平臺融合AIOps智能算法與專家規則,覆蓋托管云62%+故障問題,實現了各類網絡、硬件可靠性、存儲、計算卡慢問題的檢測與分析能力。
可以提前感知各類資源使用異常,實現了多項基于AI預測的調度優化能力,用于避免故障與卡慢問題的發生。
還可以提前預測虛擬網絡發生性能瓶頸和資源不足的風險,預測租戶彈性EIP的流量大小并推薦帶寬,輔助SRE提前執行帶寬規劃業務,避免由于EIP資源和帶寬不足導致發生無法新開租戶或租戶業務卡頓的故障。
一、OneAgent能力
可觀測性是運維的基礎,它是通過檢查其輸出來衡量系統內部狀態的能?。為了實現系統的可觀測性,需要使用多個采集器,造成資源浪費。
雖然國內外都有大量的數據采集器,但大多數采集能力單一,比如 Telegraf 僅支持指標,Filebeat只服務日志,OpenTelemetry 的 Collector 對非云原生的組件并不友好,需要大量安裝 Exporter 插件。
Octopus是深信服ACMP&創新研究院自研的可觀測數據采集Agent,擁有的輕量級、高性能、自動化配置等諸多生產級別特性,可以署于物理機、虛擬機、Kubernetes等多種環境中來采集數據,真正實現了一體化各種環境(傳統環境,云/云原生)統一數據采集,一個進程或 Daemonset Pod 就可以實現全方位的數據采集,配置體驗良好,可擴展性強。
二、資源預測和處置推薦
隨著用戶業務的發展,托管云上的計算、存儲等資源都需要進行相應的優化調整。資源的配置優化需要滿足業務的兩個要求:足夠的資源,保證業務的穩定性;盡可能節約成本,但目前的難題是:無法提前感知計算、存儲資源的未來風險;無法獲得計算、存儲資源未來風險的處置建議;無法對閑置資源提前預估,因而造成IT成本上升。
“資源預測”功能在增加用戶對計算、存儲資源未來風險感知能力的同時,提供了明確的資源配置建議,降低因資源不足導致的故障發生頻率,提前規避因業務不足導致的業務中斷或資源過剩造成成本上升的問題。
↑ 資源預測功能界面展示
另外,當資源過剩時,也可基于智能算法對閑置虛擬機進行識別,回收對應的資源池或服務器資源。以檢測深信服的客戶業務系統虛擬機4K+為例,經虛擬機閑置識別檢測,發現并處置(含縮容和關機)130+臺,0負面反饋。
↑ 閑置虛擬機識別功能界面展示
三、資源競爭感知與負載均衡能力
隨著虛擬機的新建、開關機及其自身負載的變化,集群主機間總是面臨負載不均問題,從而導致資源競爭,業務性能受到嚴重影響。
準確、及時甚至提前感知資源競爭,采取高效的負載均衡策略,可為核心業務提供長期穩定的性能保障。
為解決上述問題,該平臺實現了DRS:資源競爭感知與附在均衡能力。
引入多項核心指標分析資源競爭與業務真實資源需求,基于負載變化預測結果搜索最佳負載均衡策略。基于AI預測的DRS可快速甚至提前感知資源競爭,及時進行負載調度,降低業務受到資源競爭影響的時間。基于AI負載變化分析與Cost-Benefit模型的調度策略,可大幅提升單次調度帶來的收益,減少業務遭受資源競爭的頻率。
↑資源競爭告警與負載均衡調度建議展示
以上就是關于分布式數據中心全棧智能運維平臺的介紹,本期內容還有信服云托管云運維可控技術負責人Will的視頻直播分享,在“深信服科技”公眾號可以觀看回放。