隨著用戶數據中心節點的增多,在管理數據中心上,網絡突然中斷、流量高并發、網絡配置異常、網口硬件異常等問題時有發生。依靠人工手動進行網絡質量及故障分析,并根據經驗進行故障處置的傳統運維方式,無法全面覆蓋數據中心出現的問題。
為此,信服云托管云研發了網絡全鏈路質量感知與分析系統。
該系統能夠綜合運營商、物理網絡、主機網絡、VPC網絡等多層網絡視角,為運維使用者提供一套全鏈路網絡質量感知及智能分析解決方案 ,有效提升告警質量和告警后排障效率。
↑ 網絡全鏈路分析處置系統能力
網絡鏈路主動撥測
可以優化監測分析及可視結構,并基于上下游關聯告警自動挖掘和聚合方法聚合縮減非必要的監測告警,分鐘級發現網絡通斷及卡慢,在大量告警中快速定位到根因,為IaaS管理員快速梳理機房和各租戶的網絡連通性狀態,為租戶快速梳理其虛擬機內部的網絡狀態報告。
↑ 提供全部探測及分析結果的詳情
↑ 提供虛擬機內部端到端TCP/UDP通信的網絡質量可視與分析
基于RTT時延動態基線的風險預測
基于RTT時延動態基線進行風險預測,支持智能基線的自動學習,通過對正常狀態下指標的歷史表現,加以調整后作為基準線,與以后同樣時段的實時指標做對比,能根據歷史記錄自動生成基線,并可按照業務周期潮汐變化規律,形成以日基線、周基線的數據對比,一旦實時數據大于基線比對的一定范圍,即生成告警事件,成功預測風險。
↑ 變化趨勢預測
同時,該系統還會不斷進化,未來可以實現虛擬機內部的應用網絡質量和平臺IaaS層的一體化聯動多模態分析,實現更快的故障定界。
基于全量指標構建實體資源圖譜體系,IT運維人員在排障時,也可通過關聯分析在5分鐘內定位到虛擬機內部、外部故障根因和處置建議,且能利用知識圖譜直觀掌握平臺健康狀態和故障影響面大小。
在網絡資源配置推薦上,可以全面監控虛擬網絡拓撲、配置、流量、數據面狀態等數據,利用多種機器學習方法實現準確的數據面性能壓力估計。基于數據面性能壓力及網絡流量歷史趨勢,關聯預測數據面性能極限出現時間點并推薦最優數據面資源配置。
以上就是關于信服云托管云上網絡全鏈路質量感知與分析系統的介紹,該系統可以幫助用戶降低網絡故障率,實現數據中心的省心運維。