在國內,云計算經過十多年的發(fā)展,企業(yè)在IT基礎設施以及云原生的業(yè)務應用上穩(wěn)步推進,上云業(yè)務規(guī)模大幅增加。但企業(yè)面對復雜的虛擬網絡,越來越難以保障業(yè)務的安全性和監(jiān)管的要求。企業(yè)監(jiān)控診斷的工具手段亟需提升,以滿足IT基礎設施逐漸向混合云架構演變的過程中不斷涌現的業(yè)務需求。
企業(yè)上云的網絡挑戰(zhàn)
企業(yè)上云過程中,基礎設施在不斷云化,隨著容器技術的快速發(fā)展,上云后的應用架構逐漸微服務化。云服務高頻動態(tài)變化的特性滿足了業(yè)務快速變化的需求,但更多的業(yè)務上云使得東西向網絡流量激增,基礎設施的云化進一步模糊了網絡的邊界,種種因素疊加在一起使得上云后業(yè)務的安全和運維難度陡增。
網絡的監(jiān)控診斷伴著網絡的發(fā)展始終存在,網絡的邊界隨著基礎設施的云化尤其是網絡虛擬化層次的延伸而不斷擴大。相應地,網絡監(jiān)控診斷的觸手也需要隨之增加。但在混合云環(huán)境中,網絡監(jiān)控診斷遇到了新的挑戰(zhàn)。企業(yè)現有的監(jiān)控診斷方案無法覆蓋日益增加的東西向流量,由此形成的網絡“黑盒”已成為企業(yè)上云的一大障礙。
混合云網絡的八卦圖
古人用八卦圖表示一切自然現象的動靜狀態(tài),從事生產活動時參考卦象以趨利避害。與網絡而言,最重要的表象無非是網元的配置信息和運行狀態(tài)。要解決混合云網絡的監(jiān)控診斷難題,需要對網元的配置信息和運行狀態(tài)進行望聞問切。一幅刻畫云網絡的“八卦圖”呼之欲出。
網絡的點、線、面
在網絡監(jiān)控診斷的場景下,如果我們將具體數據包看做是“點”,完整的業(yè)務訪問路徑(一條流)則是由多個“點”連成的“線”。流信息包含了關鍵的網絡元數據,但在多地數據中心、資源池化,并且涉及公有云資源、專線鏈路的IT環(huán)境中,市場上的方案缺少全局的網絡狀態(tài)視角,即一張關聯IaaS資源、PaaS資源、服務應用的知識圖譜——混合云網絡的全景圖。
云杉網絡的DeepFlow提供了針對云網絡的點、線、面操作邏輯,為混合云的監(jiān)控診斷提供了全面的信息保障。知識圖譜(網絡全景圖)包含網絡所涉及的對象實體映射關系,顯示結構拓撲與現網流量的一系列不同視角的視圖展示,應用可視化技術和搜索技術描述資源實體全面、豐富的運行信息,為云中業(yè)務的監(jiān)控診斷提供按圖索驥的指導。
云網絡八卦圖的繪制
要繪制一幅混合云網絡的全(八)景(卦)圖,首先要獲取的是生產網絡的拓撲,其次是全網的流量信息,最后是根據流量與網元的映射關系,梳理出與業(yè)務有關的知識圖譜并識別出異常或惡意的流量,為企業(yè)上云后的監(jiān)控診斷提供可靠的依據。
云杉網絡DeepFlow監(jiān)控診斷方案由DeepFlow的采集器、控制器以及數據節(jié)點組成,滿足KVM、ESXi、容器、公有云等各類資源池的網絡監(jiān)控診斷需求;并支持IPv4、IPv6協議環(huán)境。獲取混合云環(huán)境的網絡流、數據包并非易事,需要兼顧性能和侵入性,方案的設計要充分考慮企業(yè)已有的生產環(huán)境。
DeepFlow控制器首先通過與生產環(huán)境尤其是云平臺的對接,自動學習云中的資源和網絡拓撲信息。通過對接關鍵物理設備,DeepFlow完成全(八)景(卦)圖繪制的第一步。
考慮到網絡監(jiān)控框架的可擴展性,流量采集與后端監(jiān)控診斷工具必須解耦,在采集側,各類型號的DeepFlow采集器為全網流量采集方案提供基礎信息的捕獲能力,支持物理網絡、KVM、ESXi、容器、公有云等資源池網絡環(huán)境。對于多數據中心、多云異構的混合云基礎設施,DeepFlow控制器以集群方式實現對不同平臺下眾多采集器的管理。控制器能秒級啟停海量采集器,采集器通過接收控制器的指令,在本地對流量做預處理。至此,DeepFlow完成全(八)景(卦)圖繪制的第二步。
控制器作為整個系統(tǒng)的中樞大腦,結合采集到的流量和已經對接的生產環(huán)境網絡拓撲,借助機器學習和大數據等技術,自動對全網流量進行梳理,結合數據類型、監(jiān)控指標、資源屬性、展示方式等多個維度,生成全局業(yè)務真實的網絡流量知識圖譜,亦即DeepFlow全(八)景(卦)圖繪制的第三步。
云網絡八卦圖的展示
不同角色的使用者對全景圖的展示各有偏好,全面覆蓋這些需求并提供統(tǒng)一的呈現,是滿足各方對網絡卦象解讀的重要前提。
企業(yè)通過DeepFlow平臺已經掌握了混合云環(huán)境中的網絡數據。核心的監(jiān)控指標是用以描述網絡狀態(tài)、性能的各類指標,主要包括吞吐量、時延、異常、傳輸狀態(tài)等;展示方式根據使用場景主要有分布、關聯、對比及回溯等。網絡流量數據又是典型的時間序列數據,同時具備相應的網絡特性。因此DeepFlow提供了分布式的網絡時序數據庫服務,在滿足快速寫入、數據持久化的同時,不斷優(yōu)化多維度的聚合查詢能力。平臺不同角色用戶可以在核心視圖的基礎上,定制自己更關心的監(jiān)控面板并設置告警策略。
混合云網絡監(jiān)控診斷方案的部署
整體方案包括DeepFlow采集器、DeepFlow控制器、DeepFlow數據節(jié)點三部分。對于整體規(guī)劃的方案,建議對整體混合云規(guī)劃獨立的網絡監(jiān)控平面,對于混合云的監(jiān)管流量統(tǒng)一、獨立地進行管理。在完成整體方案規(guī)劃后,可分區(qū)域、分資源池、按階段投入建設,最終使企業(yè)具備對混合云基礎設施全網絡監(jiān)控診斷能力,保障應用業(yè)務穩(wěn)定運行。
由于大部分企業(yè)已經具備對傳統(tǒng)物理網絡的監(jiān)控能力,通常重點選擇KVM、容器資源池網絡為第一階段建設,重點解決資源池內網絡東西向流量“黑盒”不可見的問題,實現資源池網絡可視化,提高運維排障效率,保證網絡服務等級協議。
第二階段納入更多資源池,與新建擴容的資源池同步部署,接入物理網絡中分光鏡像流量,實現對整體數據中心網絡監(jiān)控。
第三階段面向混合云中的公有云資源,對運行其上的網絡進行監(jiān)控,部署采集器,具備對Workload或其上容器流量采集能力,完成對混合云IT環(huán)境網絡整體監(jiān)控管理。
對于已經運行的混合云環(huán)境,可以在不影響生產環(huán)境運行的情況下部署實施,網絡規(guī)劃上將DeepFlow平臺所涉及的管理、監(jiān)控分發(fā)平面復用在已有的網絡平面中,通常可以復用已經存在的網絡管理平面。
云網絡八(全)卦(景)圖總結
DeepFlow混合云網絡監(jiān)控診斷解決方案通過有效的網絡流量采集、數據分類存儲以及網絡點、線、面的緊密結合,為企業(yè)在混合云、云原生等新型IT基礎設施環(huán)境演進過程中,補齊網絡監(jiān)控的空白,避免重復建設;應對云原生特點,緊密結合業(yè)務,解決實際網絡監(jiān)控難題,支撐企業(yè)基礎設施向網絡智能化邁進。