最近公司網絡環境發生一次異常狀況,這里和大家分享一下本人當時的排障思路和步驟,和大家一起探討一下。
網絡拓撲結構大致如下:
故障現象:
電腦網絡訪問非常慢,打開網頁顯示很慢。
排障步驟:
1. 電腦主機ping外網地址,延遲非常大,ping 192.168.10.254網關地址,延遲也非常大,大于1000ms。
2.出口防火墻上ping外網地址延遲正常。
3.這時基本可以鎖定是局域網內部哪里出現了問題,而不是互聯網鏈路的原因。再繼續ping局域網其他主機延遲正常,ping IPS設備延遲也正常。
4.此時可以定位到是IPS或者防火墻哪里出現了問題,登錄到IPS上發現IPS CPU狀態非常高,達到90%以上,接口狀態也提示有丟包現象。
5.懷疑是否存在攻擊現象,查看IPS告警中心入侵防護事件沒有發現可疑攻擊現象,繼續查看IPS狀態,查看流量狀態正常,當查看到IP會話數時發現了異常,一臺主機產生了大量的會話數,達到1w+的會話,高于這臺IPS可支持的最大會話數了,從而導致IPS運行不穩定,CPU飆升,從而經過IPS的網絡流量產生延遲丟包現象。
6.最后根據IPS上監控的IP會話數,把產生大量異常會話的主機找到并且斷網后,一切立刻都恢復正常了。
其實,這個網絡問題解決很簡單,因為我們的網絡環境中有IPS和防火墻這種專業的網絡安全設備,當發現有異常情況時,第一時間就可以登錄到這些設備上,一般都可以查看到一些蛛絲馬跡,然后順藤摸瓜解決問題。
但是,如果沒有這種網絡安全設備,發生網絡異常時難道只能兩眼一抹黑了,這時候其實我們可以依靠一些工具來解決問題,強烈推薦的就是Wiresharke這款網絡抓包分析工具了,網絡問題其實它都源于數據包層面,我們只需進入到數據包層次,就沒有任何東西能逃出我們的視線范圍,我們只需通過Wiresharke工具捕獲網絡中傳輸的數據包加以分析,基本上就可以判定問題所在了,比如這次是大量會話引起的網絡故障,我們就可以通過Wiresharke信息統計功能,哪個IP地址產生了大量會話一目了然。