圖1 快遞貨運區
國內某知名物流企業研發了先進的快件運營信息管理系統,并在全網絡快遞員中統一投入使用手持終端設備,實現了快件操作與信息采集的同步和快件運營信息的實時傳遞。運營信息系統的運行依賴網絡,因此,網絡的穩定性和可靠性成為了支持該企業業務生命線的關鍵問題。面對越來越復雜的網絡構架和爆發式增長的應用上線,運維團隊常常需要解決業務系統突然中斷、性能下降、用戶訪問異常等等問題,因此需要建設一套新的網絡性能監測系統,與現有的基礎監控系統共同支撐,實時展示和分析應用的性能以及用戶體驗等情況。
2020年,該企業上線了智維數據nCompass網絡流量監控平臺,實現了多源數據采集以及業務性能和網絡性能可視化監控,為業務系統與應用性能故障分析提供了可靠的數據支撐。本次案例分享將聚焦該物流企業通過網絡流量智能分析系統,提升系統故障處置效率,支撐系統穩定快速運轉的背后故事。
“快”的保障
是強大穩定的自動化、數字化全流程
物流業的數據化運營是關聯到派單、收件、派件等一系列的復雜流程。舉個例子,消費者在網上下單后,購物平臺會推送給物流企業,此時快遞員就會收到收件工單。收件完成后,這個快遞會被送到相應的營業網點,由營業網點進行分撥,分揀,訂單處理到收件網點,最后送到消費者手里。現在,國內大的物流公司基本上整個過程都是全自動的,這樣能保障快遞的送達效率是很高的。
因為對效率要求很高,所以對于網絡效率和穩定性要求也特別高,物流的核心是效率,而物流的每個流程都是通過云端,網絡數字化去流轉的,要達到最優轉化,網絡的穩定性和效率是重點。
自動告警,智能分析
實現穩定、連續的網絡支撐
那么如何保障物流網絡的穩定性,又有哪些難點問題呢?以前有網絡故障發生,比如當應用性能下降,運維部門只能通過人工經驗逐個排查,如果不能及時解決就會影響到前端的業務流轉。另外還有一些合規性和管理風險的問題,比如符合等保2.0的要求,國家監管部門的要求,以及出于數據安全防護的要求,需要做到運營的精細化管理。
而現在該物流企業采用的是智維數據的nCompass網絡流量監控平臺,網絡上有故障發生,可以通過nCompass溯源找到問題根源,有隱患發生也有自動告警,網絡部門可以先把這個故障梳理掉,讓業務恢復。應用層有問題也能發出告警,應用組可以通過排他的方式把問題迅速解決。
以前看不到應用之間訪問鏈的情況,現在網絡部門可以通過nCompass對接負載均衡的API接口,這樣能看到整體網絡每個節點發生的問題,加上該企業基礎監控對物理設備的監控能力,這樣結合就能實現整體的運維監控能力。
多場景落地智維運維,新技術護航系統效率
以下是幾個nCompass流量監控平臺幫助解決運維故障提升IT效率的例子。
場景1
訪問流程突發故障
web頁面無法訪問是該物流企業用戶經常會遇到的問題,有一種常見現象是證書切換問題,應用要實現平滑的切換。當遇到用戶反饋頁面打不開,網絡部門可以通過nCompass來分析一下這個應用到底有沒有成功跳轉,還是錯誤跳轉到別的地方去了。
還有一些頁面打不開是由于調用第三方接口失敗造成的。不通有很多種,一種是對方加了白名單,但是這邊的防火墻沒有放行。那么這個請求有沒有通過,網絡部門同樣也可以通過nCompass去監控它。
圖2 HTTP頁面監控
還有會出現運營商骨干網振蕩,導致頁面打不開。此時通過nCompass去溯源,發現只有某個城市DNS有問題,網絡部門就可以反饋給下面的快遞員或者反饋給第三方,是哪個地方現在不好,可以及時切換一下線路。
圖3 DNS分析界面展示
再比如有用戶反饋網站打不開,應用組懷疑是DNS解析失敗,這時候通過nCompass去檢查,發現DNS解析率是99%,說明DNS解析正常,那么網絡部門就可以反饋給應用組,請他們去排查其他問題。
場景2
鏈路優化管理與重大事件全局監控
鏈路管理是各個物流企業運維部門都特別重視的,鏈路管理指的是運營商帶寬的問題,要保障網絡暢通的穩定性,網絡部門可以用nCompass看一下抖動、延遲有沒有問題,如果此時監控主動告警提示某個骨干有問題,運維人員可以將出口的負載均衡切換到另外的鏈路上,就能夠保證外部訪問正常。
圖4 鏈路監控、分析視圖
nCompass提供了企業全局的可視化監控能力,可以把負載均衡、鏈路管理、業務監控都統一到一個平臺上來。比如物流行業在雙十一、雙十二這種業務量高峰期,就可以利用nCompass看到實時進來的流量帶寬,包括應用之間互訪的延遲,這樣在大型促銷或業務流量特別大的時候會有一個基礎保障。
圖5 數據中心全局流量監控視圖
通過nCompass主動告警,網絡人員可以實時監測流量是否穩定,延遲的指標高低,應用負載率等等,有問題可以提前處理掉。因為從業務開始報障到故障發生會間隔一些時間,這個時間里使用流量平臺可以幫運維人員做到先知先覺,避免該物流企業出現大范圍的故障,保障前臺業務運轉和整體網絡運維的效率。
場景3
符合等保2.0合規要求
根據三級等保要求,物流企業的系統日志需要存半年。但是物流行業通常的訪問量太大,所以該企業也通過與nCompasss合作,定制化表單,達到了等保的要求。而在數據安全性方面,網絡部門也可以利用nCompasss將應用日志與網絡日志結合,來溯源異常的IP地址。
圖6 日志回溯功能展示demo
展望
進一步的數據整合,搭建完整的運營數據監控,
是未來實現AIOps,提升全流程效率的最佳方案!
物流企業作為網絡型組織,面對成千上萬的物流網點,面對管控難度越來越大的情況,需要以AIOps等新技術為抓手,來幫助實現對越來越多網點的可視化管控。在信息系統中能夠第一時間看到所有的數據,實時處理,才能實現實時決策、實時優化,幫助管控和平衡整個網絡。
目前該企業已經通過nCompass實現了在網絡層的監控,未來希望將所有的網絡層數據、應用層數據,包括虛擬機互訪、K8S集群互訪全部數據都整合到nCompass平臺上來,通過nCompass來排查故障,這樣解決問題的方式會變得更加簡單,人效會更高。現在智維數據也在打造“場景化”的解決方案,那么在之后的合作中,雙方能將技術與場景結合得更緊密,進一步提升IT運營效率。