導言
北京市政交通一卡通有限公司(以下簡稱“一卡通”)成立于2000年,業務范圍包括交通智能卡的制作、發售、應用和結算業務。2015年經北京市交通委授權建設、經營京津冀區域中心,截至2022年初,一卡通服務范圍已經覆蓋全國。而在業務方向上,一卡通在不斷優化公共出行體驗的同時還包含智慧運營解決方案以及大數據服務等相關業務。
【圖1】 一卡通卡片制作環節
隨著移動支付在交通領域的普及,互聯網用戶量、并發量都出現爆發式增長,敏態業務的增多以及雙活場景都對一卡通技術部保障業務的連續性、系統可靠性、網絡質量提出了更高的要求。另外,在常規C端業務之外,技術部還承擔了公眾民生相關的互聯網運營業務,對B端專線可視化監控的要求較高。過去技術部通過流量監控平臺的搭建基本實現了對傳統業務的可視化監控,而對云端業務及B端專線的監控能力還存在監控盲區,本次我們采訪了一卡通技術部負責人李志宇,請他為我們介紹如何通過與智維數據的進一步合作,滿足“兩云三中心”混合云流量監控場景,以及如何從基礎設施運維到價值輸出,實現對外IT運維服務,為一卡通雙向業務連續性提供較全面的監控視角及多維分析指標支撐。
1.99.96%系統可靠性敏態與穩態都要確保穩定持續
記者:一卡通的運維特點跟其他的行業會不太一樣嗎?
李志宇:一卡通是典型的混合云場景,既有敏態業務也有穩態業務。我們與機構客戶端之間的交互,例如與銀行清分、結算屬于穩態業務。一卡通還有海量互聯網C端客戶,尤其是APP端的業務場景都是敏態業務。
這幾年敏態業務增長非常迅猛,我們的服務對象是公眾,高頻、高并發、小額支付是我們的業務特點,一卡通對網絡體驗的要求要高于普通的互聯網公司,每一個使用一卡通APP的用戶,或者是每一個安卓一卡通、蘋果一卡通的用戶,只要出現交易的時延,用戶體驗是很直觀的,作為技術部門我們希望能帶給大眾最快速、穩定、便捷的使用體驗。
記者:請簡單介紹您所在團隊主要的運維的目標。
李志宇:目前技術部已經達到99.96%系統可靠性的指標,就數據中心業務連續性來講也有相應指標支撐,比如RPO、RTO。實際上現在我們可以做到敏態業務數據丟失基本趨近于0,為保障任何一筆交付數據不丟失,我們做了一些雙活的場景;然后從系統切換來講,如果一旦一個中心出問題或者是網絡中斷,需要達到至少分鐘級切換。針對穩態這一塊數據也是無丟失的,整個切換時間要求在30分鐘以內。這兩個維度的指標是一卡通當前網絡系統運維的核心指標。
記者:有哪些運維工作難點?為什么會考慮運用新的流量分析工具?
李志宇:以前一卡通只有線下數據中心,這幾年建立了多源多活的場景,即“兩云三中心”。C端用戶的網絡時延導致了業務不可用,或者是用戶體驗不好,之前運維人員第一時間從監控上是無法感知到的,這是第一個挑戰;第二個挑戰是一卡通除了公眾所熟知的智慧交通業務之外,我們還承擔了一些公眾類民生服務類相關的網絡運營,這些B端業務專線數量有數十條,實現B端業務流量可視化也是非常重要的。以前無論是C端還是B端從用戶反饋問題到運維人員處理,因為當時的監控工具無法追溯問題原因,所以信息是滯后的。要應對這兩方面的挑戰,讓我們最后采用了智維數據的解決方案,既能針對互聯網敏態業務,又能監控B端業務流量,實現混合云流量可視化監控。
2.運維能力提升助力業務范圍拓展,IT運營能力輸出,向利潤中心轉化
場景1、廣域網鏈路監控
記者:一卡通在互聯網端遇到的網絡性能問題有哪些?如何解決這類問題?
李志宇:運維團隊經常利用nCompass的廣域網視圖實時監控有哪些鏈路存在質量不佳問題。比如,曾經有移動端用戶反饋使用一卡通APP無法完成交易處理。之前需要運維團隊從手機端廣域網鏈路再到數據中心分階段手工抓包分析,給運維團隊造成較大工作負擔。而采用了nCompass之后,通過廣域網視圖能夠清晰看到所有鏈路的各項指標,有助于支撐我們復雜業務的問題定位。
【圖2】廣域網監控視圖
【圖3】廣域網TOP 監控視圖
這些指標包含帶寬的利用率、時延等。正常情況下廣域網鏈路的時延是5毫秒或者是10毫秒,如果突增到30以上了,代表異常。帶寬利用率正常的峰值在20%~30%,一些業務活動時會達到70%。如果在沒有活動的情況下,突增到70%以上,此時雖然業務還未受到影響,但也屬于異常情況,運維人員可根據這些指標情況進行預先處置,規避未來可能發生的系統風險。
場景2、公有云、混合云監控
記者:一卡通現在已經向公有云、混合云的架構演進了,現在對網絡運維的要求有變化嗎?
李志宇:從整個運維或者是建設這一塊來講,我們遵循的是一個“三同步”原則:統一規劃、統一建設、統一運維。因此我們一直在尋求云上應用和線下數據中心應用的一體化監控方案。現在在公有云上部署nCompass-Cloud云探針用于采集虛擬機的網絡流量,部署nCompass流量監控平臺用于分析和存儲云探針采集的網絡流量。實現了云端網絡流量數據的采集、分析和存儲,并接入線下統一管理平臺。統一監控平臺的好處是多云監控統一納管、統一展現。現在一卡通的云端業務如網站、非交易類互聯網業務、測試業務等都實現了可視化監控,為我們之后實現端到端全景監控打下了良好基礎。
場景3、重點業務監控(支付類)
記者:一卡通的業務有哪些?網絡運維是如何為這些業務端服務的?流量監控又在里面扮演一個什么樣的角色?
李志宇:一卡通的業務類型有支付業務、民生業務、結算業務等。另外我們也承擔整個京津冀交通互聯互通區域中心的運營,業務應用超過上百套。所以無論是全局性的流量監控還是故障定位以及故障回溯,對于網絡運維來講都非常重要,比如支付業務。
【圖4】聯機打卡監控視圖
針對支付業務,前面我們也提到這類業務的特點是小額度、高頻率、高并發,運維團隊要保障在整個支付環節中數據不能丟失,因此我們對一些重點場景定制了流量監控視圖。以聯機簽到監控視圖為例,每天早晨無論是地鐵的閘機,還是公交車上的車載機,還是公交網點的POS機,這些終端跟一卡通后臺系統是做聯機簽到的。整個簽到過程大概在1—5分鐘不等,簽到過程中會產生一個瞬時的高并發,可能同時有數千臺的終端設備要和后臺進行認證。這個過程中有的網絡是依托于專線連接,有些是通過無線物聯網通訊,由于整個業務環節是非常復雜的,連接的機構與系統繁雜,此時對于監控簽到流轉中的各層數據就非常重要。一旦出現打卡失敗,無法聯機等問題,通過人工排查幾乎難以實現,此時我們通過簽到監控視圖就可以快速定位問題處于什么范圍,從而提升故障處置效率。
場景4、To B業務專線監控
記者:一卡通目前承接的To B類業務包括哪些?流量監控在這些業務運營支撐中起到什么作用?
李志宇:一卡通除了大家熟知的To C業務外,也承接了服務民生的業務,包括養老助殘、見義勇為卡、老年人卡、公園年票卡等。我們技術部是作為解決方案提供商或者是云服務商的角色,是一種IT服務輸出。原有一卡通的業務在“兩云三中心”運行,但是新承接的民生業務未來也需要在其中運行。
【圖5】專線鏈路監控
一卡通的B端業務都是通過點對點的專線連接,運維人員能通過流量監控平臺自主查看網絡層的線路質量,也能監控到應用層的響應情況,有無異常延時等。例如曾有客戶反饋在網點做業務超時、異常,我們通過監控查看線路容量、帶寬使用率、業務占比、線路質量管理、丟包、時延等均在正常范圍,雖然業務質量監控業務帶寬占比正常,但是業務質量指標卻異常,因此很快與應用部門確認問題所在,并予以解決。
一卡通現在正在構建的IaaS、PaaS、SaaS云平臺除了支撐自有業務外,也包含以上這些To B業務,運維實力的保障讓一卡通可以對接這些IT運營服務類項目,也賦能技術部從成本中心向利潤中心去轉型。這些都要求我們之后要更進一步實現端到端的全景監控,保障雙向業務運維持續、高效。
3、輕應用,云服務一卡通的智能運維下一站
記者:對未來一卡通的智能運維發展有什么計劃?
李志宇:無論是私有云還是公有云,需要形成一體化的網絡、一體化的安全,不僅僅關注南北向的流量,也關注東西向的流量。運維場景可以是多維度的監控、故障處置、運營分析、資源預測,我們希望下一步能與智維數據合作形成整體的解決方案。在適配云這一方面要求所有的IT服務模式更加靈活。特別是我們的業務屬性中還有相當一部分To B業務,我們也初步完成了從對內運營到對外服務的能力升級,要適配一卡通B端業務不斷拓展的場景,以及C端互聯網敏態業務不斷上升的需求,未來在系統可靠性和健壯性的基礎上,輕應用、云服務是我們探索的技術方向和目標。