自中國移動宣布啟動“云改”戰略已有三年。當前,中國移動核心系統全部云化、容器化,并按照云原生的開發和運維模式,實現敏捷開發和智能運維。
云網融合的理想,正逐步照耀進現實。
尤其是隨著移動云蘇錫中心四千臺節點投入與運營,中國移動集團網絡事業部、中國移動云能力中心、江蘇移動三方通力合作,為實現云、邊、端算力協同做出的諸多努力已初見成效。
作為備受江蘇移動信賴的運維合作伙伴,紫光股份旗下新華三集團助其在規模化運維、標準化運維、協同化運維、智慧化運維四方面煥新升級,營造云上運維新體驗。
規模:基于“資源整合”下的龐大投入
作為IT技術的集大成者,云計算是諸如虛擬化,分布式存儲,分布式計算,多租戶等技術自然發展、精心優化與組合的結果。
相對于傳統電信運維,原本單一、物理的設備變為了動態、虛擬的資源,海量的告警、日志、性能參數撲面而來,從指數級增長的網元設備管理和租戶管理要求到多數據中心管理帶來的風險管控和應急開銷,云運維“規模巨大”,需要以更加靈活、自如的方式去管理虛擬的計算節點、存儲和網絡等資源。
僅以加固動作為例,江蘇移動一級云上當前已經有3000+設備,每次集成都會新增幾十臺設備,新集成設備上線前必須完成20+項安全加固動作,維護人員需要逐臺設備SSH登錄并上傳腳本,并要針對不同的集成應用需要多次修改腳本,一旦設備加固出錯,需要先人工刪除錯誤配置,時間成本成倍增加,整體流程繁瑣復雜,且多個維護團隊之間操作規范不統一,帶來潛在的安全隱患。
江蘇移動開展大規模運維應用實踐刻不容緩,以自動化平臺作為作業中心的執行平臺和執行通道恰逢其時。圍繞安全建設、執行通道、服務編排能力、全棧接入能力、多數據中心管理五大議題,江蘇移動利用自動化平臺完成入網驗收、日常巡檢、告警預處理、統一運維等運維工作。
針對安全加固工作量大,效率低下的問題,新華三集團AOM上線后,原有的手工安全加固操作升級為全面自動化過程,對加固操作腳本化、標準化、流程化、參數化,并實現異常步驟重復執行,整體上提升了安全加固效率,保證加固結果的一致性和準確性。諸多努力下,安全加固工作改善效果明顯,所需時間較原來縮短5倍,更規避了操作過程中的異常錯誤,讓整個加固過程更安全、更可靠。
從原始人肉運維升級到工具融合協同的平臺化運維,運維效率獲得指數級提升!
標準:尋找最優解的落地實踐
運維走向運營,并向服務化、標準化演進是云運維的必然趨勢。
這主要是因為,云運維具有被管網元同質化的特質,即由每臺設備的部署參數,諸如系統版本、部署目錄、配置參數、部署工具統一等帶來的運維工作基本一致,大量重復性、批量級的運維任務使運維標準化至關重要。
以此為基礎,通過對“運維最佳實踐”的歸納和總結,進而對“最佳實踐”進行統一規范和執行的“運維服務標準化”有助于降低維護難度、能耗需求及運維成本,并提高運維效率、資源效率與服務質量。
而在中國移動的運維實踐中,由標準迥異、交付體系未統一等因素造成的運維能力不足仍制約著運維的效果。例如,因屬地運維工作對的工作內容及標準界定模糊,運維人員對告警的故障點定界不足,漏查了其中一端;又如,由于售前、售中、售后等環節的服務交付體系未統一,致使預期的全周期服務交付在服務組織、客戶響應、適配需求、故障投訴支撐等方面尚存欠缺。
于此而言,制定標準化的運營流程,嚴控驗收環節,搭建標準化運維服務體系,形成快速交付能力已成為影響租戶滿意度的關鍵舉措。
在新華三集團的幫助下,江蘇移動圍繞“服務、運營、驗收、建設、設備”五個維度搭建起標準化運維服務體系,并將日常巡檢、較低風險變更、故障通報等標準化相對較高的工作抽離出來,組成服務臺團隊成為內外部門信息交互的唯一接口,總體控制事件、問題、故障、變更的流程運轉,全面感知云平臺運維狀態,以自動化支撐手段持續提升運維標準化和自動化。
協同:拒絕“一盤散沙”,建設“一支隊伍”
縱橫交織、流程冗長,是移動云運維工作面臨的最主要困境。
一方面,移動云運維工作橫向涉及網絡事業部、云能、政企、客戶,縱向涉及省公司各專業、IT維保商,分工界面縱橫交織,切分存在困難。
另一方面,運維流程長,一個普通的投訴都會涉及多達13個環節,因個別環節設計不合理導致效率低下的事情時有發生,需要扁平化的流程和精準的故障定界能力來保證處置效率。 牽一發而動全身,一子落而滿盤活。
系統性問題,當通過機制建設來解決。依托新華三集團豐富的運維經驗,一套能夠持續優化的運維質量管理體系得以迅速搭建。通過定期對基礎運維指標、運維性能容量指標、專項團隊管理指標的集合衡量,圍繞“人員、服務、平臺、流程、事務”等關鍵要素對IT運維整體管理和技術水平進行評估,并不斷強化弱指標來提高整體運維質量。運維服務依托人來展開。
在搭建運維質量管理體系后,新華三集團憑借豐沛的運維人才資源助江蘇移動在內部開展全網云運維培訓、賦能工作,詳細介紹“云計算、云存儲、云專網、云安全”等前沿技術演進趨勢,并對云運維所涉及的工具、制度、流程做統一梳理,最大化發揮江蘇移動內部運維人員價值,全力保障業務的平穩推進。
智慧:立足當下,放眼未來
預測未來的最好方式,是創造未來。
回頭看,經過多年的研發、測試、部署及運行,運營商系統內部積累了大量的運維經驗。但兩類情況仍是事故高發區,一是由于升級后的某些隱患未能及時發現而造成的事故;二是由于事故的發生很突然,不能快速定界,貽誤時機,釀成大事故。
向前望,智能運維是運維發展的大勢所趨,數字化技術通過規避故障與計劃性例行維護成為傳統電信系統提升運維效率、降低運維成本的重要手段。在可預見的未來,對業務的深層理解,豐富的運維經驗,基于數字化技術的智能運維,將構成驅動運維效率的三駕馬車。
作為贏得未來的關鍵一步,新華三集團助其構建“2+5+N”框架下的智慧化運維,圍繞“預測-感知-診斷-決策-控制-執行”5大領域的應用,進行智能引擎設計,并建立端到端的故障處理協同流程,實現從云到網的“一步響應、協同處理”,整合碎片化的數據、知識和AI能力,快速構建可靈活復用的智慧能力模型,牽引運維智能化水平提升,有效幫助企業將風險系數與業務需求進行匹配,并在日常運維中對故障做到主動感知,最大化降低企業運維風險。
在數字化轉型大潮下,傳統運維面臨的挑戰不容忽視,僅確保IT設備安全穩定運行已無法滿足企業的需求,為企業及業務創造價值已成為更深層的訴求,這要求IT運維工作朝更深度與更前沿的方向發力。在與江蘇移動深度合作的征程中,新華三集團將通過數智化運維助江蘇移動打造優異的運維能力,加快推進運營商數智化運維轉型進程!