今年全國兩會頻繁提及“數字化”,其中著重提到要發展數字經濟,推進數字產業化和產業數字化,加強數字社會、數字政府建設,提升公共服務、社會治理等數字化智能化水平。隨著數字化浪潮的來襲,數字化運維也成為IT系統建設中必不可少的重要環節。
數字化的系統建設是第一步且一次性的,而運維則是全年不停,7*24小時,每時每刻都不能缺少的。就像行業中流傳的那句經典表述:“三分建設、七分運維”。當相對短暫的系統建設完成后,就進入到了漫長的運維與運營階段——也就是“建轉運”的發生時。
目前中國數字化在進展到“建轉運”時,各行業發展的狀態相對不均衡,但隨著宏觀政策層面的指導,以及企業自身的業務發展和技術的推動,可以預見,數字化運維的重要意義以及運維的價值將在不斷的實踐中愈發凸顯。
然而,隨著區塊鏈、虛擬化、容器、IoT等新技術的應用,IT規模和復雜度呈指數增長,現如今的智能運維能否滿足企業對運維的需求呢?
如果想要回答這個問題,不妨先來看一下智能運維發展到了何種程度。
認知不斷升級的“智能運維”
智能運維的概念最早由Gartner在2016年提出,從這時開始,智能運維進入了概念啟蒙階段。到2018年~2019年期間,市場普遍認為智能運維主要依賴算法,各大廠商也在積極探索并在小范圍內應用。到了2020年,市場漸漸回歸理性。隨著人們對智能運維認知程度的加深,行業內達成了更加面向現實的共識:智能運維要以數據為基礎、以場景為導向、以算法為支撐。
也就是說,智能運維一定來源于非常好的數據基礎,并應該根據用戶的應用場景和需求,將適合的算法和模式匹配到用戶的場景中。工程化算法要擬合數據,根據數據和場景需求選擇或研發合適的算法。只有具備上述三個條件,才能真正形成一個真正工程化落地的智能運維。因此,對于智能運維服務商來說,既要有非常好的算法能力,又要對用戶的應用場景有非常好的理解力,還要有工程化落地的能力。這幾種能力都具備,才能幫用戶解決問題。
對于云智慧來說,“以數據為基礎、以場景為導向、以算法為支撐”解決的是智能運維方法論的“戰術”問題,而要為用戶真正做好智能運維,還要解決“戰略”問題。
過去,IT運維的關注點在于底層設備的高可用和穩定性,而如今,用戶的關注點更集中到業務層面,衡量IT對業務影響程度的指標變成了MTTR(Mean Time to Recovery,平均故障修復時間),這就需要智能運維平臺能夠從業務的視角,實現覆蓋所有業務鏈路的端到端全局監控、管理和分析,并與業務指標進行關聯。IT系統要以保障業務連續性為目標,同時要為更高層面的業務決策賦能。這也是云智慧對運維最核心和本質的理解——一切源于業務而又歸于業務。所以說,智能業務運維是IT運維與互聯網深度融合的產物,以用戶體驗為核心,以業務價值為導向,是運維管理在云計算、大數據技術推動下的必然結果。
站在業務視角看智能運維痛點
當我們站在業務管理的視角重新審視智能業務運維的建設時,我們發現,隨著IT和互聯網的發展,上線的業務系統逐漸增多,核心業務越來越依賴IT系統的穩定運行,關鍵應用的不間斷運行成為企業保持高效運行的基石,因此,智能業務運維要以“實現業務連續性”為最高目標,以可用性保障為重點,整合監控體系、配置管理、服務臺、服務管理系統等模塊的數據和業務流程,落實可用性管理、安全合規管理、連續性管理和應急管理。
其次,運維工作涉及到整個運維管理的全生命周期與全閉環,而且每個場景之間從業務流程與數據角度是高度統一融合的,這種情況就客觀上要求智能業務運維能夠為每一個潛在的人工或低效環節賦能。因此,智能運維需要涵蓋運維工作在規劃準備、監控、事件管理、日志分析與服務管理的方方面面,而且操作上要更加簡單易用,從而幫助運維人員更精準和快速地排查與分析問題,更加高效地處理運維過程中面臨的問題。
此外,智能運維的技術關鍵不是算法,因為用戶的應用場景千差萬別,需求也各不相同。基于明確的智能運維工程化落地場景,快速搭建人工智能工程化技術方案,才是算法工程化的最大挑戰。因此,要將智能運維的算法平臺化,通過算法平臺來滿足復雜的檢測、預測與分析類智能研發需求,覆蓋從業務場景分析、數據獲取到模型部署、性能監控的全流程,打通算法開發、訓練、發布各環節,讓平臺具備優秀的算法擴展能力,滿足更多產品對算法服務的調用,支撐更多智能運維場景。
新一代智能業務運維平臺問世
鑒于上述用戶在運維過程中面臨的痛點和難點,云智慧站在用戶視角,遵循“以數據為基礎、以算法為支撐、以場景為導向”的核心理念推出了新一代智能業務運維平臺。該平臺充分考慮到可落地的運維場景,覆蓋整個運維管理的全生命周期,幫助用戶構建從技術到業務的完整監控體系,在保障業務連續性的同時賦予業務快速迭代和創新能力,帶來業務與IT管理效能的提升。
該平臺由立體化監控與管理工具集、數字化運維數據中臺和數據價值應用與管理產品集組成。其中,立體化監控與管理工具集從基礎設施、應用性能到用戶體驗,涵蓋從業務到基礎設施的各個監控層面,幫助用戶構建從技術到業務的完整監控體系。
數字化運維數據中臺通過打通后臺IT支撐系統與前臺業務應用之間的信息斷層和管理斷層,向上提供數據與能力支撐,在快速響應前臺的變化和創新需求的同時,向下保障系統穩定可靠運行。
• 采控平臺:一站式提供各類采集任務的配置與自動化部署,提供針對各類日志、IT基礎設備等數據的采集、清洗、監控、告警等功能,同時對采集任務和采集行為進行統一規范的調度和管控。
• 專業運維數據庫:提供高性能的一站式運維數據服務,實時高效地接入用戶環境中的IT數據和業務數據,進行低成本存儲、高效計算、關聯分析建模,并通過接口的方式利用標準查詢語言提供各類數據檢索服務。
• 算法中心:提供算法管理、算法配置等功能,支持算法接入,智能化的數據分析、模型實驗訓練與調優,支持算法泛型的發布與應用,具備高可用、高并發的性能,為上層業務以及產品提供強大的算法能力。
• 配置中心:全面管理企業IT運維的元數據并確保數據的準確性和唯一性,以可配置、可維護的數據支撐力量促進運維監控、服務管理、運維自動化以及運營分析相關的數據消費場景落地實施。
• 指標管理體系:分層構建與管理來自客戶離散監控系統的數據,針對不同對象提供指標、指標閾值規則與業務健康度的統一定義,并利用智能算法實現異常指標的問題排查與定位,為管理決策提供數據支撐。
此外,數據價值應用與管理產品集根據用戶的不同業務場景和領域,提供一系列運維數據價值挖掘與分析能力。用戶可在基于指標體系的監控中心對運維大數據進行統一歸納、梳理,根據業務系統架構進行層次化建模、分析,并進行集中展示;通過事件中心接入來自于各種監控系統的告警消息,支持事件的通知、響應、處置、跟蹤以及多維分析,實現面向告警事件全生命周期的閉環管控。
新一代智能業務運維平臺具備以下六大特點:
• 全棧解決方案:采用面向運維監控、服務管理、可視化的all in one技術底座,提供智能業務運維全棧解決方案。
• 國產化適配:適配國產的主流CPU、操作系統、數據庫、中間件等,以支持國家信創產業的發展,構建安全、自主、可控的信息技術應用創新體系。
• 組件化:提供一站式、可配置、組件化的開發能力,可快速搭建復雜的分析與管理系統。
• 靈活,可擴展:提供面向不同行業、數百個應用場景的模版,可快速交付項目進行定制開發,支撐用戶創新應用。
• 一站式:提供從數據采控、存儲、處理、建模、智能分析到數據應用的一站式運維數據服務,降低數據治理的總成本。
• 自監控:具備完善的自監控和自運維能力,保證平臺穩定可靠運行。
憑借多年來在智能運維領域的深耕與實踐,云智慧的智能業務運維平臺已幫助各行業眾多用戶構建和實施數字化運維。新一代智能業務運維平臺也將更加聚焦用戶業務,具備更高與更全面的實施標準,用更加精細化與敏捷化的解決方案攻破用戶在運維過程中面臨的新老問題。