隨著金融行業云計算的發展,服務管理向著自動化、集中化方向轉變,Redis作為一款簡潔、高效的開源內存數據庫已經在金融業務領域廣為應用,光大科技“分布式緩存平臺”以“金融行業云運維管理能力平臺”為基礎,打造集中管理、快速部署、彈性伸縮并滿足高可用特性的統一交付平臺,全面提高Redis的服務輸出能力。
金融行業云運維管理能力平臺
隨著金融行業云計算、虛擬化技術的發展,IT基礎架構的管理向自服務管理自動化、IT服務集中化、橫向服務擴展、網絡架構管理、集中監控告警以及對不同技術領域的統一管理的方向轉變。金融行業IT業務需求廣度、深度、應用規模、用戶數據日益擴展,新一代的行業運維管理要求有:
※降低管理成本
※兼顧不同廠商物理、虛擬資源統一管理
※提高基礎架構設備利用率
※監控關鍵業務指標及告警
※簡化運維
※提供標準化及定制化管理界面
※符合碳中和要求
為適應新一代行業運維管理需求,光大科技致力于整合項目經驗和開發資源,打造“金融行業云運維管理能力平臺”,以提供:
※端到端的自助服務管理
※統一的業務運營和運維管理
※自動化的流程編排及資源分配、應用部署
※支持多種技術架構
※支持多種硬件設備、軟件的集成服務
※服務器、網絡、存儲、數據庫、中間件等的運維管理等
分布式緩存平臺
即基于Redis的數據庫管理平臺。Redis作為一款簡潔、高效的鍵值型開源內存數據庫已經在各類行業廣泛部署應用,為高頻次、大并發業務提供有效的熱點數據訪問加速方案,尤其在金融行業廣為應用。“分布式緩存平臺”以“金融行業云運維管理能力平臺”為基礎,打造Redis集中管理、快速部署、彈性伸縮并滿足高可用特性的統一交付平臺,全面提高Redis的服務輸出能力。
分布式緩存平臺建設理念
服務目標
“分布式緩存平臺”以“平臺+服務”為基礎,為金融行業客戶提供運維監控、納管對接和深度定制化服務,并通過技術整合及定制開發相結合的方式,實現多種核心能力:
※預警分析能力:實時采集、存儲時序數據,實時感知系統狀態,進行壓力趨勢分析,性能分析、故障快速定位、統計展示等
※自動化運維能力:實現服務的快速、標準部署,保證服務高效交付,提供統一管控能力,實現全生命周期管理等
※應用設計能力:工作流設計,功能設計,交互設計,報表及圖表定制,聚合頁面設計,用戶體驗評價及優化,知識產權共享等
※服務保障能力:提供私有化部署、光大科技金融云部署方案,提供智能化安全運維,智能化安全運維,日常巡檢,24小時保障服務,應用培訓及線上反饋等
分布式緩存平臺建設目標
應用場景
“分布式緩存平臺”定位服務全體業務用戶,覆蓋全職能,定制化用戶權限及界面,同時打造運維服務閉環流程,保障運維工作空間與時間延續性。
※面向高層領導:制定業務發展方向,監督業務發展態勢,了解系統主要問題
※面向業務主管:掌握項目總體情況,管理調配項目資源,參與關鍵問題處理
※運維管理面向:保障系統穩健運行,監控分析重點參數,配置策略管理告警
※面向開發團隊:觀察項目健康情況,保障系統運行效率,分析系統薄弱環節
分布式緩存平臺應用場景
技術架構
“分布式緩存平臺”后端技術架構自下而上包括:
※資源層:支持單節點、主從、哨兵、集群等架構的管理
※運維及監控:提供采集監控和運維操作的功能
※數據存儲:提供大數據存儲和處理分析能力
※服務層:服務化設計,提供基礎服務能力
※業務應用層:完善的應用功能
※展示層:統一的運維、監控、管理入口
功能架構
“分布式緩存平臺”前端功能按照運維管理規定進行邏輯劃分,按照互聯網云管理平臺架構進行聚合,實現系統架構從整體到局部,管理顆粒度由粗到細,信息展現由簡略至詳盡的功能整體架構。“分布式緩存平臺”整合了“金融行業云運維管理平臺”的基礎能力以及客戶定制需求,同時支持多系統納管和跨系統操作,標準化部署快捷統一,差異化定制細致入微。
分布式緩存平臺功能架構
項目健康度
健康度展示方案可作為插件應用于分布式緩存平臺頁面中,用于展示以項目為維度宏觀展示Redis系統運行狀況,判斷穩定程度。通過針對告警及監控數據的加權、擬合算法計算實例節點的健康度數據并計算項目數據,作為方案后臺數據來源。
首頁健康度插件
健康度詳情統計
健康度統計卡
健康度標示方法
重點監控
用戶根據自定義設置監控指標項配置首頁展示的重點監控指標,根據選擇的指標不同展示包括曲線、列表、餅圖等多種chart,卡片顯示包括監控類型名稱,告警項目數(累積項目數),告警實例數(實例總數)以及告警總數等必要匯總信息,能夠清楚的按照監控及告警類型了解整個系統的告警或監控數據總體概況。
首頁重點監控參數卡
多種監控及告警展示工具
監控指標配置工具
項目詳情
按照項目角度查看項目,為用戶提供多角度節點查看方式:
※集群及哨兵模式下節點的邏輯架構
※節點在主機上的分布情況※標明節點地址、容器屬性等必要信息
※通過顏色提示節點運行狀態,實例卡片展示節點運行告警信息
※節點詳情列表可直接跳轉實例詳情
集群及哨兵項目架構展示
按主機展示節點架構
節點運行狀態提示
實例詳情
實例是分布式緩存平臺監控管理的基礎:
※實例監控項可自定義添加、刪除和排序,支持用戶高效、便捷、清晰的了解運行狀況進行數據分析
※實例告警匯總實例所有歷史告警詳情,支持差異化、個性化告警策略的制定
※實例詳情支持多種展示布局及風格,界面友好
實例監控信息匯總顯示
實例告警信息匯總顯示
運維管理
實例管理:針對實例節點進行增刪改查編輯操作
告警配置:針對告警配置策略進行配置調整
主從切換:支持多集群的主從切換操作
參數模板:支持參數模板的導入、修改以及配置操作
其它功能
審計和日志:支持日常平臺使用情況統計以及操作統計日志的審計
后臺管理:平臺通用設置,用戶及數據管理,納管系統配置及管理等
技術支持:針對平臺安全及穩健運行提供全方位的保障
應用案例
銀行等金融企業緩存數據庫數量快速增加,而運維團隊規模有限,難以滿足日益增長的業務管理復雜度與管理精細化需求。光大科技基于以上現狀為某股份制商業銀行定制開發并部署了分布式緩存平臺,集中納管了800+個緩存實例,橫跨超百個業務項目,覆蓋近千名業務用戶;實現對緩存數據庫進行全生命周期管理,實現了完全自主可控的緩存數據庫自動化運維能力;為研發人員提供了自助式服務,研發人員可自行根據平臺采集的性能指標對系統進行優化。
“分布式緩存平臺”助力傳統運維到自動化運維的蛻變,通過規范化、高效、靈活、可擴展的自動化運維能力,讓運維團隊更加直觀掌握系統運行,高效執行運維操作,輕松面對繁重的運維工作。