云計算、大數據、人工智能、區塊鏈等技術浪潮賦予金融科技創新源源不斷的生命力,但與此同時,以數字經濟為代表的新型經濟形態也對傳統金融業態和既有底層技術帶來深刻變革和巨大挑戰。
在國際形勢復雜化的背景下,國家對安全可靠、自主可控技術提出了更高的要求。當前迫切需要的工作是加強金融行業信息系統的自主研發能力,減少對商業產品的依賴。
由于金融行業涉及民生,業務一旦出現問題,就會對整個社會輿論造成嚴重影響,因此,金融行業的系統穩定性保障尤為重要。然而,走向數字化的金融企業在業務方面存在不可預測、不可控、復雜性高等問題,這就給系統穩定性保障帶來不小挑戰。
那么,金融企業如何規劃系統穩定性治理工作?如何利用云原生架構的特性和優勢,來保障業務系統穩定性?近日,51CTO 采訪了網易數帆云原生解決方案專家朱劍峰,攜國有大行長期實踐經驗,為金融行業的系統穩定性建設獻策支招。
金融行業云原生升級挑戰多
隨著近年來同業競爭加劇,各大金融機構紛紛追求金融服務個性化、場景化,欲打造開放金融,加之監管要求需要實現 IT 自主可控目標,金融企業從大單體總線架構進一步向微服務、云原生架構演進。
在近日舉辦的 WOT 全球技術創新大會上,來自銀行、證券、保險等領域的多位科技部門負責人表示,云原生架構的落地不是一蹴而就的,需要在架構演進過程中,不斷完善相關的能力與規范,形成企業的組織文化與技術體系。企業需要全面梳理、逐步演進,從周邊到核心,先創新再傳統。映射到金融企業,就是先從偏向互聯網業務方向的敏態業務開始進行微服務拆分和云原生改造,進而再滲透到核心系統的穩態業務。
隨著更多企業開始遷移到云原生架構,云原生的穩定性保障也越來越受到關注。企業在云原生穩定性保障方面也遇到了不小挑戰。朱劍峰表示,金融企業在云原生穩定性保障方面主要有兩大挑戰。一類集中在系統韌性方面,在外部環境下,訪問流量的變化會導致系統過載,應用高可用設計不達標,都會造成系統韌性不足;另一類在系統可觀測性方面,由于系統可觀測性不足,導致運維人員無法第一時間發現多樣化的云服務風險故障,例如針對生產環境的操作變更(人為誤操作、變更失敗),代碼編寫的缺陷(代碼質量、程序邏輯、應用架構等故障),以及業務依賴的平臺硬件故障、網絡故障等情況,無法快速發現并定位問題,最終造成業務損失。
所以,金融企業業務系統的關鍵演進方向是云原生技術底座。金融企業需要將云原?的特性應?在業務場景方面,增強傳統云服務的觀測性、應?韌性、?可?性、故障?愈等能?,從而消除不確定性,為業務系統帶來額外保障。
云原生提供的穩定性價值被低估,國有大行已嘗鮮
眾所周知,傳統運行環境偏向手工運維,更多依賴個人經驗,一般很難做到標準化。而云原生架構的本質區別在于容器和容器編排調度的能力,容器化帶來了運行應用的標準化環境,包括云原生環境下的監控告警、異常事件等數據也是以標準化的格式存放,再結合 K8s 技術提供的故障自愈以及實現自動化的運維技術,采用云原生技術建設的風險預測平臺天然就擁有較為智能、自動化、標準的穩定性保障能力,也可以為傳統虛擬機環境上的業務應用提供更為有效的工具平臺。
然而,業界對于云原生的期待大多還聚焦于如何將業務遷移到云原生架構上。但這一遷移過程成本相對比較高,周期也較長,金融行業創新意愿強烈的頭部客戶固然已經在行動,尤其是一些技術實力強勁的國有大行,以基于云原生的穩定性保障為后盾,將分布式架構轉型和核心業務小機下移的規劃相結合推進落地,而更多技術儲備不足的企業,往往處于觀望狀態。綜合分析,朱劍峰認為,基于云原生架構能夠額外提供的可觀測性、故障自愈能力是被低估的。
朱劍峰表示,像容器、K8s、微服務平臺以及穩定性平臺屬于工具類平臺,是 PaaS 的云原生底座,這些技術工具平臺擁有云原生的能力和優勢,相比傳統虛擬機和物理機可以進一步實現智能化能力,這也是大家沒有太多感知到的。所以,在業務云原生化之前,企業不妨考慮將技術工具類平臺遷移到云原生架構上,通過穩定性保障技術來反向為傳統架構下的業務(包括穩態業務)進行賦能。事實上,與網易數帆合作的部分金融客戶,在某些業務上也謹慎地采用了這樣的策略。
系統穩定性保障三部曲事前降發生和事中降影響并重
墨菲定律指出,“凡是可能出錯的事有很大概率會出錯”,指的是任何一個事件,只要具有大于零的概率,就不能夠假設它不會發生。這個定律的要義是,即使某件事情發生的概率很低,也不能輕視它,應該采取預防措施來防止產生不良影響。
那么,對于業務系統的穩定性保障,應該如何建設和完善呢?朱劍峰按照事件生命周期,將增強業務系統的穩定性風險保障能力的建設路徑梳理為三部曲:事前提供風險預測,降低故障發生概率;事中通過故障感知自動根因分析快速止損,降低故障影響;事后完善故障改進追蹤能力,實現穩定性建設目標。
事前階段,通過風險預見和中間件巡檢,結合全鏈路壓測、混沌工程、引流回放在測試環境事先發現系統存在的可能風險,給出分析報告;同時,在生產環境定時巡檢,及時發現生產環境可能存在的風險問題。事中階段,通過立體化監控收集系統的深度指標,標準化數據讓根因分析及時發現故障,并定位根因,給出分析報告,做到1分鐘發現問題,5分鐘定位問題。復盤過程中的事后階段的主要目的是總結經驗,并將事前和事中的一些經驗歸納為專家規則庫。
然而,如果企業的 IT 團隊能力有限,在資金投入也受限的情況下,應該注重事前、事中還是事后呢?朱劍峰表示,每個企業的情況不一樣,在企業沒有充足的預算和人力的情況下,應該著重在事前降發生和事中降影響兩個方面。事前通過持續巡檢、?險評估、故障演練等將異常?險左移,引?算法實現事前?險預測能?,降低潛在的?險;事中通過?體化監控,在故障發?后能快速定位根因,根據故障特征模版采取限流兜底或?愈策略,把影響降?最低。
沉淀專家經驗降低穩定性保障門檻
據了解,針對企業云原生穩定性保障方面,網易數帆提供事件生命周期全棧能力,包括故障演練、服務治理、風險預見、立體化監控、根因分析、故障自愈、規則專家庫等不同模塊。
那么,網易數帆的核心競爭力有哪些呢?朱劍峰告訴 51CTO,網易數帆云原生穩定性保障平臺的核心價值在于專家經驗的沉淀,這也是企業數字資產的一部分。一方面,網易在集團業務中涉及大規?;ヂ摼W業務,沉淀了非常多的專業的專家經驗,可以覆蓋 70%-80% 的互聯網場景,并可復用于金融等行業敏態業務支撐。另一方面,網易數帆還在和包括國有大行在內的多家頭部金融企業合作共建金融行業專家庫,不斷完善金融場景下的專家經驗,為金融敏態業務提供穩定性保障?!盎谶@套專家經驗庫,網易數帆通過將專家經驗和故障庫形成代碼,讓機器通過算法降低對系統保障對‘人’的經驗的依賴,讓穩定性保障的門檻變低?!?/span>
專家經驗能夠在穩定性保障場景里被有效使用,其實是通過決策來實現的。一方面是通過規則引擎直接運行專家經驗,另一方面是通過 AIGC、AIOps 等技術,幫助企業進行輔助性決策,從而不斷提升診斷建議的科學性和有效性。這也是網易數帆在穩定性保障方面的下一步舉措,并且正在內部驗證過程中。
提供轉型利器保障金融系統穩定性
在服務金融企業技術架構轉型過程中,網易數帆對自己的定位也相對比較清晰。一是通過與行業頭部金融企業合作共建,打造經過大規模實踐優化的具備自主可控、穩定可靠、技術領先,以及可持續演進的技術底座產品,為金融企業提供轉型的利器。二是秉持開源、開放、無綁定的原則,提供輕量、解耦的模塊化工具產品,配合企業已有的 IT 規劃小步快跑,逐漸落地數字化轉型。
某金融企業經常出現緩存不可用的情況,間接導致業務不可用。而這家企業的自動化程度較低、觀測性也較弱,無法發現問題出現的根本原因。接入網易數帆云原生穩定性保障平臺后,該企業通過穩定性巡檢的方式發現底層存儲抖動,精確定位到 SSD 寫穿掉盤的故障,從而及時發現問題,告知存儲團隊排查處理。
此外,底層存儲的抖動,還影響到對應虛擬機和物理機運行的中間件,網易數帆基于云原生實踐對各中間件品類設計了配套的異地多活及故障自愈能力,如果出現異常抖動的情況,可以通過這項能力及時將流量遷移到穩定的集群,從而規避風險。朱劍峰強調,大型企業最核心的訴求就是出現問題后能夠快速止損,因此底層存儲出現抖動,如果排查問題并恢復對應的存儲,整個周期是非常長的。但是通過穩定性巡檢的方式快速發現問題,并且自動解決事故,是事中快速止損的一種方法。
結語
金融行業一直是網易數帆持續投入與推動落地實踐的重要領域。融合網易互聯網技術與金融行業服務經驗,通過提供微服務治理、API 網關、容器平臺、分布式緩存、消息、搜索等云原生 PaaS 中間件及相關云原生分布式產品全棧能力,網易數帆已經幫助兩家國有四大行、十余家中國金融百強企業客戶向云原生分布式架構轉型升級,建設API資產全生命周期管理,打造滿足金融業務特性的企業級技術底座,幫助金融企業應對復雜業務場景的挑戰,加速金融業務創新。在云原生穩定性保障領域,未來,網易數帆還將與金融企業持續合作,不斷完善 DBA、SRE 老專家經驗,從而提升診斷建議的科學性及有效性,并結合智能決策,幫助金融企業滿足業務穩定性增長需求。
以上就是云原生穩定性價值被低估?看頭部金融企業穩定性保障法則!的詳細內容,更多請關注www.92cms.cn其它相關文章!