過去十年,農業銀行信息化建設積累了海量的數據。為了盤活這些數據資源,充分發揮數據價值,在大數據平臺和AI建設過程中,農業銀行采取“統籌規劃、頂層設計、分步實施”的策略,不斷發展和完善數據治理內容,摸索出基于大數據+AI體系下的“一保八維”的數據治理框架,打造了全流程智能化的一站式數據治理平臺,逐步解決了數據的全面性、準確性、完整性、一致性、及時性等問題,提升了數據資產管理水平和數據質量,提高了數據服務能力,為全行數據管理、產品創新、數字化轉型等提供數據支撐。
提出“一保八維”的數據治理框架,全面促進高質量發展
數據治理是一個系統工程,通常采用自頂向下指導,自下而上推進。在農業銀行大數據+AI建設過程中,逐漸摸索建立了涵蓋研發、數據、業務、安全的企業級的“一保八維”的數據治理框架,為高效的數據質量、穩定的數據服務奠定基礎。“一保”是指數據質量保障體系,包括建立高效的數據治理組織架構,為數據治理各項活動提供強有力的組織保障;建立全面嚴謹的制度章程,為數據治理快速有序推進提供制度依據;建立全流程、全生命周期的閉環數據治理流程,為全面進行數據治理提供標準化、規范化的閉環流程機制;打造數據治理平臺,為數據治理提供自動、自助、智能化的平臺支撐。“八維”是指企業級的數據模型管理、數據標準管理、元數據管理、主數據管理、數據質量管理、數據服務管理、數據安全管理和數據生命周期管理八大核心領域,實現對數據治理保障機制的支撐與落地。
采用數據質量閉環治理機制,有效提升數據質量
數據質量是指通過技術、業務手段使數據符合業務規則、數據標準等要求,保障數據的完整性、準確性、及時性和一致性的活動。農業銀行在大數據平臺數據治理過程中,通過建立數據質量閉環治理機制,以組織架構為保障,以流程制度為依據,落實責任主體,同規同源,穩步推進,有效提升數據質量。通過建立數據質量閉環治理機制,主要解決“是不是問題”“誰的問題”“誰來整改”“如何良性循環”等一系列痛點,形成健全的數據管控長效機制,推動數據問題標本兼治,全面提升數據的全面性、完整性、準確性、及時性、一致性,降低數據管理成本,提升數據質量,減少因數據不可靠導致的決策偏差和損失(見圖1)。
圖1 數據質量閉環治理機制
建立智能化數據治理平臺,提供全流程一站式數據服務
借助大數據和AI技術,以元數據管理為基礎,提升數據質量為目標,搭建智能化數據治理平臺(見圖2),有效提升了數據服務質量和能力,支撐了產品創新、服務創新、數字化轉型等。
圖2 數據治理平臺總體架構
數據治理平臺構建了9大功能模塊,包括數據標準、元數據管理、數據質量、數據處理、主數據管理、數據資產管理、數據交換、數據生命周期管理、數據安全模塊。解決了8大問題,包括業務系統缺少統一標準、數據質量差、變更對應的影響分析困難、業務系統間資產共享差、數據安全無保障、數據管理體系不完善、數據價值利用低、數據管理成本高且效率低等問題。凸顯8個能力,包括海量存儲和高效的數據處理能力、全面的數據覆蓋能力、自動化的元數據采集能力、立體的數據管理能力、全流程一站式數據治理能力、自助式服務能力、智能化數據服務能力、數據安全管理能力。
數據治理平臺依托農業銀行特色的MPP數據庫加Hadoop混搭架構的大數據平臺,提供海量數據的存儲和大規模并行計算能力,支持PB級以上的數據存儲和海量數據加工處理,可在8小時內完成每天近100TB數據的加工,實現海量存儲和高效的數據處理。采取“三范式融合維度建模”的方式,構建了1萬多個模型,存儲了逾數十PB的數據,實現全面的數據覆蓋。通過采用可插拔的適配器方式實現各類數據源、多種元數據的自動采集,快速精確的納入元數據管理,極大減少人工工作量,提升元數據的準確率。通過元數據管理系統為用戶提供“橫縱交錯,靜動結合”的元數據管理,實現立體的數據管理能力。數據治理平臺9大功能模塊可互相調用,打通數據治理各個環節,提供全流程一站式數據治理服務。從數據查詢服務、BI業務報表應用、AI數據挖掘三類數據消費服務出發,讓業務人員能夠從多維數據中對數據特征、數據指標等內容進行提煉,從而達到業務自助式服務的目標。數據治理平臺在數據治理的多個環節,充分利用AI技術,為數據治理提供智能化數據服務。依托保密安全和信息安全體系框架和管理要求,基于數據分類分級安全管理策略矩陣,通過基于統一安全認證平臺接入、堡壘機、轉儲控制(TSM)、涉數操作行為審計在技術層面實現了事前、事中、事后安全控制,實現數據安全模塊的研發落地,為數據服務體系奠定堅實的數據安全基礎。
借力AI技術,實現數據治理向“智能化”轉變
隨著AI技術的興起,數據治理技術和AI技術開始融合,使得數據治理開始向“智能化”轉變。一是在數據質量檢查時,針對少量核心檢查規則,從大數據中選取訓練數據樣本,利用機器學習算法進行深度分析,提取公共特征和模型,可以用來定位數據質量原因,進行數據質量問題的預測,并進一步形成知識庫,進而增強數據質量管理能力。二是在數據模型管理過程中,通過機器學習技術分析數據庫中數據實體的引用熱度,通過聚類算法自動識別數據模型間的內在關系,同時也可對數據模型質量的檢測和評估。三是在數據傳輸監控中,利用機器學習技術對數據歷史到位情況分析,預測數據的到位時間,為保證數據處理的及時性和應對數據晚到的影響提供支撐。四是在數據問題發現方面,可以應用NLP技術對住址、單位名稱等數據進行詞性、句式、語義分析,進行用戶隱私數據發現和數據一致性問題發現等方面的探索,為避免隱私數據泄漏,治理數據不一致等問題提供治理線索,增強數據質量和數據安全管理能力。
通過業技聯動,推進數據治理工作,提升數據質量
大數據平臺下數據治理工作具有長期性、艱巨性和復雜性。農業銀行數據治理工作遵循“頂層設計、問題驅動、急用先行、標本兼治、業技聯動”的原則,采取“摸家底、建機制、搭平臺”三步走方針,將數據治理分為常規數據治理和專項數據治理。在常規數據治理方面,優先通過技術手段解決數據問題;保證業技聯動,一是聯合信息管理部進行客戶、合約、內部核算等業務主題的數據監測,提交質量監測報告;二是參與個金部、公司部等業務部門的檢查規則制訂;三是完成客戶信息治理等多項數據管控的工作,初步形成問題發現、收集、分析、報告、整改、驗證的協作機制,有效避免了數據“邊治理、邊污染”。在專題數據治理方面,根據業務部門的需求,開展個人客戶、對公客戶、個人賬戶、AI賬戶、非居民客戶、信貸業務、交易對手、微捷貸等專題治理,形成了近千條質量監測規則,有效提升了數據質量。
總結與展望
基于大數據和AI體系的數據治理是銀行業實施大數據+AI戰略的重要基礎和保障,它對數據價值挖掘、產品創新、服務創新、數字化轉型等工作提供重要支撐。農業銀行在大數據+AI建設過程中,采取“摸家底、建機制、搭平臺”三步走方針,探索出“一保八維”的數據治理框架,搭建了基于大數據和AI技術的智能化的數據治理平臺,為數據治理工作提供堅實的技術支撐,有力提升了數據資產質量、數據管理能力以及系統研發運維效率,形成了數據管控的長效機制,滿足了大數據背景下商業銀行精細化管理和產品創新、服務創新。未來,農業銀行將更加深入研究和應用大數據和AI等金融科技技術,加快科技轉換能力,利用科技賦能傳統數據治理,加快農業銀行的數字化轉型。