上一篇講了銀行數據倉庫的系統架構,這次給大家講講數據架構。如果一個系統,沒有數據架構,那肯定是在吹牛。
狹義的數據倉庫數據架構用來特指數據分布,廣義的數據倉庫數據架構還包括數據模型、數據標準和數據治理。即包含相對靜態部分如元數據、業務對象數據模型、主數據、共享數據,也包含相對動態部分如數據流轉、ETL、整合、訪問應用和數據全生命周期管控治理。
數據架構層面通過數據分類、分層部署等手段,從非功能性視角將數據合理布局。通過整體架構管控和設計,支持業務操作類和管理分析類應用(系統),滿足業務發展及IT轉型對數據的需求,架構的擴展性和適應性能夠提升數據分析應用的及時性、靈活性和準確性。
那實際情況下各個銀行的數據架構體系會有所不同,根據各行的業務發展、客戶數據量、交易數據量、功能需求等會有不同的演變路徑以及發展方向。一般國有銀行、股份制銀行等全國性的銀行業務較復雜,數據量也較多,數據架構也因此進化較快。常見的數據架構分區如下圖所示:
1、數據采集層
數據緩沖區的數據主要是將數據從源系統加載到數據倉庫中,作為數據在數據倉庫的起點,數據緩存區數據只保留7-10天,以備數據問題處理,數據緩沖區的數據除了標準化的處理,最好直接獲取源系統未經加工的數據,以便一次抽取,多次使用。
標準化處理主要有編碼統一轉化、異常字符清理等,以便后續處理。數據采集層不僅僅只應用于數據倉庫相關,也可以適用于各交易系統的批量數據或文件傳輸和交換,所以在全行系統層面制定規范。
2、存儲計算層
(1)主數據區:
指結構化數據的主數據區,這部分數據包括了所有的基礎明細數據以及歷史數據,其它區域的結構化數據都是由主數據區數據加工而來。那主數據區主要有兩種模型:近源模型層和整合模型層。一般在實踐過程中可以兩個區域都有,也可以只有任意一個區域。這兩個區的數據都通過歷史拉鏈或歷史流水的方式保留歷史數據,如果有數據標準,這兩個區的數據按數據標準進行字段屬性如代碼值、長度、精度的標準化,那這兩個區的數據主要在模型設計方面有所不同:
①近源模型區:表結構設計和源系統類似,在源系統表基礎上增加標準化字段以及歷史數據保存算法的數據日期字段,近源模型層的特點是保留源系統表所有信息,在建模和運行效率上比較高,但數據整合性不高,一些交易系統設計的表結構并不直接適用數據分析和加工。
②整合模型區:整合模型區按主題進行數據整合、表設計以三范式為主,模型穩定,數據冗余少,那這里模型穩定是指即使源系統表結構如何變化,只要實體之間關系和屬性不變,那整合模型也可以保持基本不變。模型穩定的一個好處就是可以屏蔽源系統變化,避免下游應用系統重復改造。
舉個栗子:個人信貸系統升級,將使用新的系統,那所有表結構都會發生變化,如果直接使用近源模型區數據,那對于后續加工變化很大,同時時間跨度較大的分析(如年報)需要分別考慮新舊個人信貸系統的數據加工規則,如果使用整合模型,那整合模型變動不會太大,對于歷史數據也能同時存在于一個模型(一套表)中,對于后續應用加工影響較小。同時整合模型會在客戶、賬戶、簽約等各主要維度進行分析梳理,形成整體視圖,有利于從全行視角分析。例如客戶整合可以區分客戶唯一性,獲得客戶視圖;產品和簽約的整合可以清楚看到客戶在行內的購買的所有產品和簽約。方便后續客戶分析。
(2)指標匯總區:
由于主數據區的數據并不合適直接提供給數據系統分析使用,因此指標匯總區是整合各數據應用的加工需求,按事實表(寬表)和維度表進行模型設計,對主數據區數據進行關聯、公共指標加工,提供給多個數據應用使用,那指標匯總區可按協議(賬戶)、產品、客戶、科目、機構等逐層匯總,指標匯總區可以消除各系統對于同一個指標分別加工導致的口徑差異。
(3)集市區(倉內):
倉內集市主要指和數據倉庫在同一個物理平臺中的集市,可以直接訪問主數據區,指標匯總區數據、減少數據批量轉移的成本,利用數據倉庫平臺分析性能快速進行數據加工,那數據集市的劃分可按業務部門或下游系統關聯度進行集市劃分,如財務集市面向管理會計等財務分析應用進行專門的數據加工、使用者主要為計劃財務部。監管集市主要面向給人行、銀監進行監管報送報表的加工,涉及多個業務管理部門。
(4)批量接口區:
數據倉庫給各下游數據應用系統、倉外集市的數據接口加工區,按雙方約定的數據格式提供給數據應用系統,批量接口區按接口協議做簡單關聯,不做復雜加工,如果平臺支持視圖,接口區可以只有視圖提供給下游接口,減少數據冗余。
(5)非結構化數據存儲計算區:
主要對非結構化數據進行存儲計算,按一定的數據類型、來源、用途進行區域劃分,方便實時查看和分析;
(6)歷史數據區:
面向主數據區和非結構化數據區的歷史數據歸檔和查詢。主數據區和非結構化數據區一般只保留1-3年的數據,之前的數據使用率低,可專門歸檔到歷史數據區,提高主數據區的性能;同時歷史數據區可以采用成本較低的設備,降低成本。
(7)實時數據區:
實時數據區主要面向流式數據的加工和處理,同時對于流處理所需的主數據區數據可以直接訪問也可以存儲一份在實時數據區。
(8)在線訪問區:
在線訪問區數據是數據加工結果數據,以實時數據接口方式提供給外部使用。改部分數據可以采用HBASE提供在線查詢服務。
3、倉外集市數據區
倉外數據集市和倉內數據集市區別只是和數據倉庫不在同一物理平臺,但一樣面向特定的數據應用進行加工分析,一般隨著數據量的增加,數據倉庫的平臺負荷過大往往會將集市從倉內移到倉外,或者對于需24小時隨時提供數據處理的數據集市,為了不與數據倉庫平臺競爭資源,也一般選擇在倉外建設數據集市。
4、報表區
報表區數據是加工后的報表結果數據,為報表平臺提供展示數據,因為報表系統往往是7*24小時提供服務,因此在數據平臺外單獨建立報表平臺,減少耦合性,在行內可以建設統一的報表平臺,對報表的開發、整合、維護、下線進行統一管理,減少重復報表開發。
5、數據探索區
數據探索區是提供給各業務部門進行數據探索的區域,該區域的數據根據業務分析需求從數據倉庫進行加載,并T+1進行更新,由業務同事對數據進行自由分析和挖掘。該平臺一般性能要求也比較高,可以使用MPP數據庫或HADOOP平臺進行技術實現。由于業務人員使用比較隨意,該區域需要注意歷史數據的清理,避免過多冗余無用的數據占用大量空間。
從數據分層來看,存儲計算區是最為核心的部分,存儲計算區大部分銀行是由MPP數據庫和HADOOP平臺共同來實現,部分互聯網銀行單獨使用HADOOP平臺來實現。以下是一種常見的MPP和HADOOP平臺協作的存儲計算數據區的技術實現:
從各數據區域的使用團隊來看,如果全行數據進行統一存儲管理或者采用數據中臺,那存儲計算區建議由統一團隊進行開發維護,數據集市區、數據采集區、數據實驗區、報表區可以統一規范和技術平臺,由各數據應用團隊負責各自程序維護,通過用戶權限管理進行隔離。