日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

UML對系統架構的定義是:系統的組織結構,包括系統分解的組成部分,它們的關聯性,交互,機制和指導原則,例如對系統群就是定義各子系統的功能和職責,如貸款系統群可能分為進件申請、核額、交易賬務、貸后管理、管理臺等子系統,對于系統就是定義各模塊的功能和層次,例如管理臺包括權限管理、用戶管理、交易管理、逾期管理、統計分析等功能。

技術架構是指從技術實現層面描述系統,主要是根據系統架構組成部分確定每層使用什么技術框架,例如中間件、WebService等。

那對于數據倉庫系統群具體可以分為哪些部分以及他們的具體實現技術如何呢?以下是銀行數據倉庫的系統功能圖:

銀行數據倉庫的系統架構是什么?看這篇足矣

 

1、數據源:

主要是指行內交易系統、外部采購或合作的第三方數據等3類、包括結構化數據以及非結構化的數據,結構化數據主要是存儲在各個行內系統數據庫中的表數據,非結構化數據包括圖片、語音、文檔等類型的數據。

2、數據采集:

銀行數據倉庫的系統架構是什么?看這篇足矣

 

即如何將數據從數據源獲取到數據倉庫中,就是我們常說的ETL隨著數據倉庫功能的發展這部分不僅僅包括批量數據獲取還包括實時數據流以及數據庫數據實時采集:

(1)批量采集:主要包括從數據源獲取大批量的數據,這是銀行數據倉庫主要的數據采集方式,批量采集的采集數據頻率較低,一般是每日凌晨獲取上一天的數據,有些場景也可以每小時采集一次,由于采集的數據量一般較大,對數據源也有IO的影響,因此不建議采集頻率太高。

在技術實現中,批量采集工具需要能支持多種數據源的采集和加載,批量采集可選擇的工具較多,可以采用商業化軟件如IBM的DATASTAGE以及INFORMATICA公司的INFORMATICA,也可以采用開源的SQOOP和KETTLE。也可以采用各關系型數據庫以及HADOOP自帶的文件導出和導入功能。

(2)實時采集:指實時同步源系統的數據庫數據到數據倉庫,這樣可以在數據倉庫中實時分析數據。實時采集通過專門的工具監控源系統數據庫日志進行數據同步,數據源系統無需改造,這種采集方式針對數據統計時效性非常高的場景。

在技術實現中,實時采集工具需要支持從多種類型數據源到多種類型目標數據庫的實時同步,這塊商業化軟件比較成熟,如ORACLE的GOLDENGATE、IBM的InfoSphere Change Data Capture等軟件。開源軟件中kettle也支持數據庫實時同步,但需要在源表增加時間戳字段。

(3)數據流采集:即通過Queue的方式從數據源系統獲得數據流消息,數據倉庫實時獲取Queue中的消息進行實時數據流計算。這種數據采集方式也是面向統計時效非常高的場景,需要數據源系統增加實時發送消息的功能。

在技術實現中,由于數據流計算在互聯網公司使用廣泛,涌現出許多優秀的開源軟件,如開源的KAFKA、ROCKETQUEUE等QUEUE工具,可以支持實時監控文件、數據庫的變化并將變化數據發送到QUEUE中的開源軟件FLUME。對于MySQL也可以通過BINLOG和SHYIKO監控MYSQL日志,將數據變化發送到QUEUE中,那在商業化軟件中IBM的MQ是各銀行經常使用的中間件。

3、數據存儲/計算:

數據存儲計算是數據倉庫的主要功能。數據存儲主要指結構化數據和非結構化數據的按格式存儲,計算指基于存儲的數據進行關聯、匯總、數值計算等批量處理、實時流計算和復雜的機器學習。

實時流計算主要指對大規模流動數據在不斷變化的過程中實時地進行分析,比如實時展示目前銀行所有轉賬的筆數和匯總金額。需要將每筆轉賬進行不斷計算。目前在銀行中應用場景還較少,但隨著互聯網渠道的發展后續也將出現更多的應用場景。

由于數據倉庫是銀行的數據樞紐,銀行的所有業務數據都會在數據倉庫保留,因此數據量較大,一般小銀行數據量在TB級,股份制銀行大概在PB級,國有大銀行在ZB級。因此存儲和計算的的可擴展性、性能都很重要。那在目前銀行中數據倉庫的存儲和計算一般采用MPP數據庫(大規模并行數據庫)和HADOOP相結合的技術方案。

銀行數據倉庫的系統架構是什么?看這篇足矣

 

(1)MPP數據庫:主要是面向結構化數據存儲、批量計算和機器學習。在HADOOP出現前,商用的MPP數據庫是數據倉庫的主流技術平臺,它使用簡單,同時具有超大規模計算能力和良好的計算性能、擴展性。如TERADATA公司的TERADATA數據庫、ORACLE公司的ORACLE一體機、IBM的NETEZZA一體機。其中TERADATA公司的TERADATA數據庫在早期是一枝獨秀,我國國有大銀行的數據倉庫最早建立時大部分都采用了TERADATA數據庫。近年來ORACLE的EXADATA市場占有率也逐步提升,開源的MPP數據庫最有名的是由商業轉為開源GREENPLUM,目前騰訊云的TIBASE、阿里云的HybridDB for PostgreSQL都是基于GREENPLUM優化的。

(2)HADOOP平臺:HADOOP平臺支持結構化數據和非結構化數據的存儲和計算。由于MPP數據庫價格高,且擴展性也有一定局限。很難滿足互聯網公司超大數據量及非結構化數據的計算需求,因此HADOOP軟件生態體系應運而生并發展越來越成熟,成為互聯網公司大數據處理的標配平臺。2015年左右,隨著HADOOP平臺的完善及商用(商用版本如華為、星環科技;開源版本如CLOUDERA、Hortonworks),銀行也逐步使用HADOOP平臺和MPP數據一起作為數據倉庫的存儲和計算平臺。其中批量計算一般使用HIVE和SPARK,流計算一般使用STORM和SPARKSTREAMING,機器學習可以采用HADOOP生態的SPARKMLLIB、MAHOUT,也可以使用TENSORFLOW、SAS、R等支持HADOOP平臺專門的機器學習工具,目前許多公司在研發推出的人工智能平臺(機器學習建模平臺)也都把HADOOP平臺作為數據存儲和計算平臺,如第四范式、星環科技等。

銀行數據倉庫的系統架構是什么?看這篇足矣

 

4、數據服務:

數據服務主要指如何為銀行其它系統提供數據服務,隨著數據倉庫體系的發展,數據倉庫不僅僅能按批量的方式提供數據計算結果,還可以實時提供數據服務。

(1)批量接口:按約定的接口方式將數據批量提供給數據應用系統,一般每天1次,可以按文件的方式放到約定的服務器,也可以通過數據采集部分提到的ETL工具直接將數據同步到應用系統的數據庫中。

(2)在線查詢:提供實時查詢的接口,并發布到銀行交易總線,由其他業務系統或數據系統實時調用,比如銀行的每年的賬單總結(類似支付寶每年賬單)一般由數據倉庫根據每個客戶1年的交易流水,統計出轉賬、消費、收入等數據并提供給渠道系統如手機銀行、網上銀行進行展示。那在技術實現方面,接口服務開發一般按各行的開發規范來實現,如web service或http+xml,大部分銀行使用JAVA進行開發,如果接口TPS不高,一般的MPP數據庫也足夠支持,無需進行數據移動,如果TPS比較高,可以將數據加工結果放到HADOOP HBASE進行數據存儲和查詢。

(3)實時同步:實時同步主要是實時數據流計算后將結果實時同步給數據使用系統,同時將結果發布到QUEUE中,由目標系統進行訂閱,實時獲取。

銀行數據倉庫的系統架構是什么?看這篇足矣

 

5、數據應用:

數據應用主要是將數據通過數據服務提供給各應用系統,由各系統進行數據分析和成果展示。那主要有以下幾類:

(1)數據應用系統:主要指使用數據的系統,在銀行包括客戶關系管理、管理會計、績效管理、新資本協議系統群等數據系統,也包括核心、貸款等交易系統。

(2)報表平臺:報表平臺能將數據快速展示成圖表、能通過建立數據立方體(CUBE)提供數據鉆取(向上或向下變換數據分析維度)功能,方便業務人員快速查詢和分析數據。那報表工具目前商用的比較成熟,展示也更美觀,常見的有Finereport、TABLEAU等,開源的報表工具功能較弱,常用的有birt、ireport、jasperreport、KYLIN(基于hadoop建立CUBE)等。

(3)分析探索:有的銀行也叫數據實驗室或分析集市,主要指提供給業務人員自行分析的平臺,銀行業務部門的分析人員經常使用SQL自行分析數據,也會使用SAS或R、Python進行數據挖掘,隨著AI技術的深入,也逐步在嘗試TENSORFLOW等深度學習的工具來分析銀行數據。由于數據分析工作時間不固定,且消耗計算資源較大,因此一般都是單獨給業務人員搭建一套或多套的分析環境,每套環境包括HADOOP或數據庫作為數據存儲,SAS、R、TENSORFLOW等作為分析引擎。同時還需要定期(一般T+1)更新分析環境的數據,提高數據分析的及時性。

銀行數據倉庫的系統架構是什么?看這篇足矣

分享到:
標簽:數據倉庫
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定