關于大數據管理，你該知道的-魔扣目錄

隨著大數據時代的悄然來臨，大數據的價值逐步得到廣泛認可。有效管理大數據，沉淀成數據資產，對內可實現數據資產增值，對外可實現數據共享變現，是企業的通用訴求。

然而，企業在管理底層數據時，經常會面臨各種挑戰：各業務系統分散，形成信息孤島；未制定統一的數據標準；數據處理能力薄弱；數據沒有互通互聯，難以建立數據共享機制。

本文就來聊聊大數據管理的兩個重要概念：數據倉庫、數據治理。

（上）數據倉庫

| 數據倉庫是什么

數據倉庫是基于數據庫的建設過程，是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合，用于支持管理決策。

未建設數倉前，需要對多個源表進行查詢分析，查詢慢，數據質量差，無法進行高價值的數據分析。通過建設數倉，可以在一個地方快速訪問多個系統源數據，快速響應OLAP分析；提高數據質量和一致性；能夠提供歷史的數據存儲；更有利于進行數據價值挖掘和數據分析。

| 數據倉庫與數據庫區別

數據庫是面向事物的設計，更關注業務交易處理（OLTP）；而數據倉庫面向主題設計，更關注數據分析層面（OLAP）。

數據庫一般存儲在線交易數據，數據倉庫反應的是歷史信息，存儲歷史數據，不可修改。

數據庫盡量避免冗余，而數據倉庫有意冗余，通過空間換時間。

以銀行業務為例，客戶在銀行的每筆交易需要寫入數據庫記錄下來，起到“記賬”的作用，是事物系統的數據平臺；而數據倉庫是分析系統的數據平臺，它從事物系統獲取數據并匯總加工，支持分析決策，如某分行每月發生多少交易、當前存款余額，以此來決定是否需要增加ATM機。

| 數據倉庫整體框架

數據源層：

盤點數據倉庫需要接入的數據源，數據庫、結構化電子文件、非結構化數據文件、行為日志等。最終在接入數據倉庫時，所有的數據類型都會轉化成兩種數據格式：數據庫表和電子化結構化文件。

數據接入層：

按上層應用場景不同，接入可分為實時接入和批量接入。

實時接入：對于實時接入的數據，以流式的方式寫入kafka，創建Topic供后續消費；

批量接入：對于批量接入的數據，主要有4種處理邏輯：

寫入Kafka的數據被spark消費，處理后寫入HDFS，然后load至hive表；FTP方式批量傳輸；利用sqoop將數據庫數據批量遷移至HDFS或hive；數據共享交換平臺提取數據庫或文件數據進行入庫。

數據計算層：

ETL任務開發，按需生成對應的事實-維度表或集市層表。業內通常將數據倉庫構建為4層架構：

圖：ODS到DW的集成示例

數據應用層：

基于數倉的頂層應用有很多，例如：

（下）數據治理

| 為什么要進行數據治理

將分散、多樣化的核心數據通過數據治理技術手段和產品工具進行優化，形成企業內的數據管理體系，并結合企業組織結構，形成數據管控執行體系，在企業內部持續運行、提升挖掘數據的應用價值。

數據治理最終達成的目標可以歸為以下六點：

| 如何進行數據治理？

數據治理的三要素：數據標準、數據質量稽核、元數據管理。下面逐一展開來講。

數據標準

從業務角度定義，如設備類、會員類數據，不同渠道來源但同一含義的要統一口徑規范、數據與數據之間的規范；

從技術角度定義，表、字段、字段格式等都要統一規范，如：ID信息、手機號、身份證號等。

數據標準來源可以是國家標準、行業標準，也可以是基于業務的企業標準。

定義完數據標準后，對于新新建設的數據平臺，要采用統一的數據標準；對于已存在的業務系統，在不影響線上的原則上，逐步數據標準接軌。標準執行后，要長期稽核監測，并輸出數據標準校核報告。

圖：數據標準管理周期

數據質量稽核

以數據標準為數據管控的入口，依據數據標準定數據質量檢核規則。對于數據的稽核，有以下八類稽核規則，前六類是單表級校驗，后兩類是多表級校驗：

記錄數校驗：稽核單表內寫入的數值是否在指定的閾值范圍內；
空值校驗：稽核某一列數據是否含有空值；
唯一性校驗：稽核某一列的數據是否都唯一；
數據格式校驗：稽核某一列的數據是否符合指定格式規范，如手機號格式校驗；
準確性校驗：稽核某一列的數值是否在一定范圍內（包括維度和閾值）；
波動值校驗：監測某一列的記錄數或某字段數據值，與歷史的業務周期的數值波動是否異常；
一致性校驗（多表）：多表間的數據是否一致；
邏輯性校驗（多表）：校驗稽核表與參照表里某一列或某幾列數據的表達式進行比較，檢查數據邏輯是否正確。例如“可視電話用戶情況統計”表中的字段“總的出賬用戶”>=“可視電話用戶使用特征統計”表中的字段“記錄中總的出賬用戶”。

元數據管理

元數據就是定義數據的數據，比如一本書的書名、作者、出版社、出版時間都是元數據。