一、什么是數據中臺

數據中臺是一種將企業沉睡的數據變成數據資產，持續使用數據、產生智能、為業務服務，從而實現數據價值變現的系統和機制。通過數據中臺提供的方法和運行機制，形成匯聚整合、提純加工、建模處理、算法學習，并以共享服務的方式將數據提供給業務使用，從而與業務聯動。再者，結合業務中臺的數據生產能力，最終構建數據生產一消費一再生的閉環。

數據中臺與大數據、數據倉庫、數據湖、商業智能BI有什么區別，請參考另外一篇文章：
https://www.toutiao.com/article/7166179034006209061/。

二、數據中臺功能架構

數據中臺建設是一個宏大的工程，涉及整體規劃、組織搭建、中臺落地與運營等方方面面的工作，本文重點從物理形態上講述企業的數據中臺應該如何搭建。一般來講，企業的數據中臺在物理形態上分為三個大層：工具平臺層、數據資產層和數據應用層。

2.1．工具平臺層

工具平臺層是數據中臺的載體，包含大數據處理的基礎能力技術，如集數據采集、數據存儲、數據計算、數據安全等于一個的大數據平臺；還包含建設數據中臺的一系列工具，如離線或實時數據研發工具、數據聯通工具、標簽計算工具、算法平臺工具、數據服務工具及自助分析工具。以上工具集基本覆蓋了數據中臺的數據加工過程。

(1）數據開發平臺

大數據的4V（Volume 數據量大、 Variety類型繁多、Velocity 速度快效率高、 Value價值密度低）特征決定了大數據處理是一個復雜的工程。建設數據中臺需要搭建數據中臺的基建工具，要滿足各種結構化、非結構化數據的采集、存儲與處理，要根據場景處理離線和實時數據的計算與存儲，要將一個個數據處理任務串聯起來以保障數據的運轉能賦能到業務端。

(2）數據資產管理

數據中臺建設的成功與否，與數據資產是否管理有序有直接關系。數據中臺是需要持續運營的，隨著時間的推移，數據不斷涌人數據中臺，如果沒有一套井然有序的數據資產平臺來進行管理，后果將不堪設想。

數據資產管理工具既能幫助企業合理評估、規范和治理信息資產，又可以發揮數據資產價值并促進數據資產持續增值。對于數據資產管理，不推薦事后管理，而要與數據研發的過程聯動。也就是說，當數據經過數據開發平臺加工的鏈路時，數據資產管理平臺就已經無聲無息地介入了。數據資產管理的首要任務是管理好進入數據中臺的元數據，這里的元數據包括數據源、構建的各種模型、通過模型拆解出來的指標與標簽。有序管理這些數據資產的元數據是前提條件，只有做好了這一步，才能繼續對數據流向的追溯，對指標、標簽體系的生命可期進行管理。

(3）標簽工廠

標簽工廠又稱標簽平臺，標簽建設是數據中臺走向數據業務化的關鍵步驟，嚴格來說標簽工廠也屬于數據開發平臺的一部分。一個強大的標簽工廠是數據中臺價值體現的有力保障，標簽的使用場景豐富，標簽與業務結合得非常緊密。標簽工廠致力于屏蔽底層復雜的大數據框架，面向普通開發人員、數據分析師、運營人員提供友好的界面交互配置，完成標簽的全生命周期管理；同時，對上層業務系統提供自身 API 能力，與各業務系統形成數據閉環。

標簽工廠按功能一般分為兩部分：底層的標簽計算引擎與上層的標簽配置與管理門戶。標簽計算引擎一般會使用 MapReduce 、 Spark 、 Flink 等大數據計算框架，而計算后的標簽存儲可采用 Elasticsearch 或者 HBase ，這樣存儲的好處是便于快速檢索。而標簽配置與管理門戶則支持通過配置標簽規則提交到標簽計算引擎，就能定時算出所需要的標簽。標簽配置和官理戶還提供標準的標簽服務申請與調用。通過標簽工廠，數據中口團隊可減少大量的數據開發工作。

(4) ID - MApping

ID - Mapping 又稱 ID 打通工具，是數據中臺建設的可選項，可選不代表不重要，在一些多渠道、多觸點的新零售企業，離開這個工具，數據質量將大打折扣。ID - Mapping 功能的建設一般會利用強大的圖計算功能，通過兩兩之間的關系實現互通，目動高效地將關聯的身份映射為同一身份即唯一 ID 的數據工具。它能大幅度降低處理成本，提高效率，挖掘更多用戶信息，形成更完整的畫像，大大利于數字營銷的推進。另外， ID - Mapping 工具也可用于企業主數據治理。

5）機器學習平臺

在整個機器學習的工作流中，模型訓練的代碼開發只是其中一部分。除此之外，數據準備、數據清洗、數據標注、特征提取、超參數的選擇與優化、訓練任務的監控、模型的發布與集成、日志的回收等，都是流程中不可或缺的部分。機器學習平臺支持訓練數據的高質量采集與高效標注，內置預訓練模型，封裝機器學習算法，通過可視化拖曳實現模型訓練，支持從數據處理、模型訓練、模型部署為在線預測服務，通過 RESTful API 的形式與業務應用集成，實現預測，打通機器學習全鏈路，幫助企業更好地完成傳統機器學習和深度學習的落地。

(6）統一數據服務

統一數據服務旨在為企業搭建統一的數據服務門戶，幫助企業提升數據資產的價值，同時保證數據的可靠性、安全性和有效性。統一數據服務支持通過界面配置的方式構建 API 和數據服務接口，以滿足不同數據的使用場景，同時降低數據的開發門檻，幫助企業實現數據應用價值最大化。統一數據服務作為唯一的數據服務出口，實現了數據的統一市場化管理，在有效降低數據開放門檻的同時，保障了數據開放的安全。

2.2．數據資產層

數據資產層是數據中臺的核心層，它依托于工具平臺層，具體內容因企業的業務與行業而異，但總體來講，可以劃分為主題域模型區、標簽模型區和算法模型區

(1）主題域模型

主題域模型是指面向業務分析，將業務過程或維度進行抽象的集合。業務過程可以概括為一個個不可拆分的行為事件，如訂單、合同、營銷等。為了保障整個體系的生命力，主題域即數據域需要抽象提煉，并且長期維護和更新，但是不輕易變動。在劃分數據域時，既要涵蓋當前所有業務的需求，又要保證新業務能夠無影啊地被包含進來。

(2）標簽模型

標簽模型的設計與主題域模型方法大同小異，同樣需要給日業務過程進行設計，需要充分理解業務討程。標簽一般會涉及企業經營過程中的實體對象，如會員、商品、門店、經銷商等，這些主體一般來說都穿插在各個業務流程中，比如會員一般都穿插在注冊、登錄、瀏覽、下單、評價、服務等環節。那么在設計標簽系統的時候就而要充分理解這此業務流程，在流程中發現標簽的應用點，結合這些應用點來搭建企業的標簽系統。設計標簽模型時非常關鍵的要索是標簽模型一定要具有可擴展性。畢竟標簽這種數據資產是需要持續運營的，也是有生命周期的，在運營的過程中隨時可能增加新的標簽。

(3）算法模型

算法模型更加貼近業務場景。在設計算法模型的時候要反復推演算法模型使用的場景，包括模型的冷啟動等問題。整個模型搭建過程包含定場景、數據源準備、特征工程、模型設計、模型訓練、正式上線、參數調整7個環節。以新零售企業為例，常用的機器學習算法有決策樹、神經網絡、關聯規、聚類、貝葉斯、支持問量機等。這些算法已經非常成熟，可以用來實現商品個性化推薦、銷量預測、流失預測、商品組貨優化等新零售場景的算法模型。

2.3．數據應用層

數據應用層嚴格來說不屬于數據中臺的范疇，但數據中臺的使命就是為業務賦能，幾乎所有企業在建設數據中臺的同時都已規劃好數據應用。數據應用可按數據使用場景來劃分為以下多個使用領域。

(1）分析與決策應用

分析與決策應用主要面向企業的領導、運營人員等角色，基于企業的業務背景和數據分析訴求，針對客戶拉新、老客運營、銷售能力評估等分析場景，通過主題域模型、標簽模型和算法模型，為企業提供可視化分析專題。用戶在分析與決策應用中快速獲取企業現狀和問題，同時可對數據進行鉆取、聯動分析等，深度分析企業問題及其原因，從而輔助企業進行管理和決策，實現精準管理和智能決策。

(2）標簽應用

標簽旨在挖掘實體對象（如客戶、商品等）的特征，將數據轉化成真正對業務有價值的產物并對外提供標簽數據服務，多應用于客戶圈選、精準營銷和個性化推薦等場景，從而實現資產變現，不斷擴大資產價值。標簽體系的設計立足于標簽使用場景，不同使用場景對你簽需求是不同的，警如在客戶個性化推薦場景下，需要客戶性別、近期關注商品類型、消費能力和消費習慣等標簽。因此，在標簽體系設計前，需要先基于業務需求分析標簽的使用場景，再詳細設計標簽體系和規則。

(3）智能應用

智能應用是數智化的一個典型外在表現。比如在營銷領域，不僅可實現千人千面的用戶個性化推薦，如猜你喜歡、加購推薦等，還可借助智能營銷工具進行高精準度的用戶觸達。除了傳統統計分析、機器學習之外，還可以融入深度學習，自然語言處理等，滿足更多智能化應用場景。

三、數據中臺技術架構

隨著大數據與人工智能技術的不斷迭代以及商業大數據工具產品的推出，數據中臺的架構設計大可不必從零開始，可以采購一站式的研發平臺產品，或者基于一些開源產品進行組裝。企業可根據自身情況進行權衡考慮，但無論采用哪種方案，數據中臺的架構設計以滿足當前數據處理的全場景為基準。

以開源技術為例，數據中臺的技術架構如下圖所示，總體來看一般包含以下幾種功能：數據采集、數據計算、數據存儲和數據服務；在研發、運維和公共服務方面包括離線開發、實時開發、數據資產、任務調度、數據安全、集群管理。

3.1．數據采集層

按數據的實時性，數據采集分為離線采集和實時采集。離線采集使用 DataX 和 Sqoop ，實時米集使用 Kafka Connect 、 Flume 、 Kafka。在離線數據采集中，建議使用 DataX 和Sqoop相結合。 DataX 適合用在數據量較小且采用非關系型數據庫的場景，部署方式很簡單。 Sqoop 適合用在數據量較大且采用關系型數據庫的場景。在實時數據采集中，對于數據庫的變更數據，如 MySQL 的 binlog 、 Oracle 的OGG，使用 Kafka Connect 進行數據的實時采集。對于其他數據，先將數據實時寫成文件，然后采用 Flume 對文件內容進行實時采集。將實時采集后的數據推送到 Kafka ，田 Flink 進行數據處理。

3.2．數據計算層

數據計算采用 YARN 作為各種計算框架部署的執行調度引擎，計算框架有 MapReduce 、 Spark 及 Spark SQL 、 Flink 、 Spark MLlib 等。 MapReduce 是最早開源的大數據計算框架，雖然性能相當較差，但它的資源占用比較小，尤其是內存方面。因此在部分數據量過大，而其他計算框架由干硬件資源的限制（主要是內存限制）無法執行的場景，可以將 MapReduce 作為首選框架。 SparK 及 Spark SQL 是在批處理方面擁有出色的性能技術方案，適合大部分的離線處理場景。Flink 是實時數據處理方面的首選，在處理的時效性、性能和易用性方面都有很大優勢。

機器學習一般采用 Spark 家族的 Spark MLlib 為技術底座。 Spark MLlib 內置大量的常規算法包，如隨機森林、邏輯回歸、決策樹等，可以滿足大部分數據智能應用場景。同時，數據中臺不斷進化，也還新融人 AI 能力。如人臉識別、以圖搜圖、智能客服等能力的實現就需要 AI 平臺。目前較為成熟的 AI 平臺有 TensorFlow 及 PyTorch 。

3.3．數據存儲層

數據存儲層所有的存儲引擎都基于 Hadoop 的 HDFS 分布式存儲，從而達到數據多份冗余和充分利用物理層多磁盤的 I / O 性能。在 HDFS 上分別搭建 Hive 、 HBase 作為存儲數據庫，在這兩個數據庫的基礎上再搭建 Impala 、 Phoenix 、 Presto 引擎。

Hive 為大數據廣泛使用的離線數據存儲平臺，用于存儲數據中臺的全量數據，在建模階段可以使用 Hive SQL 、 Spark SQL 進行數據處理和建模。 HBase 為主流的大數據 NoSQL ，適合數據的快速實時讀寫。在實時數據處理時，可將數據實時保存到 HBase 中，并且可以從 HBase 中實時讀取數據，從而滿足數據的時效性。 Impala 可以對 Hive 、 HBase 等大數據數據庫進行準實時的數據分析，能滿足對分析結果速度有一定要求的場景。

Phoenix 是構建在 HBase 上的一個 SQL 層，能讓我們用標準的 JDBC API 而不是 HBase 客戶端 API 來創建表、插人數據和對 HBase 數據進行查詢。 Presto 是一個開源的分布式 SQL 查詢引擎，適用于交互式分析查詢。 Presto 支持 Hive 、 HBase 、 MySQL 等多種關系型和大數據數據庫的查詢，并且文持 join 表。對于對接自助分析和統一數據服務的場景，可以通過 Presto 來統一訪問具體存儲的數據庫，從而達到語法統一和數據源統一。