Dataphin(智能數據構建與管理)是阿里巴巴數據中臺團隊研發的數據中臺產品,它用于阿里集團(含螞蟻科技)內部的數據中臺建設,即它是阿里巴巴集團自己使用的數據中臺產品。。
Dataphin遵循阿里巴巴集團多年實戰沉淀的大數據建設體系(OneData、OneID、OneService),集產品、技術、方法論于一體,一站式為用戶提供集數據引入、規范定義、數據建模研發、數據資產管理、數據服務等的全鏈路智能數據構建及管理服務。助力政府機構和企業打造屬于自己的標準統一、資產化、服務化和閉環自優化的智能數據體系,以驅動創新。主要功能模塊包括:
- 平臺管理平臺管理是Dataphin的基礎功能,主要包含全局化功能設置、首頁引導。該功能模塊幫助用戶系統地了解和熟悉整個產品、快速開始工作,并進行必要的系統管理與控制,保障各模塊正常運轉。
- 全局設計基于業務全局,從頂層自下規劃設計業務數據總線,包括:劃分命名空間、定義主題域及相關名詞、劃分管理單元(即項目)、定義數據源及計算引擎源。
- 數據引入數據引入是基于全局設計定義的項目空間與物理數據源,將各業務系統、各類型的數據抽取加載至目標數據庫。這個過程可以實現數據同步與集成,完成各業務數據集成后的基礎數據中心建設,為后續進一步加工數據奠定基礎。
- 規范定義基于全局設計定義的業務總線、數據引入構建的基礎數據中心,根據業務數據需求,結構化地定義數據元素(例如維度、統計指標),保障數據無二義性地標準化、規范化生產。
- 建模研發基于規范定義的數據元素,設計與構建可視化的數據模型。數據模型提交發布后,系統智能自動化地生成代碼與調度任務,完成公共數據中心的全托管建設。
- 編碼研發基于通用的代碼編輯頁面,靈活地進行個性化的數據編碼研發,完成任務發布。
- 資源及函數管理
- 支持管理各種資源包(例如Jar、文本文件),以滿足部分數據處理需求。
- 支持查找與使用內置的系統函數。
- 支持用戶自定義函數,以滿足數據研發的特殊加工需求。
- 調度運維對建模研發、編碼研發生成的代碼任務進行基于策略的調度與運維,確保所有任務正常有序地運行。調度運維操作包括:部署數據生產任務、查看任務運行情況、管理及維護任務之間的依賴關系。
- 元數據中心支持采集、解析和管理基礎數據中心、公共數據中心、萃取數據中心的元數據。
- 資產分析
- 在元數據中心基礎上,深度分析元數據,實現數據資產化管理。
- 為用戶可視化地呈現資產分布、元數據詳情等,方便用戶快速查找、深度了解數據資產。
- 即席查詢支持用戶通過自定義SQL等方式,查詢數據資產中的數據。同時,通過查詢分析引擎,快速獲取物理表、邏輯表(即數據模型,或邏輯模型)的數據查詢結果。
為什么選擇Dataphin?
Dataphin在阿里巴巴內部管理EB級別數據、數以千萬級別的表,本身產品能力已經在阿里巴巴海量數據的環境中得到驗證。
Dataphin致力于屏蔽不同計算與存儲環境差異,幫助用戶快速引入數據、標準規范化構建數據。用戶可以通過建?;绞阶詣娱_發數據、萃取以實體對象為中心的標簽數據體系,沉淀業務數據知識與數據資產、治理數據問題。同時,Dataphin還支持數據表查詢、智能語音查詢等多種類型的數據服務。
選擇Dataphin,用戶可以輕松構建具有以下優勢的數據體系:
- 數據規范統一:采用維度事實建模理論,對維度、維度屬性、業務過程、指標字段等進行嚴格的標準化、規范化定義,保障數據質量,避免數據指標定義的二義性。
- 高效且自動化的編碼:基于函數化理念,對通用數據計算邏輯進行組件化定義,并可自由組建統計指標,從而實現自助化建模研發,系統自動生成代碼執行數據生產。
- 智能計算優化:支持從業務視角進行邏輯建模。邏輯模型發布后,系統自動化進行物理建模、編碼,從而降低對開發人員的技術能力依賴。
- 一站式研發體驗:數據引入、建模、研發、運維、數據查找及探查等過程一氣呵成,研發鏈路統一且高效。
- 系統化構建數據目錄:基于規范化建模、高效自動化的元數據抽取,以標準的技術框架系統地構建規范的業務化數據目錄,形成數據資產地圖,方便業務查找及應用。
- 高效的數據檢索:基于元數據及業務數據構建數據圖譜,實現快速、智能檢索數據表及數據。
- 可視化的數據資產:系統化構建業務數據資產大圖,從數據視角還原業務系統、提取業務數據,快速感知業務關鍵環節及數據。
- 數據使用簡單可依賴:通過主題式數據查詢服務,可以快速查詢和訪問研發構建的數據邏輯表,簡化約80%的查詢代碼。
- 提升效率:提供全鏈路、一站式、智能化的數據構建與管理工具,降低數據建設門檻。不同背景的開發人員可以自助ETL,快速滿足業務需求。通過OneData、OneEntity、OneService思想與方法論,可以完成模型和指標的抽象與自助定義、代碼自動化生產、主題數據自動聚合并輸出服務。
- 降低成本:以元數據為基礎、算法智能為驅動,實現物理和邏輯分層的智能自動化生產。同時,分析與優化數據資產全鏈路,優化計算及存儲資源分配,從而降低數據生產及消費成本。