數據中臺不是一個單純的系統,而是一套架構、一套數據流轉模式。數據中臺需要采集數據作為原材料進行數據加工、數據建模,然后分門別類地儲存,再根據實際的業務場景,打造各類數據服務(含數據應用平臺)從而實現對業務的賦能加速。
但以上流程的實現,需要有對應的系統與產品作為支撐,那么基礎的數據中臺到底應該由哪些系統或者產品組成?
這里我們可以先來看一下幾個企業的數據中臺架構。
可以看出,雖然每個企業由于自身業務的不同,衍生出來的數據中臺體系都有所不同,但大的架構方面是基本統一的,都需要通過“數據采集接入”—“加工存儲”—“統一管理”—“服務應用”的階段。
這里筆者認為《數據中臺產品經理:從數據體系到數據平臺實戰》一書中總結的數據中臺架構是比較具有普適性的, 無論是互聯網行業,還是傳統行業,都可以在該架構上進行改造,設計建設自己的中臺架構。
總體來說數據中臺的功能架構由大數據平臺、數據資產管理平臺與數據服務平臺三大部分組成,其中在數據服務平臺中自助分析平臺與標簽管理系統的應用場景最為廣泛。
一、大數據平臺
大數據平臺是數據中臺的基座,我們也可以把大數據平臺稱為大數據開發平臺,它需要具備與大數據相關的開發能力,提供數據存儲、數據清洗/計算、數據查詢展示及權限管理等功能。
那么,應該如何建設上述功能與服務?是不是擁有了上述能力就等同于成功打造大數據平臺了?
其實我們可以發現各公司的大數據平臺系統架構其實大同小異,各類架構都包含了數據采集組件、數據存儲組件、數據計算引擎、數據權限與安全組件,以及集群管理與監控組件等。
除了少數像阿里這樣傾力打造自研“飛天”系統的企業,其他企業在底層組件選用上,還是以 Hadoop生態構建的技術體系為主,依托各類開源組件進行優化改進與二次開發。例如,數據存儲組件可以選擇HBase、Hive等組件,數據計算引擎可以選擇Spark、Flink等分布式計算引擎。
既然大家選用的組件相同或者相似,那為什么最終各企業大數據平臺的服務能力還是存在差距呢?這有些類似于購買零件組裝臺式電腦,零件不需要選最貴的,而是要根據實際需求來選擇最適合的。
好用的大數據平臺需要擁有為用戶解決問題的能力。因此,數據中臺的大數據平臺建設不是比拼引用了多少新技術、覆蓋了多少技術組件,而是要看它能否解決數據中臺建設中所面臨的復雜數據現狀,能否成為數據中臺打破數據壁壘的技術保障,能否提供簡潔有效的數據處理工具,如提供自助配置式的數據采集與數據清洗工具等,以及能否提供更多的附加價值。
數據中臺的大數據平臺建設,可以避免各事業部技術團隊各自搭建大數據集群所帶來的資源浪費。統一的、成熟的大數據平臺對企業來說,不能一蹴而就,需要循序漸進、分步實施,在持續迭代中構建企業的大數據平臺生態。
二、數據資產管理平臺
數據資產管理平臺主要解決數據資源的管理, 數據資產遍布在各個大數據組件中, 有 hive 的表, 有 hbase 的表, 有 druid 的datasource, 有 kafka 中的流,各個組件的管控系統很難互相打通, 所以需要一個統一的數據資產管理服務, 來統籌大數據資源的管理。
隨著大數據平臺的建設,構建數據中臺的數據體系成為可能,通過對各業務線數據的歸類整合,我們可以構建出各個數據主題域,完成數據的規范存儲,形成數據資產,進而完成數據資產管理。
在數據中臺體系中,數據資產管理平臺主要由元數據管理與數據模型管理組成,下面讓我們分別了解一下。
- 元數據管理
講述元數據管理,我們需要先弄清楚什么是元數據。
元數據(MetaData)通常被定義為:關于數據的數據(Metadata),或者描述數據的數據(data about data),對數據及信息資源的描述性信息。元數據是所有數據中最重要的數據。
這里舉一個最通俗的例子。當我們去圖書館借書時,直接面對數以萬計的圖書,自然難以尋找,但是你通過在圖書館查詢系統中輸入這本的書名、作者、出版社等信息,獲取就能準確的圖書位置。那么這些書名、作者等信息,就可以理解為元數據,而圖書的存放位置、借閱歷史記錄等,則是我們系統中的普通數據。
在數據庫中,每一張數據表的表名、創建信息(創建人、創建時間、所屬部門)、修改信息、表字段(字段名、字段類型、字段長度等),以及該表與其他表之間的關系等信息都屬于這張數據表的元數據。
其實,元數據有多種分類方式,筆者更傾向于按照元數據的用途來區分,總共分為三類:業務元數據、技術元數據和管理元數據。
1、業務元數據:描述數據的業務含義、業務規則等,包括業務規則、數據字典以及安全標準等多項內容。通過明確業務元數據,讓人們產生統一的數據認知,消除數據歧義,讓不懂數據庫的業務方讀懂數據表的內容。
2、技術元數據:描述數據源信息、數據流轉信息及數據結構化信息,主要服務于數據開發人員,讓開發人員明晰數據表結構與所依賴的上下游任務,主要包括庫表字段(存儲位置、數據庫表、字段長度和類型)、數據模型、ETL腳本(調度信息)與SQL腳本等。
3、管理元數據:描述數據的管理歸屬信息,包括業務歸屬、系統歸屬、運維歸屬以及數據權限歸屬等信息,是數據安全管理的基礎。
所以有人說,元數據記錄了數據從無到有的全過程,就像一本有關數據的“字典”,讓我們可以查詢到每一個字段的含義與出處,同時它又像是一張“地圖”,讓我們可以追溯數據產生的路徑。
通過對數據體系的建設,數據中臺的元數據匯聚了企業各業務線與各系統的數據信息,讓數據中臺具備了提供全域數據資產視圖的能力,實現了統一數據資產查詢與獲取入口的目標。
元數據管理包括對元數據增刪與編輯管理、版本管理、元數據統計分析與元模型管理。通過上述功能模塊,有計劃地進行數據體系的落地實施,實現數據中臺元數據的結構化與模型化,這樣既可以避免元數據出現雜亂與冗余的現象,也便于用戶查詢與定位數據。
- 數據模型管理
介紹元數據時,我們提到技術元數據中包括數據模型,這里的數據模型就是指使用元數據進行數據建模的工作產物。
根據底層數據的使用情況,如數據表的關聯信息、SQL腳本信息(數據聚合與查詢信息等),來獲取元數據,可以更好地完成對業務的抽象,提高建模效率。
數據模型是數據整合的有效手段,它完成了各數據源之間的映射關系設計,為數據主題建設提供了“實施圖紙”。
同時,在數據建模過程中,通過明確數據標準,可以確保數據的一致性,還可以消化冗余數據。至于數據模型管理,其是指在數據建模過程中,通過既定的數據模型管理制度,實現對數據模型增、刪、改、查的管理,同時遵守數據標準化與數據統一化的要求,確保數據質量。
三、數據服務平臺
- 自助分析平臺
自助分析平臺,也就是商業智能平臺(BI平臺)。BI平臺目前已經是很多企業的標配,目前BI商用市場的行業競爭日趨激烈,進場者可以分為如下3類。
1、國內BI廠商,典型代表為連續多年國內市場占有率第一的帆軟
2、國外BI廠商,如Tableau
3、互聯網大廠內部孵化
平臺是數據中臺服務能力的主要輸出方,要想讓數據中臺發揮出應有價值,那么BI平臺的建設必不可少,所以需要將BI 平臺建設劃分在數據中臺體系下。綜合來看,BI平臺應該具備如下能力。
(1)數據接入
除了數據中臺的自有數據源,BI平臺還需要支持外部數據源的接入。其接入方式,主要有如下3種。
?文件型:支持Excel等文件數據的上傳。
?數據連接型:支持MySQL、Oracle等數據庫,以及Hadoop、Spark等大數據平臺(數據中臺的大數據平臺也在此列)。
?API讀取:支持通過API獲取第三方系統數據。
圖例:帆軟BI平臺支持的數據源
(2)數據處理
BI 平臺需要能為用戶提供數據建模工具,幫助用戶創建目標數據(數據集),其提供的功能包括拖拽表字段、自動識別維度/指標、自定義視圖語句、預覽數據、設置虛擬字段、函數計算、設置參數等基本操作,以及多源異構的 JOIN/UNION等數據處理功能。
FineBI自助數據集數據處理界面
(3)數據分析與可視化
在數據處理的基礎上,BI 平臺還需要為用戶提供豐富的圖表制作和聯機分析處理(OLAP)操作,讓用戶在前端頁面完成數據分析與數據可視化等工作。
其操作流程如下:用戶選擇處理后的數據集,對維度與指標進行篩選過濾,然后通過上卷下鉆、圖表聯動、報表跳轉等操作,完成業務需求的分析,同時BI平臺會為用戶提供可視化圖形組件,使其最終完成可視化內容的設計。
(4)內容分發與基礎服務
BI平臺需要具備分發可視化內容,并進行查看權限與數據權限控制的能力。主要的分發方式包括BI平臺、移動BI(App)、數據大屏、郵件、鏈接訪問,以及第三方嵌入等方式。
同時BI平臺還需要具備基礎的運營管理、角色管理、幫助中心與消息推送等功能。
只有滿足以上功能、具備了多維分析、數據可視化與數據大屏等服務能力的BI平臺,才可以最大限度的發揮在數據中臺體系中的價值,有效地幫助分析師與運營團隊提升工作效率。
- 標簽管理系統
除了BI平臺,標簽管理系統也是數據服務的重要應用方向之一。目前,業務部門面臨著大量的精準營銷場景,這些千人千面的推薦、推送需要基于一個完善且準確的用戶畫像來實現,而用戶畫像的構成又需要由大量、全面的用戶標簽來支撐。
因此,標簽數據作為個性化業務應用的基礎數據,其可信度與有效性就成了衡量用戶畫像成熟度的關鍵指標。
我們可以把標簽管理系統看作用戶畫像系統的基座,基于數據中臺打造的數據體系,可以順其自然地打通標簽治理中的數據壁壘,構建企業級的、統一認可的用戶標簽體系,并由此打造一個企業級的用戶畫像系統。
數據中臺的標簽管理系統,主要具備以下功能。
(1)用戶唯一性識別
很多企業內各業務線都有自己的獨立用戶識別體系,如在 58 集團內就有 58設備指紋、安居客唯一用戶、招聘自然人、金融自然人等多種用戶識別方式,但是這些識別方式大部分是服務于單一業務線的,各業務線內的標簽也是面向本業務的獨立用戶標識進行研發的。
數據中臺的標簽管理體系,可以提供統一的用戶識別服務,將各業務線的獨立用戶標識進行關聯和統一,從而打通面向整個企業的獨立用戶識別和標簽交互轉換方案。
(2)標簽體系管理
標簽體系管理的主要工作是制訂標簽數據和信息交互方案,打通用戶畫像研發和服務中的信息及數據壁壘,提供標簽接入、可視化標簽信息展現、可視化標簽權限控制、可視化用戶標簽分析、可視化人群定向提取與可視化相似人群擴展(Lookalike)等功能。
(3)標簽數據服務
標簽管理系統,需要提供用戶畫像研發和應用過程中涉及的標簽提取與查詢等服務,以標準化服務接口(API)的方式將相關解決方案提供給各業務方,支持業務方基于數據中臺的能力,打造業務線的個性化服務。
除了商業智能BI和標簽管理外,各企業還需根據自身所處行業的特性去進行數據應用價值的最大化挖掘。
文章主體內容來源:《數據中臺產品經理:從數據體系到數據平臺實戰》