我們深知,企業需要一套完善的數據技術與工具,實現數據合規采集、存儲、計算、建 設和管理,利用數據思維對業務運營與管理場景問題精細洞察,學會利用數據資產改善能效,以此循環往復,推動數據資產的持續沉淀,形成企業特有的數據資產體系。
基于阿里巴巴內部的實踐經驗和成果,面向不同行業的實際業務場景Dataphin 應運而生,作為阿里巴巴統一方法論的工具化沉淀,Dataphin 希望能幫助企業探索更加復雜與多樣的數據建設之路。
本次內容將以阿里巴巴數據治理的實踐和統一數據治理方法論工具化沉淀的Dataphin為核心內容為大家詳細介紹。
數據建設的三個階段:從在線開發到平臺構建到數據綜合治理
從阿里自身的發展歷程來看,數據建設可以分為以下三個階段。
第 一個階段:在線開發。在這個階段更多是把所有數據搬上來,通過數據研發來滿足基本業務需求和開發需求。數據規模相對不大,這一階段的目標主要還是以響應需求為主。
第二階段:數據平臺構建與管理。隨著淘寶業務不斷增長,對數據價值的訴求逐步加強,數據服務業務的場景也不斷擴大。數據的多樣性、數據處理的復雜度帶來數據處理的作業呈現較大規模或較高水平的要求。這個時候就需要有一個數據平臺來支撐數據倉庫的開發。所以這一階段的目標就是做數據平臺的構建與管理,它對應的頂層和核心是要支持類似于生意參謀這樣的面向于大量商家的應用。
第三階段:數據綜合治理。隨著阿里集團的業務版圖越來越大,我們的業務數據也越來越多,只做一個數據平臺管一類數據,已經完全不能滿足需求了。數據服務業務輸出持續增多,業務數據化運營意識逐漸成熟,對數據價值的期待也越來越高,這個階段就需要數據綜合治理 ,以數據資產為中心開展所有的數據工作,以業務可理解、便捷可消費及服務業務的資產化組織和管理方向。所以這個階段需要有更匹配的產品,有更好的體系,以數據資產為核心來做數據中臺的建設。
大數據建設,不僅僅是研發效能的問題
從阿里巴巴的業務角度來看,大數據的建設不單是研發效率的問題,不是只要有一個工具就能夠提高研發的效率,而是需要有一套體系化、理論化的東西來支撐整個數據中臺的建設,我們把它分成四個維度:
數據標準:由于多形態業務發展迅猛,煙囪式開發及局部業務服務支撐,導致同名指標不同口徑的問題頻發;歷史不同業務系統逐步迭代上線,相同對象屬性編碼不一致等問題突出。只有知道要做什么,明確每一種數據的口徑表示,再著手業務和產品。
數據質量:需要有一種工具能保障最終輸出的數據是符合這個口徑的。重復業務建設導致任務鏈冗長、任務數繁多,計算資源緊張,數據時效性不好;另外,口徑梳理定義的文檔與開發代碼脫節,數據準確性保障風險高,所以要保證數據質量就是要糾正數據,如果數據口徑不對,需要有處理機制來做糾偏。
需求響應:煙囪式開發的開發周期長、效率低,面向應用的服務化不足,導致業務響應速度慢,業務不滿且技術無沉淀;既懂業務又懂數據的人才不足,需求理解到開發實現涉及大量溝通。因為我們的數據工作還是要為業務服務,從業務的角度來看,沒人不在意你使用什么工具,但是如果產品能夠輔助提高需求響應的速度,那么將是一個非常有價值的事情。
成本資源:在做數據建設的時候還需要考量成本。煙囪式開發容易造成資源重復性浪費;上線難下線更難,源系統或業務變更不能及時反映到數據上,而且由于數據不標準,研發維護難上加難,大量無用計算和存儲造成資源浪費。
不能為了把需求、標準、質量做得更全更快更好,就無限量地投入資源。在成本上也是需要去考量的,所以在數據治理的時候,需要綜合這 4 個角度的指標來考察數據建設的成效。
阿里巴巴數據治理關鍵舉措
將分散的數據集中管理,制定一套統一的管理標準,通過統一數據平臺輸出數據產品服務各個業務,整體從資源到資產進行轉變。
1、工具+規范打造標準化采集:
為支撐整個數據平臺的建設,第 一要務是打造標準。流量采集中,建立相應的日志埋點標準,將數據上傳到日志采集中心,并通過各種采集工具、查看工具以及整套工具來管理和提升數據采集效率。同時,在埋點過程中,還需要制定相應規范并將其交予業務部門,這樣業務同學才能看到相應埋點,并最終轉換成實際數據。
2、閉環治理:
在數據標準制定后,我們需要搭建整個數據治理的架構。這個架構分為多個部分,第 一部分是內容治理。在這一方面,需要明確數據健康標準和數據治理對象,確定數據治理范圍和相應的治理方案。而我們已經不再采取運動式或單點式的方案,轉而采用產品化、體系化的方案,并出現了一些評估體系來幫助我們進行數據治理。
在阿里內部,我們根據每個人使用數據的情況給予健康分,當健康分低于標準時,就需要采取問責機制,讓使用者推進自己的數據治理工作。而在存儲、計算和價值產出方面,也需要建立完整的機制進行數據治理。
3、實戰沉淀數據產品
經過多年實踐,阿里巴巴提出的One Model數據模型已被行業廣泛應用,該標準將整個數據中臺分為三層,基礎層又被稱為ODS層,公共層或中間層則整合業務系統數據,并以主題方式組織,為頂層應用層提供數據服務。在應用層角度,數據會按照不同的業務方和應用場景組織。
經過多年的實踐,我們總結出以下需要注意的要點:
首先,數據需要有系統化的組織。在數據建設初期,需要建立頂層框架,明確整個組織需要哪些數據,以及它們在哪些業務領域發揮作用。只有這樣,我們才能比較準確地劃分數據體系,進行合規采集、清洗和關聯等工作。
其次,我們需要工具來有效地生產數據,有效的生產意味著避免重復生產并確保數據的質量。在這個過程中,技術人員需要積累經驗并進行沉淀,技術本身應有沉淀。
第三,我們擁有完善的數據體系后,要向各個業務和應用場景提供便利的數據服務。目前已經形成了獨具特色的大數據產品能力。也就是說,今天我們不僅要談論平臺和方法,我們需要將這些東西集成到一個產品中,集中于一個平臺上,以承載整個實踐過的最 佳方法論,我們把它稱為“One Data”。
現在One Data方法論已產品化,即智能數據建設與治理Dataphin。
Dataphin智能數據建設與治理
Dataphin平臺的數據架構分為四個方面,包括數據采集、數據構建、數據管理和數據使用。
首先,Dataphin的數據集成能力,將各個業務系統數據收集到統一數據平臺,并提供數據構建能力,包括數據組織規劃、定義、開發和標簽提取。此過程中,還有很多輔助工具,如任務調度、運維和發布管理。
完成數據構建后,就需要數據管理能力,包括數據標準、質量、安全和資源消耗管理。為了確保數據能夠被消費者使用,Dataphin還提供數據資產運營能力,如數據資產目錄服務、數據資產上架服務、服務監控以及在線查詢服務和API服務。
最后是數據消費能力,Dataphin可以與各個業務系統交互,同時也可以提供給Quick BI等報表展示工具和CDP引擎等廣告投放和營銷服務。
Dataphin的核心的能力
Dataphin 的核心的能力主要是分成以下幾塊:
數據引入:全域數據可集成
Dataphin支持像Oracle、SAP等的HandleFTP,包括許多API方式來接入這些數據。 同時,在數據導入過程中,我們可以輕松清洗和轉換數據,并將其輸出到數據中心,同時還能夠將處理好的數據提供給外部用戶以更好地服務。
數據規范定義:高 消除二義性
數據規范定義是One Model最核心的規范之一。規范由阿里巴巴首創,很多數據平臺也在使用。規范會將數據在宏觀層面上分為數據板塊、主題域、業務實體、業務活動和業務對象。首先對數據板塊進行劃分,然后在板塊下進行主題域的劃分,再對主題域下的業務實體進行分析。
業務實體分為兩種類型。完成概念模型后,我們就會得到邏輯模型,在這個模型中,我們會識別每一個實體的屬性,并將其形成概念模型。
舉個例子,我們業務對象中的“客戶”,客戶會有姓名、年齡等屬性。當我們列出實體的所有屬性時,這些內容就構成了我們的邏輯模型,或者是邏輯表。在邏輯表上,我們可以定義原子指標業務限定。
原子指標指的是最小的、無法拆分的統計算子,例如銷售金額、支付金額等。業務限定是為了確定范圍,例如男性銷售金額、大額銷售金額等。這兩者都是定義在邏輯模型之上的。派生指標是指我們分析指標時所使用的,具有業務意義的指標。所有指標都可以拆分成四個基本部分,第 一個是時間周期,例如最近 30 天的買家在無線端的預付金額就是一個有業務意義的指標。
Dataphin能夠判斷每個原子指標和業務線的定義是否與現有的定義重復,確保消除二義性。通過將所有內容拆分成最小的粒度,可以幫助用戶更好地理解和組織其數據建設體系,以及規范模型的建設。
設計即開發:保障數據模型與代碼的一致性
①分鐘級自動化代碼生成
當用戶定義完成原子指標和業務限定后,需在界面上選擇統計周期、統計粒度和原子指標,并確認業務限定。系統會自動為用戶生成該指標的計算代碼,用戶無需干預,只需站在業務角度選擇所需指標。系統即可完成所有后臺代碼生成,實現設計即開發。
②標簽萃取更需要快速簡單融入業務經驗
除了進行模型和標準建設,我們還面向業務開發標簽等服務。目前,以 RTC 為例,主要應用場景是在營銷領域。為了為客戶提供更完整的營銷方案,我們會將 Dataphin 和Quick Audience兩個產品進行整合。
Dataphin將行為偏好標簽、行為統計標簽和靜態屬性標簽整合在一個標簽平臺中進行管理。同時,我們也與外部CDP平臺進行打通,包括我們內部的Quick Audience平臺,以便將這些數據推送給CDP平臺,從而進行廣告投放和其他營銷活動。
數據資產管理:標準、質量、安全、資源
然后除了這個模型的建設以及標簽的建設之外, Dataphin還提供了一個叫做資產的管理,我們資產的管理是叫做 360°全鏈路的數據洞察和管理。
首先,Dataphin提供的能力之一是數據標準化。我們可以接入國家標準、行業標準以及企業自定義的標準,并提供標準管理、類目維護、碼表和詞根等通用標準的能力。
第二,根據標準或用戶自定義來定義一些質量規則。對于數據表,我們可以設置字段空值校驗、唯 一值校驗、波動性監測和字段比對等多種質量規則。
同時,Dataphin還具備數據安全能力,包括數據分類分級、脫敏和加密,并可提供可信的數據交換和交易。
最后,數據治理功能可以控制計算、存儲資源消耗和成本,幫助用戶更好地管理和治理數據資產。
主題式服務
除了數據采集和管理工具之外,我們還提供面向數據消費者的主題化服務。這項服務不僅支持通過搜索方式進行查詢,還提供API及與其他工具的集成支持,讓用戶可以更加方便地利用我們的數據資源。由于我們并非完全基于物理表,而是擁有自己的數據模型,因此用戶不再需要直接查詢物理表、了解其表結構以及表與表之間的關聯,僅需在邏輯模型上使用數據即可。
如某知名零售品牌企業,通過Dataphin進行系統化建設、規劃數據方案,設計包括會員、商品交易和營銷相關的零售板塊用戶主題,集成企業的營銷、財務、CRM和ERP數據系統,通過提取,處理接近200TB數據,建立企業統一的用戶數據平臺,支持采購、供應鏈、運營和營銷優化。
除了零售行業,Dataphin在工業制造、金融、傳媒、地產、互聯網等各領域都有深度應用。
更多Dataphin能力介紹及企業應用實踐可查看白皮書《構建企業級“好數據“,Dataphin智能數據建設與治理》
(推廣)