導(dǎo)讀:《終于有人把數(shù)據(jù)中臺(tái)講明白了》一文講到數(shù)據(jù)中臺(tái)的定義和價(jià)值,本文將介紹數(shù)據(jù)中臺(tái)到底包括什么內(nèi)容。企業(yè)建設(shè)數(shù)據(jù)中臺(tái)的過(guò)程中哪些能力是必選項(xiàng),哪些是可選的,將在本文一一揭曉。
作者:陳新宇 羅家鷹 江威 鄧通 等
來(lái)源:華章科技
01 數(shù)據(jù)中臺(tái)功能架構(gòu)
數(shù)據(jù)中臺(tái)建設(shè)是一個(gè)宏大的工程,涉及整體規(guī)劃、組織搭建、中臺(tái)落地與運(yùn)營(yíng)等方方面面的工作,本節(jié)重點(diǎn)從物理形態(tài)上講述企業(yè)的數(shù)據(jù)中臺(tái)應(yīng)該如何搭建。一般來(lái)講,企業(yè)的數(shù)據(jù)中臺(tái)在物理形態(tài)上分為三個(gè)大層:工具平臺(tái)層、數(shù)據(jù)資產(chǎn)層和數(shù)據(jù)應(yīng)用層(見圖4-2)。
▲圖4-2 數(shù)據(jù)中臺(tái)功能架構(gòu)
1. 工具平臺(tái)層
工具平臺(tái)層是數(shù)據(jù)中臺(tái)的載體,包含大數(shù)據(jù)處理的基礎(chǔ)能力技術(shù),如集數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)安全等于一體的大數(shù)據(jù)平臺(tái);還包含建設(shè)數(shù)據(jù)中臺(tái)的一系列工具,如離線或?qū)崟r(shí)數(shù)據(jù)研發(fā)工具、數(shù)據(jù)聯(lián)通工具、標(biāo)簽計(jì)算工具、算法平臺(tái)工具、數(shù)據(jù)服務(wù)工具及自助分析工具。
以上工具集基本覆蓋了數(shù)據(jù)中臺(tái)的數(shù)據(jù)加工過(guò)程。
1)數(shù)據(jù)開發(fā)平臺(tái)
大數(shù)據(jù)的4V特征[1]決定了數(shù)據(jù)處理是一個(gè)復(fù)雜的工程。建設(shè)數(shù)據(jù)中臺(tái)需要搭建建設(shè)數(shù)據(jù)中臺(tái)的基建工具,要滿足各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的采集、存儲(chǔ)與處理,要根據(jù)場(chǎng)景處理離線和實(shí)時(shí)數(shù)據(jù)的計(jì)算與存儲(chǔ),要將一個(gè)個(gè)數(shù)據(jù)處理任務(wù)串聯(lián)起來(lái)以保障數(shù)據(jù)的運(yùn)轉(zhuǎn)能賦能到業(yè)務(wù)端。
[1] 大數(shù)據(jù)的4V 指Volume(數(shù)據(jù)量大)、Variety(類型繁多)、Velocity(速度快,效率高)、Value(價(jià)值密度低)。
因此首先搭建一個(gè)大數(shù)據(jù)能力平臺(tái)是非常有必要的。當(dāng)然,可根據(jù)企業(yè)實(shí)際情況來(lái)決定是外采還是自建平臺(tái)。
2)數(shù)據(jù)資產(chǎn)管理
數(shù)據(jù)中臺(tái)建設(shè)的成功與否,與數(shù)據(jù)資產(chǎn)是否管理有序有直接關(guān)系。前文提到,數(shù)據(jù)中臺(tái)是需要持續(xù)運(yùn)營(yíng)的。隨著時(shí)間的推移,數(shù)據(jù)不斷涌入數(shù)據(jù)中臺(tái),如果沒有一套井然有序的數(shù)據(jù)資產(chǎn)平臺(tái)來(lái)進(jìn)行管理,后果將不堪設(shè)想。
數(shù)據(jù)資產(chǎn)管理工具既能幫助企業(yè)合理評(píng)估、規(guī)范和治理信息資產(chǎn),又可以發(fā)揮數(shù)據(jù)資產(chǎn)價(jià)值并促進(jìn)數(shù)據(jù)資產(chǎn)持續(xù)增值。對(duì)于數(shù)據(jù)資產(chǎn)管理,我們不推薦事后管理,而要與數(shù)據(jù)研發(fā)的過(guò)程聯(lián)動(dòng)。也就是說(shuō),當(dāng)數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)開發(fā)平臺(tái)加工的鏈路時(shí),數(shù)據(jù)資產(chǎn)管理平臺(tái)就已經(jīng)無(wú)聲無(wú)息地介入了。
數(shù)據(jù)資產(chǎn)管理的首要任務(wù)是管理好進(jìn)入數(shù)據(jù)中臺(tái)的元數(shù)據(jù),這里的元數(shù)據(jù)包括數(shù)據(jù)源、建設(shè)的各種模型、通過(guò)模型拆解出來(lái)的指標(biāo)與標(biāo)簽以及調(diào)度作業(yè)。有序管理這些數(shù)據(jù)資產(chǎn)的元數(shù)據(jù)是前提條件,只有做好了這一步,才能繼續(xù)對(duì)數(shù)據(jù)流向的追溯,才能對(duì)指標(biāo)、標(biāo)簽體系的生命周期進(jìn)行管理,確定指標(biāo)的使用頻率,決定是否下線。
3)標(biāo)簽工廠
標(biāo)簽工廠又稱標(biāo)簽平臺(tái),是數(shù)據(jù)中臺(tái)體系內(nèi)的明星工具類產(chǎn)品。標(biāo)簽建設(shè)是數(shù)據(jù)中臺(tái)走向數(shù)據(jù)業(yè)務(wù)化的關(guān)鍵步驟。因此,一個(gè)強(qiáng)大的標(biāo)簽工廠是數(shù)據(jù)中臺(tái)價(jià)值體現(xiàn)的有力保障。
嚴(yán)格來(lái)說(shuō),標(biāo)簽工廠也屬于數(shù)據(jù)開發(fā)平臺(tái)的一部分,為什么我們要把它單獨(dú)剝離出來(lái)講呢?這是因?yàn)闃?biāo)簽的使用場(chǎng)景豐富,標(biāo)簽與業(yè)務(wù)結(jié)合得非常緊密;同時(shí),標(biāo)簽數(shù)據(jù)的存儲(chǔ)與分析型數(shù)據(jù)的存儲(chǔ)有一定的差異。
標(biāo)簽工廠致力于屏蔽底層復(fù)雜的大數(shù)據(jù)框架,面向普通開發(fā)人員、數(shù)據(jù)分析師、運(yùn)營(yíng)人員提供友好的界面交互配置,完成標(biāo)簽的全生命周期管理;同時(shí),對(duì)上層業(yè)務(wù)系統(tǒng)提供自身API能力,與各業(yè)務(wù)系統(tǒng)形成數(shù)據(jù)閉環(huán)。
標(biāo)簽工廠按功能一般分為兩部分:底層的標(biāo)簽計(jì)算引擎與上層的標(biāo)簽配置與管理門戶。標(biāo)簽計(jì)算引擎一般會(huì)采用MapReduce、Spark、Flink等大數(shù)據(jù)計(jì)算框架,而計(jì)算后的標(biāo)簽存儲(chǔ)可采用Elasticsearch或者HBase,這樣存儲(chǔ)的好處是便于快速檢索。
而標(biāo)簽配置與管理門戶則支持通過(guò)配置標(biāo)簽規(guī)則提交到標(biāo)簽計(jì)算引擎,就能定時(shí)算出所需要的標(biāo)簽。標(biāo)簽配置和管理門戶還提供標(biāo)準(zhǔn)的標(biāo)簽服務(wù)申請(qǐng)與調(diào)用。通過(guò)標(biāo)簽工廠,數(shù)據(jù)中臺(tái)團(tuán)隊(duì)可減少大量的數(shù)據(jù)開發(fā)工作。
4)ID-MApping
ID-Mapping又稱ID打通工具,是數(shù)據(jù)中臺(tái)建設(shè)的可選項(xiàng)。可選不代表不重要,在一些多渠道、多觸點(diǎn)的新零售企業(yè),離開了這個(gè)工具,數(shù)據(jù)質(zhì)量將大打折扣。
舉個(gè)例子。消費(fèi)者在逛街的時(shí)候看到一款剃須刀,掃了店內(nèi)的二維碼,正準(zhǔn)備下單購(gòu)買時(shí)被朋友的電話中斷了。回到家,打開抖音又看到這個(gè)剃須刀的廣告,便立即打開鏈接下單購(gòu)買了。
這樣的場(chǎng)景在生活中比比皆是,其中隱藏了很多的消費(fèi)者信息,如果我們不去打通ID,那么可能至少會(huì)將同一個(gè)用戶當(dāng)作4個(gè)用戶來(lái)處理。實(shí)際上可以將掃描二維碼記錄留下的OpenID、抖音注冊(cè)留下的微信號(hào)、下單提供的訂單手機(jī)號(hào)碼及注冊(cè)賬號(hào)等多條信息結(jié)合起來(lái),判別是不是同一個(gè)人。這樣給這個(gè)消費(fèi)者打標(biāo)簽或者推薦商品就會(huì)更加精準(zhǔn)。
ID-Mapping功能的建設(shè)一般會(huì)利用強(qiáng)大的圖計(jì)算功能,通過(guò)兩兩之間的關(guān)系實(shí)現(xiàn)互通,自動(dòng)高效地將關(guān)聯(lián)的身份映射為同一身份即唯一ID的數(shù)據(jù)工具。它能大幅度降低處理成本,提高效率,挖掘更多用戶信息,形成更完整的畫像,大大利于數(shù)字營(yíng)銷的推進(jìn)。
另外,ID-Mapping工具也可用于企業(yè)主數(shù)據(jù)治理。
5)機(jī)器學(xué)習(xí)平臺(tái)
在整個(gè)機(jī)器學(xué)習(xí)的工作流中,模型訓(xùn)練的代碼開發(fā)只是其中一部分。除此之外,數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、特征提取、超參數(shù)的選擇與優(yōu)化、訓(xùn)練任務(wù)的監(jiān)控、模型的發(fā)布與集成、日志的回收等,都是流程中不可或缺的部分。
機(jī)器學(xué)習(xí)平臺(tái)支持訓(xùn)練數(shù)據(jù)的高質(zhì)量采集與高效標(biāo)注,內(nèi)置預(yù)訓(xùn)練模型,封裝機(jī)器學(xué)習(xí)算法,通過(guò)可視化拖曳實(shí)現(xiàn)模型訓(xùn)練,支持從數(shù)據(jù)處理、模型訓(xùn)練、模型部署為在線預(yù)測(cè)服務(wù),通過(guò)RESTful API的形式與業(yè)務(wù)應(yīng)用集成,實(shí)現(xiàn)預(yù)測(cè),打通機(jī)器學(xué)習(xí)全鏈路,幫助企業(yè)更好地完成傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的落地。
6)統(tǒng)一數(shù)據(jù)服務(wù)
統(tǒng)一數(shù)據(jù)服務(wù)旨在為企業(yè)搭建統(tǒng)一的數(shù)據(jù)服務(wù)門戶,幫助企業(yè)提升數(shù)據(jù)資產(chǎn)的價(jià)值,同時(shí)保證數(shù)據(jù)的可靠性、安全性和有效性。
統(tǒng)一數(shù)據(jù)服務(wù)支持通過(guò)界面配置的方式構(gòu)建API和數(shù)據(jù)服務(wù)接口,以滿足不同數(shù)據(jù)的使用場(chǎng)景,同時(shí)降低數(shù)據(jù)的開發(fā)門檻,幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)應(yīng)用價(jià)值最大化。
統(tǒng)一數(shù)據(jù)服務(wù)作為唯一的數(shù)據(jù)服務(wù)出口,實(shí)現(xiàn)了數(shù)據(jù)的統(tǒng)一市場(chǎng)化管理,在有效降低數(shù)據(jù)開放門檻的同時(shí),保障了數(shù)據(jù)開放的安全。
2. 數(shù)據(jù)資產(chǎn)層
數(shù)據(jù)資產(chǎn)層是數(shù)據(jù)中臺(tái)的核心層,它依托于工具平臺(tái)層,那么這一層又有什么內(nèi)容呢?答案是因企業(yè)的業(yè)務(wù)與行業(yè)而異,但總體來(lái)講,可以劃分為主題域模型區(qū)、標(biāo)簽?zāi)P蛥^(qū)和算法模型區(qū)。
1)主題域模型
主題域模型是指面向業(yè)務(wù)分析,將業(yè)務(wù)過(guò)程或維度進(jìn)行抽象的集合。業(yè)務(wù)過(guò)程可以概括為一個(gè)個(gè)不可拆分的行為事件,如訂單、合同、營(yíng)銷等。
為了保障整個(gè)體系的生命力,主題域即數(shù)據(jù)域需要抽象提煉,并且長(zhǎng)期維護(hù)和更新,但是不輕易變動(dòng)。在劃分?jǐn)?shù)據(jù)域時(shí),既要涵蓋當(dāng)前所有業(yè)務(wù)的需求,又要保證新業(yè)務(wù)能夠無(wú)影響地被包含進(jìn)已有的數(shù)據(jù)域中或者很容易擴(kuò)展新的數(shù)據(jù)域。
數(shù)據(jù)域劃分需要先對(duì)業(yè)務(wù)系統(tǒng)進(jìn)行充分調(diào)研。將業(yè)務(wù)過(guò)程劃分到哪個(gè)數(shù)據(jù)域沒有絕對(duì)的對(duì)錯(cuò),但是會(huì)影響報(bào)表開發(fā)人員定位數(shù)據(jù)的效率,所以還需要從開發(fā)人員定位效率的角度來(lái)進(jìn)行綜合劃分。
2)標(biāo)簽?zāi)P?/strong>
標(biāo)簽?zāi)P偷脑O(shè)計(jì)與主題域模型方法大同小異,同樣需要結(jié)合業(yè)務(wù)過(guò)程進(jìn)行設(shè)計(jì),需要充分理解業(yè)務(wù)過(guò)程。標(biāo)簽一般會(huì)涉及企業(yè)經(jīng)營(yíng)過(guò)程中的實(shí)體對(duì)象,如會(huì)員、商品、門店、經(jīng)銷商等。這些主體一般來(lái)說(shuō)都穿插在各個(gè)業(yè)務(wù)流程中,比如會(huì)員一般都穿插在關(guān)注、注冊(cè)、瀏覽、下單、評(píng)價(jià)、服務(wù)等環(huán)節(jié)。
那么在設(shè)計(jì)標(biāo)簽的時(shí)候就需要充分理解這些業(yè)務(wù)流程,在流程中發(fā)現(xiàn)標(biāo)簽的應(yīng)用點(diǎn),結(jié)合這些應(yīng)用點(diǎn)來(lái)搭建企業(yè)的標(biāo)簽體系。
標(biāo)簽?zāi)P桶从?jì)算模式一般分為客觀標(biāo)簽和主觀標(biāo)簽,客觀標(biāo)簽是可以量化的,而主觀標(biāo)簽是不可量化的。根據(jù)實(shí)現(xiàn)方式又可以將標(biāo)簽分為事實(shí)標(biāo)簽、模型標(biāo)簽、算法標(biāo)簽等,根據(jù)業(yè)務(wù)場(chǎng)景還可將標(biāo)簽分為基礎(chǔ)信息標(biāo)簽、偏好標(biāo)簽、價(jià)值標(biāo)簽等。
設(shè)計(jì)標(biāo)簽?zāi)P蜁r(shí)非常關(guān)鍵的要素是標(biāo)簽?zāi)P鸵欢ㄒ哂锌蓴U(kuò)展性。畢竟標(biāo)簽這種數(shù)據(jù)資產(chǎn)是需要持續(xù)運(yùn)營(yíng)的,也是有生命周期的,在運(yùn)營(yíng)的過(guò)程中隨時(shí)可能增加新的標(biāo)簽。
3)算法模型
算法模型更加貼近業(yè)務(wù)場(chǎng)景。在設(shè)計(jì)算法模型的時(shí)候要反復(fù)推演算法模型使用的場(chǎng)景,包括模型的冷啟動(dòng)等問(wèn)題。整個(gè)模型搭建過(guò)程包含定場(chǎng)景、數(shù)據(jù)源準(zhǔn)備、特征工程、模型設(shè)計(jì)、模型訓(xùn)練、正式上線、參數(shù)調(diào)整7個(gè)環(huán)節(jié)。
以新零售企業(yè)為例,常用的機(jī)器學(xué)習(xí)算法有決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類、貝葉斯、支持向量機(jī)等。這些算法已經(jīng)非常成熟,可以用來(lái)實(shí)現(xiàn)商品個(gè)性化推薦、銷量預(yù)測(cè)、流失預(yù)測(cè)、商品組貨優(yōu)化等新零售場(chǎng)景的算法模型。
3. 數(shù)據(jù)應(yīng)用層
數(shù)據(jù)應(yīng)用層嚴(yán)格來(lái)說(shuō)不屬于數(shù)據(jù)中臺(tái)的范疇,但數(shù)據(jù)中臺(tái)的使命就是為業(yè)務(wù)賦能,幾乎所有企業(yè)在建設(shè)數(shù)據(jù)中臺(tái)的同時(shí)都已規(guī)劃好數(shù)據(jù)應(yīng)用。數(shù)據(jù)應(yīng)用可按數(shù)據(jù)使用場(chǎng)景來(lái)劃分為以下多個(gè)使用領(lǐng)域。
1)分析與決策應(yīng)用
分析與決策應(yīng)用主要面向企業(yè)的領(lǐng)導(dǎo)、運(yùn)營(yíng)人員等角色,基于企業(yè)的業(yè)務(wù)背景和數(shù)據(jù)分析訴求,針對(duì)客戶拉新、老客運(yùn)營(yíng)、銷售能力評(píng)估等分析場(chǎng)景,通過(guò)主題域模型、標(biāo)簽?zāi)P秃退惴P停瑸槠髽I(yè)提供可視化分析專題。
用戶在分析與決策應(yīng)用中快速獲取企業(yè)現(xiàn)狀和問(wèn)題,同時(shí)可對(duì)數(shù)據(jù)進(jìn)行鉆取、聯(lián)動(dòng)分析等,深度分析企業(yè)問(wèn)題及其原因,從而輔助企業(yè)進(jìn)行管理和決策,實(shí)現(xiàn)精準(zhǔn)管理和智能決策。
在分析專題設(shè)計(jì)的過(guò)程中,首先需要根據(jù)不同的業(yè)務(wù)分析場(chǎng)景,采用不同的分析方法進(jìn)行數(shù)據(jù)分析的前期規(guī)劃,搭建清晰的數(shù)據(jù)分析框架,如在用戶行為分析、營(yíng)銷活動(dòng)等場(chǎng)景下,會(huì)采用5W2H分析法和4P營(yíng)銷理論;在復(fù)購(gòu)客戶下降、客單價(jià)下降等問(wèn)題診斷分析場(chǎng)景,需要考慮問(wèn)題與哪些因素有關(guān),則采用邏輯樹分析法。
在數(shù)據(jù)分析框架構(gòu)建完成后,結(jié)合用戶的分析目的,采用不同的分析思路和呈現(xiàn)方式,包括趨勢(shì)分析、多維分解、漏斗分析、A/B測(cè)試、對(duì)比分析和交叉分析等。
2)標(biāo)簽應(yīng)用
標(biāo)簽旨在挖掘?qū)嶓w對(duì)象(如客戶、商品等)的特征,將數(shù)據(jù)轉(zhuǎn)化成真正對(duì)業(yè)務(wù)有價(jià)值的產(chǎn)物并對(duì)外提供標(biāo)簽數(shù)據(jù)服務(wù),多應(yīng)用于客戶圈選、精準(zhǔn)營(yíng)銷和個(gè)性化推薦等場(chǎng)景,從而實(shí)現(xiàn)資產(chǎn)變現(xiàn),不斷擴(kuò)大資產(chǎn)價(jià)值。
標(biāo)簽體系的設(shè)計(jì)立足于標(biāo)簽使用場(chǎng)景,不同使用場(chǎng)景對(duì)標(biāo)簽需求是不同的,譬如在客戶個(gè)性化推薦場(chǎng)景下,需要客戶性別、近期關(guān)注商品類型、消費(fèi)能力和消費(fèi)習(xí)慣等標(biāo)簽。
因此,在標(biāo)簽體系設(shè)計(jì)前,需要先基于業(yè)務(wù)需求分析標(biāo)簽的使用場(chǎng)景,再詳細(xì)設(shè)計(jì)標(biāo)簽體系和規(guī)則。在標(biāo)簽的使用過(guò)程中,可利用A/B測(cè)試等數(shù)據(jù)分析方式,持續(xù)分析標(biāo)簽的使用效果,并優(yōu)化標(biāo)簽體系和規(guī)則。
3)智能應(yīng)用
智能應(yīng)用是數(shù)智化的一個(gè)典型外在表現(xiàn)。比如在營(yíng)銷領(lǐng)域,不僅可實(shí)現(xiàn)千人千面的用戶個(gè)性化推薦,如猜你喜歡、加購(gòu)?fù)扑]等,還可借助智能營(yíng)銷工具進(jìn)行高精準(zhǔn)度的用戶觸達(dá),推動(dòng)首購(gòu)轉(zhuǎn)化、二購(gòu)促進(jìn)、流失挽留等。
在供應(yīng)鏈領(lǐng)域,可通過(guò)數(shù)據(jù)中臺(tái)整合用戶數(shù)據(jù)、銷售數(shù)據(jù)、采購(gòu)數(shù)據(jù)等優(yōu)化庫(kù)存,實(shí)現(xiàn)自動(dòng)配補(bǔ)貨、自動(dòng)定價(jià)。除了傳統(tǒng)統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)之外,還可以融入深度學(xué)習(xí),實(shí)現(xiàn)以圖搜圖并與商城打通,實(shí)現(xiàn)拍立購(gòu);實(shí)現(xiàn)人臉識(shí)別,用于地產(chǎn)行業(yè)的案場(chǎng)風(fēng)控;融入自然語(yǔ)言處理,實(shí)現(xiàn)智能客服問(wèn)答機(jī)器人等。
總之,以上各層是數(shù)據(jù)中臺(tái)的核心內(nèi)容。需要指出的是,在工具平臺(tái)層,企業(yè)并不需要完全自主建設(shè),可以考慮采用拿來(lái)主義,從中臺(tái)建設(shè)廠商采購(gòu)成熟的產(chǎn)品,而數(shù)據(jù)資產(chǎn)層與數(shù)據(jù)應(yīng)用層是企業(yè)數(shù)據(jù)中臺(tái)組織需要密切關(guān)注的。
02 數(shù)據(jù)中臺(tái)技術(shù)架構(gòu)
隨著大數(shù)據(jù)與人工智能技術(shù)的不斷迭代以及商業(yè)大數(shù)據(jù)工具產(chǎn)品的推出,數(shù)據(jù)中臺(tái)的架構(gòu)設(shè)計(jì)大可不必從零開始,可以采購(gòu)一站式的研發(fā)平臺(tái)產(chǎn)品,或者基于一些開源產(chǎn)品進(jìn)行組裝。企業(yè)可根據(jù)自身情況進(jìn)行權(quán)衡考慮,但無(wú)論采用哪種方案,數(shù)據(jù)中臺(tái)的架構(gòu)設(shè)計(jì)以滿足當(dāng)前數(shù)據(jù)處理的全場(chǎng)景為基準(zhǔn)。
以開源技術(shù)為例,數(shù)據(jù)中臺(tái)的技術(shù)架構(gòu)如圖4-3所示,總體來(lái)看一般包含以下幾種功能:數(shù)據(jù)采集、數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)服務(wù);在研發(fā)、運(yùn)維和公共服務(wù)方面包括離線開發(fā)、實(shí)時(shí)開發(fā)、數(shù)據(jù)資產(chǎn)、任務(wù)調(diào)度、數(shù)據(jù)安全、集群管理。
▲圖4-3 數(shù)據(jù)中臺(tái)技術(shù)架構(gòu)
1. 數(shù)據(jù)采集層
按數(shù)據(jù)的實(shí)時(shí)性,數(shù)據(jù)采集分為離線采集和實(shí)時(shí)采集。離線采集使用DataX和Sqoop,實(shí)時(shí)采集使用Kafka Connect、Flume、Kafka。
在離線數(shù)據(jù)采集中,建議使用DataX和Sqoop相結(jié)合。DataX適合用在數(shù)據(jù)量較小且采用非關(guān)系型數(shù)據(jù)庫(kù)的場(chǎng)景,部署方式很簡(jiǎn)單。Sqoop適合用在數(shù)據(jù)量較大且采用關(guān)系型數(shù)據(jù)庫(kù)的場(chǎng)景。
在實(shí)時(shí)數(shù)據(jù)采集中,對(duì)于數(shù)據(jù)庫(kù)的變更數(shù)據(jù),如MySQL的binlog、Oracle的OGG,使用Kafka Connect進(jìn)行數(shù)據(jù)的實(shí)時(shí)采集。對(duì)于其他數(shù)據(jù),先將數(shù)據(jù)實(shí)時(shí)寫成文件,然后采用Flume對(duì)文件內(nèi)容進(jìn)行實(shí)時(shí)采集。將實(shí)時(shí)采集后的數(shù)據(jù)推送到Kafka,由Flink進(jìn)行數(shù)據(jù)處理。
2. 數(shù)據(jù)計(jì)算層
數(shù)據(jù)計(jì)算采用YARN作為各種計(jì)算框架部署的執(zhí)行調(diào)度平臺(tái),計(jì)算框架有MapReduce、Spark及Spark SQL、Flink、Spark MLlib等。
MapReduce是最早開源的大數(shù)據(jù)計(jì)算框架,雖然現(xiàn)在性能相對(duì)較差,但它的資源占用比較小,尤其是內(nèi)存方面。因此在部分?jǐn)?shù)據(jù)量過(guò)大,而其他計(jì)算框架由于硬件資源的限制(主要是內(nèi)存限制)而無(wú)法執(zhí)行的場(chǎng)景,可以將MapReduce作為備選框架。
Spark及Spark SQL是在批處理方面擁有出色性能的成熟技術(shù)方案,適合大部分的離線處理場(chǎng)景。特別是在離線數(shù)據(jù)建模方面,建議使用Spark SQL進(jìn)行數(shù)據(jù)處理,既能保證易用性,又能保證處理的性能。Flink是實(shí)時(shí)數(shù)據(jù)處理方面的首選,在處理的時(shí)效性、性能和易用性方面都有很大優(yōu)勢(shì)。
而機(jī)器學(xué)習(xí)一般采用Spark家族的Spark MLlib為技術(shù)底座。Spark MLlib內(nèi)置了大量的常規(guī)算法包,如隨機(jī)森林、邏輯回歸、決策樹等,可以滿足大部分?jǐn)?shù)據(jù)智能應(yīng)用場(chǎng)景。
同時(shí),數(shù)據(jù)中臺(tái)不斷進(jìn)化,也逐漸融入AI能力。如人臉識(shí)別、以圖搜圖、智能客服等能力的實(shí)現(xiàn)就需要AI平臺(tái)。目前較為成熟的AI平臺(tái)有TensorFlow及PyTorch。為實(shí)現(xiàn)物體的檢測(cè)和識(shí)別,可使用SSD、YOLO和ResNet等深度學(xué)習(xí)模型,而在人臉檢測(cè)和識(shí)別中則主要使用MTCNN、RetinaNet和ResNet,人臉檢索可使用Facebook開源的針對(duì)人臉檢索的Faiss框架。
3. 數(shù)據(jù)存儲(chǔ)層
數(shù)據(jù)存儲(chǔ)層所有的存儲(chǔ)引擎都基于Hadoop的HDFS分布式存儲(chǔ),從而達(dá)到數(shù)據(jù)多份冗余和充分利用物理層多磁盤的I/O性能。在HDFS上分別搭建Hive、HBase作為存儲(chǔ)數(shù)據(jù)庫(kù),在這兩個(gè)數(shù)據(jù)庫(kù)的基礎(chǔ)上再搭建Impala、Phoenix、Presto引擎。
Hive為大數(shù)據(jù)廣泛使用的離線數(shù)據(jù)存儲(chǔ)平臺(tái),用于存儲(chǔ)數(shù)據(jù)中臺(tái)的全量數(shù)據(jù),在建模階段可以使用Hive SQL、Spark SQL進(jìn)行數(shù)據(jù)處理和建模。
HBase為主流的大數(shù)據(jù)NoSQL,適合數(shù)據(jù)的快速實(shí)時(shí)讀寫。在實(shí)時(shí)數(shù)據(jù)處理時(shí),可將數(shù)據(jù)實(shí)時(shí)保存到HBase中,并且可以從HBase中實(shí)時(shí)讀取數(shù)據(jù),從而滿足數(shù)據(jù)的時(shí)效性。
Impala可以對(duì)Hive、HBase等大數(shù)據(jù)數(shù)據(jù)庫(kù)進(jìn)行準(zhǔn)實(shí)時(shí)的數(shù)據(jù)分析,能滿足對(duì)分析結(jié)果速度有一定要求的場(chǎng)景。
Phoenix是構(gòu)建在HBase上的一個(gè)SQL層,能讓我們用標(biāo)準(zhǔn)的JDBC API而不是HBase客戶端API來(lái)創(chuàng)建表、插入數(shù)據(jù)和對(duì)HBase數(shù)據(jù)進(jìn)行查詢。
Presto是一個(gè)開源的分布式SQL查詢引擎,適用于交互式分析查詢。Presto支持Hive、HBase、MySQL等多種關(guān)系型和大數(shù)據(jù)數(shù)據(jù)庫(kù)的查詢,并且支持join表。對(duì)于對(duì)接自助分析和統(tǒng)一數(shù)據(jù)服務(wù)的場(chǎng)景,可以通過(guò)Presto來(lái)統(tǒng)一訪問(wèn)具體存儲(chǔ)的數(shù)據(jù)庫(kù),從而達(dá)到語(yǔ)法統(tǒng)一和數(shù)據(jù)源統(tǒng)一。
4. 數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層采用的技術(shù)與業(yè)務(wù)應(yīng)用類似,主要基于開源Spring Cloud、Spring Boot等構(gòu)建,使用統(tǒng)一的服務(wù)網(wǎng)關(guān)。
關(guān)于作者:陳新宇,云徙科技聯(lián)合創(chuàng)始人兼首席架構(gòu)師,中國(guó)軟件行業(yè)協(xié)會(huì)應(yīng)用軟件產(chǎn)品云服務(wù)分會(huì)“數(shù)字企業(yè)中臺(tái)應(yīng)用專家顧問(wèn)團(tuán)”副主任專家,香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)博士,領(lǐng)導(dǎo)云徙科技數(shù)字中臺(tái)系統(tǒng)的規(guī)劃、建設(shè)并賦能企業(yè)落地實(shí)施。
羅家鷹,云徙科技副總裁,上海交通大學(xué)學(xué)士,中山大學(xué)MBA。近四年來(lái),一直致力于阿里中臺(tái)賦能數(shù)字商業(yè)的研究與布道。擁有20年的企業(yè)咨詢及服務(wù)經(jīng)驗(yàn),先后主導(dǎo)了數(shù)十家大型企業(yè)的數(shù)字化轉(zhuǎn)型咨詢方案。
江威,云徙科技地產(chǎn)事業(yè)部總經(jīng)理,領(lǐng)導(dǎo)中臺(tái)在地產(chǎn)方面的建設(shè)與落地,長(zhǎng)期從事阿里中臺(tái)賦能地產(chǎn)行業(yè)的研究與布道,擁有豐富的地產(chǎn)項(xiàng)目實(shí)施經(jīng)驗(yàn)。
鄧通,云徙科技汽車事業(yè)部總經(jīng)理,香港中文大學(xué)信息工程碩士,專注于汽車行業(yè)數(shù)字化營(yíng)銷研究。
本文摘編自《中臺(tái)實(shí)踐:數(shù)字化轉(zhuǎn)型方法論與解決方案》,經(jīng)出版方授權(quán)發(fā)布。