如果你準(zhǔn)備要開(kāi)展推動(dòng)數(shù)據(jù)治理或者是數(shù)據(jù)質(zhì)量的項(xiàng)目,那么你就有可能會(huì)聽(tīng)說(shuō)到幾個(gè)詞:主數(shù)據(jù)和參考數(shù)據(jù)。一開(kāi)始聽(tīng)到主數(shù)據(jù)這一詞聽(tīng)起來(lái)就很高大上,而且非專業(yè)人士肯定不理解(即便是從事數(shù)據(jù)行業(yè)的朋友也很難參透)。這一小節(jié)將會(huì)解答如下疑惑:
1、什么是主數(shù)據(jù)?
2、主數(shù)據(jù)是干嘛用的?
3、什么又是參考數(shù)據(jù)?
4、參考數(shù)據(jù)又是干嘛用的?
5、主數(shù)據(jù)和參考數(shù)據(jù)又有什么關(guān)系?
主數(shù)據(jù)定義
從百度百科上的定義來(lái)看主數(shù)據(jù)指的是系統(tǒng)間共享數(shù)據(jù),又稱基準(zhǔn)數(shù)據(jù),描述了組織業(yè)務(wù)中涉及到的人員、地點(diǎn)、事物(也就是我們常說(shuō)的人貨場(chǎng)),比如說(shuō)像企業(yè)中的客戶、員工、供應(yīng)商相關(guān)數(shù)據(jù)、地點(diǎn)數(shù)據(jù)(位置、銷售區(qū)域)、事物(賬戶、產(chǎn)品、資產(chǎn))等都是主數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)往往會(huì)被多個(gè)業(yè)務(wù)流程和 IT 系統(tǒng)使用,而且主數(shù)據(jù)可以用來(lái)分析和推動(dòng)業(yè)務(wù)流程以此來(lái)提高運(yùn)營(yíng)效率。
這么一講感覺(jué)什么都懂了,但又感覺(jué)什么都沒(méi)懂。
那我們從字面意思上可以理解成主要的數(shù)據(jù),什么是主要的數(shù)據(jù)呢?在整個(gè)企業(yè)業(yè)務(wù)流程中起到關(guān)鍵作用,而且是比較常用的數(shù)據(jù),在核心業(yè)務(wù)流程上產(chǎn)生的數(shù)據(jù)都是主數(shù)據(jù),這么一解釋可以發(fā)現(xiàn)主數(shù)據(jù)是可以檢測(cè)企業(yè)發(fā)展是否健康的一種方式,但這么理解是有些偏差的。稍微嚴(yán)謹(jǐn)一點(diǎn)的定義就是主數(shù)據(jù)是整個(gè)企業(yè)中使用的核心、非交易性數(shù)據(jù)。請(qǐng)注意:這里指的是非交易性數(shù)據(jù)。舉個(gè)例子,比如你在ERP系統(tǒng)中能夠看到一些交易數(shù)據(jù),比如訂單產(chǎn)生的日期和編號(hào)、地點(diǎn)、金額、商品、用戶、供貨商、店鋪之類的信息。那么這些信息中的產(chǎn)品、供貨商、用戶、地點(diǎn)這些都是主數(shù)據(jù),也就是說(shuō)參與到核心流程中的主體數(shù)據(jù)都是主數(shù)據(jù),這些實(shí)體為業(yè)務(wù)交易和分析提供了上下文信息,到這里不知道你有沒(méi)有稍微理解了主數(shù)據(jù)的概念呢?
當(dāng)然通過(guò)該例子,有些讀者可能會(huì)有疑惑,那訂單交易記錄又算什么呢?這里其實(shí)又?jǐn)U展出來(lái)了另外一種數(shù)據(jù)類型:交易數(shù)據(jù),也就是這些實(shí)體數(shù)據(jù)結(jié)合在一起產(chǎn)生了事件活動(dòng)記錄,那么這個(gè)記錄就屬于交易數(shù)據(jù)。例如通話記錄、銷售記錄等等事件。這樣看起來(lái)好像主數(shù)據(jù)是嵌入到了交易數(shù)據(jù)中了,但是主數(shù)據(jù)相對(duì)交易數(shù)據(jù)來(lái)說(shuō)的話,屬性是相對(duì)穩(wěn)定的,而且可信度要求高,需要做到唯一識(shí)別
既然扯到了交易數(shù)據(jù),那么這里再和另外一個(gè)名詞做下對(duì)比:元數(shù)據(jù),關(guān)于元數(shù)據(jù)的定義概念可以看萬(wàn)字介紹25種元數(shù)據(jù)管理解決方案(含視頻,建議收藏)。在通信院發(fā)布的《主數(shù)據(jù)管理實(shí)踐白皮書》中提到的了元數(shù)據(jù)和主數(shù)據(jù)的區(qū)別,小編覺(jué)得很形象,該書中提到了“元數(shù)據(jù)類似于表格的表頭信息,是一個(gè)相對(duì)的概念;而主數(shù)據(jù)是從元數(shù)據(jù)中挑選出來(lái)的,代表的是企業(yè)業(yè)務(wù)運(yùn)行的關(guān)鍵、通用性數(shù)據(jù),是一個(gè)相對(duì)主觀的概念,主數(shù)據(jù)不僅僅只是表頭信息,而且還包括了實(shí)例數(shù)據(jù)”
那這里又扯到了元數(shù)據(jù),大家可能又會(huì)和數(shù)據(jù)倉(cāng)庫(kù)關(guān)聯(lián)起來(lái),主數(shù)據(jù)其實(shí)和數(shù)據(jù)倉(cāng)庫(kù)是有些相似點(diǎn)的,但也不能把主數(shù)據(jù)完全等同于數(shù)據(jù)倉(cāng)庫(kù)。首先主數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)都有一個(gè)共同點(diǎn)就是集成,因?yàn)橹鲾?shù)據(jù)是跨業(yè)務(wù)、跨系統(tǒng)、跨部門的共享數(shù)據(jù),那么就需要把各個(gè)業(yè)務(wù)系統(tǒng)共享的數(shù)據(jù)進(jìn)行集中式管理,這樣一來(lái)就減少了數(shù)據(jù)冗余,不一致的問(wèn)題;那數(shù)據(jù)倉(cāng)庫(kù)也是針對(duì)數(shù)據(jù)進(jìn)行了集成,把所有的數(shù)據(jù)都放到一個(gè)“倉(cāng)庫(kù)”中,供企業(yè)中所有人進(jìn)行查閱(當(dāng)然還是要考慮數(shù)據(jù)安全的)。這么一梳理,其實(shí)就應(yīng)該發(fā)現(xiàn)兩者之間的不同了,數(shù)據(jù)倉(cāng)庫(kù)是面向所有數(shù)據(jù),也就是來(lái)者不拒,統(tǒng)統(tǒng)都收;但主數(shù)據(jù)并不是所有的數(shù)據(jù)都集成,而是那些核心的、有高度價(jià)值密度的數(shù)據(jù)才會(huì)進(jìn)行集中管理。
這里還有一個(gè)數(shù)據(jù)流向和時(shí)效的區(qū)別點(diǎn):對(duì)于數(shù)據(jù)倉(cāng)庫(kù)一般是單向的,也就是數(shù)據(jù)從業(yè)務(wù)系統(tǒng)入倉(cāng)之后經(jīng)過(guò)ETL處理后出倉(cāng)用于決策分析;而主數(shù)據(jù)來(lái)源于業(yè)務(wù)系統(tǒng),同時(shí)也會(huì)流回業(yè)務(wù)系統(tǒng),屬于雙向的流轉(zhuǎn);而且數(shù)倉(cāng)中的數(shù)據(jù)發(fā)生了變化,一般是T+1后才會(huì)感知到。而主數(shù)據(jù)的變化需要實(shí)時(shí)的作用于業(yè)務(wù)系統(tǒng),比如客戶的地址或者聯(lián)系方式發(fā)生了變化,那么就必須立即同步到業(yè)務(wù)系統(tǒng),否則可能會(huì)使用歷史數(shù)據(jù),影響業(yè)務(wù)服務(wù)體驗(yàn)。
主數(shù)據(jù)作用與特點(diǎn)
從開(kāi)頭的定義就可以了解其第一個(gè)特點(diǎn):共享;主數(shù)據(jù)是跨系統(tǒng)、跨部門共享的數(shù)據(jù)。那么既然是共享的數(shù)據(jù),那么就可以解決系統(tǒng)之間數(shù)據(jù)不一致的問(wèn)題,比如說(shuō)一個(gè)用戶可能在多個(gè)系統(tǒng)之間有不同的地方信息(比如搬家了),如果各個(gè)系統(tǒng)使用各自的地址信息,最后肯定是會(huì)出問(wèn)題的。如果各個(gè)系統(tǒng)統(tǒng)一使用最新的地址,就不需要考慮該問(wèn)題了,這樣在協(xié)作流程上也有所提升(其實(shí)這里需要涉及到主數(shù)據(jù)管理MDM的范疇來(lái)保證主數(shù)據(jù)的標(biāo)準(zhǔn)統(tǒng)一規(guī)范)。同時(shí)由于數(shù)據(jù)是共享的,對(duì)于企業(yè)來(lái)說(shuō)價(jià)值是很高的了,既然是價(jià)值高的數(shù)據(jù),命名為主數(shù)據(jù)也不為過(guò)。
從上面一句話我們可以精簡(jiǎn)一下得到兩個(gè)詞:共享、價(jià)值;既然這類數(shù)據(jù)是被共享的,而且是價(jià)值比較高的,那么就要保證數(shù)據(jù)質(zhì)量,而且不能經(jīng)常改變了(哎呦,這跟緩慢變化維有點(diǎn)相似),如果各個(gè)系統(tǒng)共享該部分?jǐn)?shù)據(jù),質(zhì)量不能保障的話,整個(gè)企業(yè)發(fā)展就很危險(xiǎn)了,而且變化很頻繁的話,就加大各個(gè)系統(tǒng)的維護(hù)成本,而且風(fēng)險(xiǎn)性也會(huì)提高,可謂是牽一發(fā)動(dòng)全身呀。
參考數(shù)據(jù)定義
DAMA數(shù)據(jù)管理知識(shí)體系指南一書中對(duì)參考數(shù)據(jù)的定義是指“可用于描述或分類其他數(shù)據(jù),或者將數(shù)據(jù)與組織外部的信息 聯(lián)系起來(lái)的任何數(shù)據(jù)”。這個(gè)定義可以說(shuō)是比較抽象,簡(jiǎn)單來(lái)說(shuō)就是維度數(shù)據(jù),大家平時(shí)理解的數(shù)據(jù)字典,該類型的數(shù)據(jù)的主要作用是用來(lái)增強(qiáng)對(duì)數(shù)據(jù)的可讀性和解釋性,比如狀態(tài)編碼、性別、產(chǎn)品維表、地理信息等維度數(shù)據(jù)。由此可見(jiàn),參數(shù)數(shù)據(jù)的來(lái)源可能是內(nèi)部產(chǎn)生或者外部手動(dòng)采集獲取到的(比如國(guó)際標(biāo)準(zhǔn)編碼、行業(yè)標(biāo)準(zhǔn))
特點(diǎn)
參考數(shù)據(jù)的特點(diǎn)同維度表的特點(diǎn),有慢維,也有快維。
參考數(shù)據(jù)和主數(shù)據(jù)的區(qū)別
主數(shù)據(jù)和參考數(shù)據(jù)一般來(lái)說(shuō)就是兩種不同類型的數(shù)據(jù)。
1、從定義上來(lái)看主數(shù)據(jù)是代表業(yè)務(wù)對(duì)象的數(shù)據(jù),由關(guān)鍵業(yè)務(wù)實(shí)體組成,它包含了整個(gè)組織共享的最有價(jià)值的信息;而參考數(shù)據(jù)是定義其他數(shù)據(jù)字段使用的一組允許的值的數(shù)據(jù),包含了附加的文本描述,更多的像是數(shù)據(jù)字典;
2、從范圍上來(lái)看參考數(shù)據(jù)是主數(shù)據(jù)的一種特殊子集。
下面的表格匯總了主數(shù)據(jù)和參考數(shù)據(jù)的區(qū)別:
參考資料:
- 中國(guó)通信院發(fā)布的《主數(shù)據(jù)管理實(shí)踐白皮書1.0》
- DAMA數(shù)據(jù)管理知識(shí)體系指南