什么是數(shù)據(jù)同步工具?
數(shù)據(jù)同步工具的作用是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過(guò)抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。數(shù)據(jù)同步是大數(shù)據(jù)項(xiàng)目重要的一個(gè)環(huán)節(jié)。
關(guān)于ETL、ELT與反向ETL
何為ETL?
將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。
ETL的理念著重體現(xiàn)在一些數(shù)據(jù)清洗轉(zhuǎn)化功能,比如空值處理、規(guī)范化數(shù)據(jù)、數(shù)據(jù)替換、數(shù)據(jù)驗(yàn)證等等。
何為ELT?
將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽?。╡xtract)、加載(load)、轉(zhuǎn)換(transform)至目的端的過(guò)程。
在數(shù)據(jù)湖或數(shù)據(jù)中臺(tái)則往往會(huì)采用ELT的方式進(jìn)行數(shù)據(jù)同步。
ELT首先把數(shù)據(jù)用一種高效的方式從數(shù)據(jù)源抽取出來(lái),然后在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行數(shù)據(jù)的轉(zhuǎn)換處理。這種ELT的方式相比于ETL有很大的優(yōu)勢(shì),從ETL到ELT的改變主要得益于云的普及,讓存儲(chǔ)成本下降,從而使得傳統(tǒng)ETL這種將數(shù)據(jù)處理分段,只存儲(chǔ)重要結(jié)果性數(shù)據(jù)的方式得以被改變。同時(shí)國(guó)內(nèi)也出現(xiàn)了創(chuàng)新的技術(shù)路線(xiàn):采用ELT+A(Active)的模式,來(lái)提升企業(yè)利用數(shù)據(jù)價(jià)值的效率 。
何為反向ETL?
反向ETL是一種提取已清理的和處理過(guò)的數(shù)據(jù)架構(gòu)。它會(huì)將數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)(或數(shù)據(jù)湖/集市)復(fù)制到一個(gè)或多個(gè)操作系統(tǒng)。數(shù)據(jù)可以被重新引入諸如Salesforce等其他應(yīng)用程序,可用于業(yè)務(wù)運(yùn)營(yíng)和預(yù)測(cè)。通過(guò)操作已提取的數(shù)據(jù)源,各類(lèi)用戶(hù)可以使用常用的工具來(lái)訪(fǎng)問(wèn)數(shù)據(jù),并獲取相關(guān)的洞見(jiàn)。作為現(xiàn)代化數(shù)據(jù)技術(shù)棧的組件,反向ETL允許企業(yè)開(kāi)展那些比單獨(dú)使用商業(yè)智能(BI)工具,更為復(fù)雜的分析。
作為一種戰(zhàn)略性全新的集成流程,反向ETL可以減少那些快速發(fā)展型企業(yè)在數(shù)據(jù)分析上花費(fèi)的時(shí)間。該流程更專(zhuān)注于將數(shù)據(jù)與業(yè)務(wù)用戶(hù)的操作工具相同步,以激活數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。用戶(hù)必須事先定義好數(shù)據(jù),并將其映射到最終目的地的適當(dāng)列/字段上。
同時(shí),由于企業(yè)的數(shù)據(jù)存儲(chǔ)(如,數(shù)據(jù)參考或關(guān)系數(shù)據(jù)庫(kù))已成為一種并非所有人都可以完全訪(fǎng)問(wèn)到的存儲(chǔ)庫(kù),因此,我們需要通過(guò)反向ETL,來(lái)為不同的業(yè)務(wù)角色提供基本的數(shù)據(jù)。