在這篇文章中,一位大數(shù)據(jù)專家討論了使用ETL工具來幫助數(shù)據(jù)團(tuán)隊更好地使用和管理他們的數(shù)據(jù)倉庫。
管理數(shù)據(jù)倉庫不僅僅是管理數(shù)據(jù)倉庫,如果我們聽起來如此陳腐。實(shí)際上還有很多需要考慮的問題。例如,數(shù)據(jù)如何進(jìn)入您的數(shù)據(jù)倉庫本身就是一個完整的過程 - 具體而言,當(dāng)數(shù)據(jù)處于運(yùn)動狀態(tài)時會發(fā)生什么,以及必須采用的形式才能變得可用。
這就是ETL工具的用武之地。
ETL - 提取,轉(zhuǎn)換,加載 - 是多個系統(tǒng)的數(shù)據(jù)(通常由不同供應(yīng)商,部門或利益相關(guān)者開發(fā)和支持)組合到單個數(shù)據(jù)庫,數(shù)據(jù)存儲或倉庫以用于傳統(tǒng)存儲或分析的常用范例。
提取是從各種數(shù)據(jù)源提取數(shù)據(jù)的過程。轉(zhuǎn)換涉及以適當(dāng)?shù)母袷睫D(zhuǎn)換數(shù)據(jù)以進(jìn)行查詢和分析。最后,當(dāng)轉(zhuǎn)換的數(shù)據(jù)被加載到目標(biāo)數(shù)據(jù)庫,數(shù)據(jù)存儲,數(shù)據(jù)集市或倉庫時,就會發(fā)生加載。從本質(zhì)上講,ETL可以為您的數(shù)據(jù)做準(zhǔn)備,使其有意義且易于分析。
許多擁有內(nèi)部IT團(tuán)隊的公司經(jīng)常考慮使用自動化ETL工具,而不是提出自己的解決方案。他們可能認(rèn)為他們可以依靠IT人員手動編寫“管道”解決方案,但后來發(fā)現(xiàn)管道無法處理越來越大或復(fù)雜的數(shù)據(jù)負(fù)載。或者如果可以,它只能通過更多的費(fèi)用,時間和資源來實(shí)現(xiàn)。
犧牲?時間,準(zhǔn)確性和性能。因此,組織必須要問:如果我們浪費(fèi)時間和日子來獲取商業(yè)智能,那么追求商業(yè)智能的重點(diǎn)是什么,不能100%肯定我們的結(jié)果,并且感覺整個機(jī)器可能會在強(qiáng)風(fēng)中崩潰?
另一方面,自動化ETL工具可以快速,準(zhǔn)確,高性能,可擴(kuò)展且安全。更重要的是,它執(zhí)行必要的功能,不應(yīng)該由過度工作或訓(xùn)練不足的IT團(tuán)隊負(fù)責(zé)監(jiān)督,特別是當(dāng)您的數(shù)據(jù)倉庫和您的公司正在尋求的關(guān)鍵答案。
事實(shí)上,無論您的IT團(tuán)隊多么熟練,擴(kuò)展數(shù)據(jù)需求都將不斷給任何組織帶來挑戰(zhàn),給員工,設(shè)備和預(yù)算帶來壓力,并浪費(fèi)寶貴的時間在定制的手動配置上,以便跟上。因此,讓我們深入了解可用的不同自動化ETL工具以及如何確定哪種工具適合您。
ETL工具的類型
以下是ETL工具的具體類型以及它們可以為您的組織做些什么:
批處理工具:現(xiàn)有的批處理工具可在非工作時間內(nèi)整合您的數(shù)據(jù),因?yàn)橛嬎隳芰Φ母偁庉^小。對于較少依賴于速度的數(shù)據(jù)類型(考慮季度或月度計算,如稅收或工資報告),這些工具可在不影響其他地方性能的情況下準(zhǔn)備數(shù)據(jù)。
開源工具:與幾乎所有開源解決方案一樣,開源ETL是現(xiàn)成的,可以輕松地與其他系統(tǒng)集成,對于基礎(chǔ)設(shè)施預(yù)算有限的公司尤其具有吸引力。而且由于開源開發(fā)的協(xié)作性,您可以在一定程度上實(shí)現(xiàn)問責(zé)制,靈活性以及可能與其他解決方案部分缺失的“最新內(nèi)容”。
基于云的工具:雖然批處理通常是內(nèi)部部署數(shù)據(jù)倉庫的領(lǐng)域,但現(xiàn)在云中可以使用新的批處理工具。它們提供了與原有舊系統(tǒng)相同的優(yōu)勢,但具有當(dāng)今的云優(yōu)勢,例如實(shí)時支持,內(nèi)置安全性和合規(guī)性以及智能模式檢測。
實(shí)時工具:如今,大多數(shù)公司都使用大量需要實(shí)時信息的現(xiàn)代應(yīng)用程序。實(shí)時ETL工具使用與其他選項完全不同的模型,一個基于分布式消息隊列 - 解耦或獨(dú)立應(yīng)用程序之間的通信 - 流處理或連續(xù)數(shù)據(jù)流。最終結(jié)果是公司可以快速查詢并獲得答案,而不僅僅是在方便系統(tǒng)時。
但是,這些類別沒有嚴(yán)格定義。例如,有開源或基于云的工具可以處理實(shí)時信息等。
哪種ETL工具適合您?
雖然大多數(shù)(如果不是全部)上述工具可以在某種程度上為您的組織提供良好的服務(wù),但每種工具都可以滿足某些要求:
- 現(xiàn)有批次:最適合希望使用內(nèi)部部署技術(shù)和/或現(xiàn)有供應(yīng)商的組織,并且不太關(guān)心實(shí)時數(shù)據(jù)處理。
- 開源:最適合那些習(xí)慣于維護(hù)和操作開源技術(shù)的組織,或者想要使用開源技術(shù)自己構(gòu)建ETL解決方案的組織。
- 基于云的:最適合喜歡在云中構(gòu)建和交付的工具的組織,并且有興趣通過不必購買或維護(hù)設(shè)備來降低成本。
- 實(shí)時:最適合尋求現(xiàn)代解決方案來處理大量數(shù)據(jù)或流數(shù)據(jù),根據(jù)需要擴(kuò)展或縮小操作以及實(shí)時處理事件的組織。
數(shù)據(jù)倉庫和ETL:無與倫比的匹配
今天的商業(yè)智能要求對每個組織都提出了很高的要求。您的獨(dú)特數(shù)據(jù)源,結(jié)構(gòu)和集合不應(yīng)受限于禁止流量和最終用戶分析的處理。