日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

點(diǎn)擊這里在線咨詢客服

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁(yè) > 新聞資訊 > IT業(yè)界 >正文

數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、湖倉(cāng)一體，究竟有什么區(qū)別？

發(fā)布時(shí)間：2023-07-02 23:28:02 作者：網(wǎng)友整理

一、基本概念1.1數(shù)倉(cāng)發(fā)展歷史

數(shù)據(jù)湖是以集中方式存儲(chǔ)各種類型數(shù)據(jù)，提供彈性的容量和吞吐能力，能夠覆蓋廣泛的數(shù)據(jù)源，支持多種計(jì)算與處理分析引擎直接對(duì)數(shù)據(jù)進(jìn)行訪問的統(tǒng)一存儲(chǔ)平臺(tái)。它能夠?qū)崿F(xiàn)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)，數(shù)據(jù)訪問和管理等細(xì)粒度的授權(quán)、審計(jì)等功能。

數(shù)據(jù)湖對(duì)存取的數(shù)據(jù)沒有格式類型的限制，數(shù)據(jù)產(chǎn)生后，可以按照數(shù)據(jù)的原始內(nèi)容和屬性，直接存儲(chǔ)到數(shù)據(jù)湖，無需在數(shù)據(jù)上傳之前對(duì)數(shù)據(jù)進(jìn)行任何的結(jié)構(gòu)化處理。數(shù)據(jù)湖可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)（如關(guān)系型數(shù)據(jù)庫(kù)中的表），半結(jié) 構(gòu)化數(shù)據(jù)（如 CSV、JSON 、XML、日志等），非結(jié)構(gòu)化數(shù)據(jù)（如電子郵件、文檔、PDF 等）以及二進(jìn)制數(shù)據(jù) （如圖形、音頻、視頻等）

1.2數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)、湖倉(cāng)一體發(fā)展歷程

（1）數(shù)據(jù)倉(cāng)庫(kù)，適合結(jié)構(gòu)化數(shù)據(jù)，但不適合非結(jié)構(gòu)化數(shù)據(jù)。

（2）數(shù)據(jù)湖：支持多種格式存儲(chǔ)數(shù)據(jù)庫(kù)。但不支持事務(wù)處理、不保證數(shù)據(jù)質(zhì)量in過去缺乏一致性/隔離性，無法實(shí)現(xiàn)混合追加和讀取數(shù)據(jù)，以及完成批處理和流式作業(yè)。

（3）lakehouse:直接在用于數(shù)據(jù)湖的低成本存儲(chǔ)上實(shí)現(xiàn)與數(shù)據(jù)倉(cāng)庫(kù)中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。

1.3數(shù)據(jù)湖

1.3.1數(shù)據(jù)湖特征

保真性，有一份業(yè)務(wù)原始數(shù)據(jù)，對(duì)業(yè)務(wù)數(shù)據(jù)一模一樣完整拷貝。
靈活性，讀取型Schema，數(shù)據(jù)邏輯處理延后
可管理，數(shù)據(jù)管理能力，包括數(shù)據(jù)源、數(shù)據(jù)連接、數(shù)據(jù)格式、數(shù)據(jù)schema（庫(kù)/表/列/行），權(quán)限等。
可追溯，數(shù)據(jù)生命周期管理，定義、接入、存儲(chǔ)、處理、分析、應(yīng)用全過程，可清楚重現(xiàn)數(shù)據(jù)完整產(chǎn)生過程和流動(dòng)過程。
豐富計(jì)算引擎，批處理+流式技術(shù)+交互式分析+機(jī)器學(xué)習(xí)。
多模態(tài)的存儲(chǔ)引擎

1.3.2數(shù)據(jù)湖架構(gòu)

通用數(shù)據(jù)湖架構(gòu)

1.3.3云原生數(shù)據(jù)湖的特征

1.4數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)對(duì)比

首先，數(shù)據(jù)捕獲時(shí)未定義架構(gòu)。數(shù)據(jù)湖在功能上可以實(shí)現(xiàn)各種類型數(shù)據(jù)的存儲(chǔ)，數(shù)據(jù)湖中的數(shù)據(jù)可以是非結(jié)構(gòu) 化的、未處理的形態(tài)，數(shù)據(jù)可以在確定需要使用時(shí)才會(huì)對(duì)數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理與轉(zhuǎn)換；而數(shù)據(jù)倉(cāng)庫(kù)則通常存放的是經(jīng) 過處理的、結(jié)構(gòu)化的數(shù)據(jù)，數(shù)據(jù)存儲(chǔ)的 Schema 在數(shù)據(jù)存儲(chǔ)之前就需要被定義好。

其次，存儲(chǔ)到數(shù)據(jù)湖中的數(shù)據(jù)通常會(huì)按照原始形態(tài)直接存儲(chǔ)，隨著業(yè)務(wù)和使用場(chǎng)景的發(fā)展，會(huì)使用不同的計(jì)算存儲(chǔ)的數(shù)據(jù)進(jìn)行分析與處理，數(shù)據(jù)湖中的數(shù)據(jù)在一個(gè)企業(yè)組織中通常會(huì)被多個(gè)不同應(yīng)用、系統(tǒng)和部門使覆蓋的場(chǎng)景廣泛并且范圍也會(huì)動(dòng)態(tài)延展，因此需要提供更多的靈活性以適應(yīng)快速變化的應(yīng)用場(chǎng)景；數(shù)據(jù)通常使用場(chǎng)景是在數(shù)據(jù)收集期間就已經(jīng)明確，數(shù)據(jù)倉(cāng)庫(kù)通常集中在 BI、業(yè)務(wù)、運(yùn)營(yíng)等商業(yè)決策相關(guān)場(chǎng) 倉(cāng)庫(kù)也可以把已經(jīng)存在的數(shù)據(jù)轉(zhuǎn)換到新場(chǎng)景，但在靈活性方面不如數(shù)據(jù)湖，需要有更多的數(shù)據(jù)轉(zhuǎn)換時(shí)間投入。

1.5批處理和流式處理區(qū)別：

（1）數(shù)據(jù)范圍：批處理對(duì)數(shù)據(jù)集中的所有或大部分?jǐn)?shù)據(jù)進(jìn)行查詢或處理。流處理對(duì)滾動(dòng)時(shí)間窗口內(nèi)的數(shù)據(jù)或僅對(duì)最近的數(shù)據(jù)記錄進(jìn)行查詢或處理。

（2）數(shù)據(jù)大小，批處理針對(duì)的是大批量數(shù)據(jù)（如GB或者PB級(jí)別）。流處理針對(duì)的是單條記錄或包含幾條記錄的微批數(shù)據(jù)（如KB或者M(jìn)B）。

（3）性能，批處理所需的時(shí)間一般是幾分鐘至幾小時(shí)的延遲。流處理所需的時(shí)間幾毫秒至幾秒的延遲。

（4）場(chǎng)景，批處理使用的場(chǎng)景分析起來很復(fù)雜。流處理只需要簡(jiǎn)單的響應(yīng)調(diào)用，聚合和滾動(dòng)指標(biāo)。

二、阿里大數(shù)據(jù)治理平臺(tái)2.1產(chǎn)品架構(gòu)

DataWorks（大數(shù)據(jù)開發(fā)治理平臺(tái)）是阿里云重要的PaaS（Platform-as-a-Service）平臺(tái)產(chǎn)品，為您提供數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù)，一站式開發(fā)管理的界面，幫助企業(yè)專注于數(shù)據(jù)價(jià)值的挖掘和探索。

DataWorks支持多種計(jì)算和存儲(chǔ)引擎服務(wù)，包括離線計(jì)算MaxCompute、開源大數(shù)據(jù)引擎E-MapReduce、實(shí)時(shí)計(jì)算（基于Flink）、機(jī)器學(xué)習(xí)PAI、云原生數(shù)據(jù)倉(cāng)庫(kù) AnalyticDB for PostgreSQL，云原生數(shù)據(jù)倉(cāng)庫(kù)AnalyticDB for MySQL，并且支持用戶自定義接入計(jì)算和存儲(chǔ)服務(wù)。DataWorks為您提供全鏈路智能大數(shù)據(jù)及AI開發(fā)和治理服務(wù)。

全面托管的調(diào)度
- DataWorks提供強(qiáng)大的調(diào)度功能，詳情請(qǐng)參見調(diào)度配置。
- - 支持根據(jù)時(shí)間、依賴關(guān)系，進(jìn)行任務(wù)觸發(fā)的機(jī)制。詳情請(qǐng)參見時(shí)間屬性配置說明和配置同周期調(diào)度依賴。
  - 支持每日千萬級(jí)別大規(guī)模周期性任務(wù)調(diào)度，其將根據(jù)DAG關(guān)系準(zhǔn)確、準(zhǔn)時(shí)地運(yùn)行。
  - 支持分鐘、小時(shí)、天、周、月、年多種調(diào)度周期配置。

- 完全托管的服務(wù)，無需關(guān)心調(diào)度的服務(wù)器資源問題。
- 提供隔離功能，確保不同租戶之間的任務(wù)不會(huì)相互影響。
DataWorks提供豐富的節(jié)點(diǎn)類型，詳情可參考：選擇數(shù)據(jù)開發(fā)節(jié)點(diǎn)。全面的引擎能力封裝，讓您無需接觸復(fù)雜的引擎命令行。并提供自定義節(jié)點(diǎn)插件化機(jī)制，支持您擴(kuò)展計(jì)算任務(wù)類型，自主接入自定義計(jì)算服務(wù)，同時(shí)，支持您結(jié)合DataWorks其他節(jié)點(diǎn)進(jìn)行復(fù)雜數(shù)據(jù)處理。
- 數(shù)據(jù)集成：依托DataWorks中數(shù)據(jù)集成的強(qiáng)力支撐，支持超過20種數(shù)據(jù)源，為您提供穩(wěn)定高效的數(shù)據(jù)傳輸功能。詳情請(qǐng)參見數(shù)據(jù)集成。
- 數(shù)據(jù)轉(zhuǎn)化：
- - 依托引擎強(qiáng)大的能力，保證了大數(shù)據(jù)的分析處理性能。例如：創(chuàng)建ODPS SQL節(jié)點(diǎn)、ODPS spark、EMR Hive、EMR MR等節(jié)點(diǎn)。
  - 提供通用類型節(jié)點(diǎn),，結(jié)合引擎節(jié)點(diǎn)可實(shí)現(xiàn)復(fù)雜數(shù)據(jù)分析處理過程。例如：賦值節(jié)點(diǎn)、do-while、for-each等節(jié)點(diǎn)。
  - 支持自定義節(jié)點(diǎn)，通過自定義計(jì)算服務(wù)進(jìn)行數(shù)據(jù)開發(fā)。關(guān)于自定義節(jié)點(diǎn)配置詳情，可參考文檔：概述。
可視化開發(fā)DataWorks提供可視化的代碼開發(fā)、工作流設(shè)計(jì)器頁(yè)面，無需搭配任何開發(fā)工具，簡(jiǎn)單拖拽和開發(fā)，即可完成復(fù)雜的數(shù)據(jù)分析任務(wù)。詳情請(qǐng)參見界面功能點(diǎn)介紹。只要有瀏覽器有網(wǎng)絡(luò)，您即可隨時(shí)隨地進(jìn)行開發(fā)工作。
監(jiān)控告警運(yùn)維中心提供可視化的任務(wù)監(jiān)控管理工具，支持以DAG圖的形式展示任務(wù)運(yùn)行時(shí)的全局情況，詳情請(qǐng)參見運(yùn)維中心。您可以方便地配置各類報(bào)警方式，任務(wù)發(fā)生錯(cuò)誤可及時(shí)通知相關(guān)人員，保證業(yè)務(wù)正常運(yùn)行。詳情請(qǐng)參見智能監(jiān)控。

2.2功能介紹

2.2.1數(shù)據(jù)集成

數(shù)據(jù)集成有兩個(gè)定位，第一是數(shù)據(jù)中臺(tái)對(duì)接外界核心樞紐，即對(duì)接云上系統(tǒng)之間數(shù)據(jù)流轉(zhuǎn)的打通；第二是跨云跨網(wǎng)一站式數(shù)據(jù)傳輸，即在數(shù)據(jù)集成中，所有數(shù)據(jù)的進(jìn)出都可以提供一站式的解決方案。

批量配置數(shù)據(jù)源和批量配置同步任務(wù)。

向?qū)Ｊ胶湍_本模式，向?qū)Ｊ脚渲脭?shù)據(jù)源后，參數(shù)自動(dòng)生成。

過程：選擇數(shù)據(jù)源-添加同步任務(wù)。

規(guī)則類型，8種，例如，目標(biāo)表前綴；新增字段、字段賦值；目標(biāo)表子端替換；

同步任務(wù)運(yùn)行方式：測(cè)試運(yùn)行、補(bǔ)數(shù)據(jù)運(yùn)行和周期運(yùn)行。

同步速度調(diào)優(yōu)：任務(wù)切分（切分鍵、作業(yè)并發(fā)數(shù)）、資源占用；

切分鍵，切分源端數(shù)據(jù)；并發(fā)數(shù)小于DMU兩倍。
- 資源單位DMU，為完成同步需要占用的CPU、內(nèi)存、網(wǎng)絡(luò)資源
- 任務(wù)DMU<=5，并發(fā)資源數(shù)<=10
自定義資源組，獨(dú)占資源，利用專線+獨(dú)占資源=提高速度

2.2.2數(shù)據(jù)建模

DataWorks 數(shù)據(jù)建模同時(shí)支持關(guān)系（ER、3NF）建模和維度建模（星型，雪花）。不同類型的模型沒有最好，只有更適合。用戶應(yīng)該從企業(yè)的實(shí)際場(chǎng)景出發(fā)選擇建模方式。根據(jù)經(jīng)驗(yàn)總結(jié)，大多數(shù)企業(yè)都會(huì)同時(shí)存在以上兩種建模方式，底層模型用關(guān)系建模，力求做到數(shù)據(jù)精簡(jiǎn)，往上維度建模就更適合，靠數(shù)據(jù)冗余帶來可用性、分析性和可操作性。

2.2.3數(shù)據(jù)開發(fā)-降本增效利器

DataWorks數(shù)據(jù)開發(fā)（DataStudio、StreamStudio、HoloStudio）面向各引擎提供可視化開發(fā)的主界面，賦予用戶智能代碼開發(fā)、多引擎混編工作流、規(guī)范化任務(wù)發(fā)布的強(qiáng)大能力，讓用戶輕松構(gòu)建離線數(shù)倉(cāng)、實(shí)時(shí)數(shù)倉(cāng)與即席分析系統(tǒng)。支持引擎：MaxCompute、E-MapReduce、Flink、Hologres、AnalyticDB for PostgreSQL，滿足用戶不同的企業(yè)級(jí)業(yè)務(wù)場(chǎng)景。
大幅提升工作效率

非技術(shù)人員1~2小時(shí)即可掌握完整的數(shù)據(jù)研發(fā)流程
無需維護(hù)各類開源技術(shù)棧，釋放更多人力專注于業(yè)務(wù)

從容面對(duì)復(fù)雜場(chǎng)景

支持順序、循環(huán)、分支、判斷等節(jié)點(diǎn)類型
支持跨引擎、跨地域、跨周期的任務(wù)調(diào)度

提供更規(guī)范、科學(xué)的開發(fā)模式

高效的多人協(xié)同任務(wù)開發(fā)模式
規(guī)范且安全的任務(wù)發(fā)布上線流程

2.2.4數(shù)據(jù)治理

2.2.5數(shù)據(jù)服務(wù)

2.3應(yīng)用場(chǎng)景

資源優(yōu)化：幫您節(jié)省計(jì)算、存儲(chǔ)費(fèi)用
移動(dòng)運(yùn)維：輕松搞定任務(wù)運(yùn)維
運(yùn)行診斷：為您快速定位疑難問題
智能監(jiān)控：提高生產(chǎn)力，更加智慧的告警處理方式
字段級(jí)數(shù)據(jù)血緣：快速定位臟數(shù)據(jù)源頭
多種控制節(jié)點(diǎn)：滿足復(fù)雜業(yè)務(wù)場(chǎng)景邏輯
數(shù)據(jù)保護(hù)傘：進(jìn)行數(shù)據(jù)安全保障
實(shí)時(shí)流計(jì)算開發(fā)：極大降低新技術(shù)使用門檻

三、華為數(shù)據(jù)湖治理中心- DGC

https://support.huaweicloud.com/usermanual-dgc/dgc_01_0024.html

3.1產(chǎn)品架構(gòu)

華為云整個(gè)的數(shù)據(jù)湖解決方案，完整覆蓋了數(shù)據(jù)處理的生命周期，并且明確支持了數(shù)據(jù)治理，并提供了基于模型和指標(biāo)的數(shù)據(jù)治理流程工具，在華為云的數(shù)據(jù)湖解決方案中逐漸開始往“湖倉(cāng)一體化”方向演進(jìn)。

DGC基于數(shù)據(jù)湖底座，提供數(shù)據(jù)集成、開發(fā)、治理、開放等能力。DGC支持對(duì)接所有華為云的數(shù)據(jù)湖與數(shù)據(jù)庫(kù)云服務(wù)作為數(shù)據(jù)湖底座，例如數(shù)據(jù)湖探索（Data Lake Insight，簡(jiǎn)稱DLI）、MRS hive、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)DWS等，也支持對(duì)接企業(yè)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)，例如Oracle、Greenplum等。DGC包含如下功能組件：

管理中心，提供DGC數(shù)據(jù)連接管理的能力，將DGC與數(shù)據(jù)湖底座進(jìn)行對(duì)接，用于數(shù)據(jù)開發(fā)與數(shù)據(jù)治理等活動(dòng)。
數(shù)據(jù)集成之批量數(shù)據(jù)遷移，批量數(shù)據(jù)遷移提供20+簡(jiǎn)單易用的遷移能力和多種數(shù)據(jù)源到數(shù)據(jù)湖的集成能力，全向?qū)脚渲煤凸芾?，支持單表、整?kù)、增量、周期性數(shù)據(jù)集成。
數(shù)據(jù)集成之實(shí)時(shí)數(shù)據(jù)集成，實(shí)時(shí)數(shù)據(jù)接入為處理或分析流數(shù)據(jù)的自定義應(yīng)用程序構(gòu)建數(shù)據(jù)流管道，主要解決云服務(wù)外的數(shù)據(jù)實(shí)時(shí)傳輸?shù)皆品?wù)內(nèi)的問題。實(shí)時(shí)數(shù)據(jù)接入每小時(shí)可從數(shù)十萬種數(shù)據(jù)源（例如日志和定位日志事件、網(wǎng)站點(diǎn)擊流、社交媒體源等）中連續(xù)捕獲、傳送和存儲(chǔ)數(shù)TB數(shù)據(jù)。
規(guī)范設(shè)計(jì)，作為數(shù)據(jù)治理的一個(gè)核心模塊，承擔(dān)數(shù)據(jù)治理過程中的數(shù)據(jù)加工并業(yè)務(wù)化的功能，提供智能數(shù)據(jù)規(guī)劃、自定義主題數(shù)據(jù)模型、統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)、可視化數(shù)據(jù)建模、標(biāo)注數(shù)據(jù)標(biāo)簽等功能，有利于改善數(shù)據(jù)質(zhì)量，有效支撐經(jīng)營(yíng)決策。
數(shù)據(jù)開發(fā)，大數(shù)據(jù)開發(fā)環(huán)境，降低用戶使用大數(shù)據(jù)的門檻，幫助用戶快速構(gòu)建大數(shù)據(jù)處理中心。支持?jǐn)?shù)據(jù)建模、數(shù)據(jù)集成、腳本開發(fā)、工作流編排等操作，輕松完成整個(gè)數(shù)據(jù)的處理分析流程。
數(shù)據(jù)質(zhì)量，數(shù)據(jù)全生命周期管控，數(shù)據(jù)處理全流程質(zhì)量監(jiān)控，異常事件實(shí)時(shí)通知。
數(shù)據(jù)資產(chǎn)，提供企業(yè)級(jí)的元數(shù)據(jù)管理，厘清信息資產(chǎn)。通過數(shù)據(jù)地圖，實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的數(shù)據(jù)血緣和數(shù)據(jù)全景可視，提供數(shù)據(jù)智能搜索和運(yùn)營(yíng)監(jiān)控。
數(shù)據(jù)服務(wù)，數(shù)據(jù)服務(wù)定位于標(biāo)準(zhǔn)化的數(shù)據(jù)服務(wù)平臺(tái)，提供一站式數(shù)據(jù)服務(wù)開發(fā)、測(cè)試部署能力，實(shí)現(xiàn)數(shù)據(jù)服務(wù)敏捷響應(yīng)，降低數(shù)據(jù)獲取難度，提升數(shù)據(jù)消費(fèi)體驗(yàn)和效率，最終實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的變現(xiàn)。
數(shù)據(jù)安全，數(shù)據(jù)安全為數(shù)據(jù)湖治理中心提供數(shù)據(jù)生命周期內(nèi)統(tǒng)一的數(shù)據(jù)使用保護(hù)能力。通過敏感數(shù)據(jù)識(shí)別、分級(jí)分類、隱私保護(hù)、資源權(quán)限控制、數(shù)據(jù)加密傳輸、加密存儲(chǔ)、數(shù)據(jù)風(fēng)險(xiǎn)識(shí)別以及合規(guī)審計(jì)等措施，幫助用戶建立安全預(yù)警機(jī)制，增強(qiáng)整體安全防護(hù)能力，讓數(shù)據(jù)可用不可得和安全合規(guī)。

3.2數(shù)據(jù)集成（批量數(shù)據(jù)遷移）

批量數(shù)據(jù)遷移基于分布式計(jì)算框架，利用并行化處理技術(shù)，支持用戶穩(wěn)定高效地對(duì)海量數(shù)據(jù)進(jìn)行移動(dòng)，實(shí)現(xiàn)不停服數(shù)據(jù)遷移，快速構(gòu)建所需的數(shù)據(jù)架構(gòu)。

表/文件/整庫(kù)遷移支持批量遷移表或者文件，還支持同構(gòu)/異構(gòu)數(shù)據(jù)庫(kù)之間整庫(kù)遷移，一個(gè)作業(yè)即可遷移幾百?gòu)埍怼?/li>
增量數(shù)據(jù)遷移支持文件增量遷移、關(guān)系型數(shù)據(jù)庫(kù)增量遷移、HBase/CloudTable增量遷移，以及使用Where條件配合時(shí)間變量函數(shù)實(shí)現(xiàn)增量數(shù)據(jù)遷移。
事務(wù)模式遷移支持當(dāng)CDM作業(yè)執(zhí)行失敗時(shí)，將數(shù)據(jù)回滾到作業(yè)開始之前的狀態(tài)，自動(dòng)清理目的表中的數(shù)據(jù)。
字段轉(zhuǎn)換支持去隱私、字符串操作、日期操作等常用字段的數(shù)據(jù)轉(zhuǎn)換功能。
文件加密在遷移文件到文件系統(tǒng)時(shí)，CDM支持對(duì)寫入云端的文件進(jìn)行加密。
MD5校驗(yàn)一致性支持使用MD5校驗(yàn)，檢查端到端文件的一致性，并輸出校驗(yàn)結(jié)果。
臟數(shù)據(jù)歸檔支持將遷移過程中處理失敗的、被清洗過濾掉的、不符合字段轉(zhuǎn)換或者不符合清洗規(guī)則的數(shù)據(jù)單獨(dú)歸檔到臟數(shù)據(jù)日志中，便于用戶查看。并支持設(shè)置臟數(shù)據(jù)比例閾值，來決定任務(wù)是否成功。

3.3數(shù)據(jù)開發(fā)

使用數(shù)據(jù)開發(fā)模塊，用戶可進(jìn)行數(shù)據(jù)管理、腳本開發(fā)、作業(yè)開發(fā)、作業(yè)調(diào)度、運(yùn)維監(jiān)控等操作，輕松完成整個(gè)數(shù)據(jù)的處理分析流程。

支持的功能

說明

數(shù)據(jù)管理

支持管理DWS、DLI、MRS Hive等多種數(shù)據(jù)倉(cāng)庫(kù)。支持可視化和DDL方式管理數(shù)據(jù)庫(kù)表。

腳本開發(fā)

提供在線腳本編輯器，支持多人協(xié)作進(jìn)行SQL、Shell、Python/ target=_blank class=infotextkey>Python腳本在線代碼開發(fā)和調(diào)測(cè)。支持使用變量和函數(shù)。

作業(yè)開發(fā)

提供圖形化設(shè)計(jì)器，支持拖拉拽方式快速構(gòu)建數(shù)據(jù)處理工作流。預(yù)設(shè)數(shù)據(jù)集成、SQL、Shell等多種任務(wù)類型，通過任務(wù)間依賴完成復(fù)雜數(shù)據(jù)分析處理。支持導(dǎo)入和導(dǎo)出作業(yè)。

資源管理

支持統(tǒng)一管理在腳本開發(fā)和作業(yè)開發(fā)使用到的file、jar、archive類型的資源。

作業(yè)調(diào)度

支持單次調(diào)度、周期調(diào)度和事件驅(qū)動(dòng)調(diào)度，周期調(diào)度支持分鐘、小時(shí)、天、周、月多種調(diào)度周期。

運(yùn)維監(jiān)控

支持對(duì)作業(yè)進(jìn)行運(yùn)行、暫停、恢復(fù)、終止等多種操作。支持查看作業(yè)和其內(nèi)各任務(wù)節(jié)點(diǎn)的運(yùn)行詳情。支持配置多種方式報(bào)警，作業(yè)和任務(wù)發(fā)生錯(cuò)誤時(shí)可及時(shí)通知相關(guān)人，保證業(yè)務(wù)正常運(yùn)行。

3.4總結(jié)

華為的數(shù)據(jù)湖解決方案比較完整，DLI承擔(dān)了所有的數(shù)據(jù)湖構(gòu)建、數(shù)據(jù)處理、數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用的核心功能。DLI最大的特色是在于分析引擎的完備性，包括基于SQL的交互式分析以及基于Spark+Flink的流批一體處理引擎。在核心存儲(chǔ)引擎上，DLI依然通過內(nèi)置的OBS來提供，和AWS S3的能力基本對(duì)標(biāo)。華為數(shù)據(jù)湖解決方案在上下游生態(tài)上做的比AWS相對(duì)完善，對(duì)于外部數(shù)據(jù)源，幾乎支持所有目前華為云上提供的數(shù)據(jù)源服務(wù)。

DLI可以與華為的CDM（云數(shù)據(jù)遷移服務(wù)）和DIS（數(shù)據(jù)接入服務(wù)）對(duì)接：1）借助DIS，DLI可以定義各類數(shù)據(jù)點(diǎn)，這些點(diǎn)可以在Flink作業(yè)中被使用，做為source或者sink；2）借助CDM，DLI甚至能接入IDC、第三方云服務(wù)的數(shù)據(jù)。

為了更好的支持?jǐn)?shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、質(zhì)量管理等數(shù)據(jù)湖高級(jí)功能，華為云提供了DAYU平臺(tái)。DAYU平臺(tái)是華為數(shù)據(jù)湖治理運(yùn)營(yíng)方法論的落地實(shí)現(xiàn)。DAYU涵蓋了整個(gè)數(shù)據(jù)湖治理的核心流程，并對(duì)其提供了相應(yīng)的工具支持；甚至在華為的官方文檔中，給出了數(shù)據(jù)治理組織的構(gòu)建建議。DAYU的數(shù)據(jù)治理方法論的落地實(shí)現(xiàn)如圖11所示（來自華為云官網(wǎng)）。

四、阿里云數(shù)據(jù)湖方案

對(duì)象存儲(chǔ) OSS 是基于阿里云自研的分布式存儲(chǔ)引擎——盤古搭建，提供體系化的數(shù)據(jù)采力，支持結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)源。體系由數(shù)據(jù)湖對(duì)象存儲(chǔ) OSS、云原生數(shù)據(jù)湖分析 DLA、數(shù)據(jù)湖構(gòu)建 DLF、E-MapReduce、 Works 等產(chǎn)品強(qiáng)強(qiáng)組合，在存儲(chǔ)與計(jì)算分離架構(gòu)下，提供“湖存儲(chǔ)”、“湖加速”、“湖計(jì)算”的企業(yè)級(jí)數(shù)據(jù)湖解決方案。

數(shù)據(jù)存儲(chǔ)：OSS
數(shù)據(jù)加工：數(shù)據(jù)湖構(gòu)建+E-mapreduce
- 數(shù)據(jù)湖構(gòu)建（DLF），云原生數(shù)據(jù)湖架構(gòu)核心組成部分，幫助用戶簡(jiǎn)單快速構(gòu)建云原生數(shù)據(jù)湖解決方案，DLF提供湖上云數(shù)據(jù)統(tǒng)一管理、企業(yè)級(jí)權(quán)限控制，并無縫對(duì)接多種計(jì)算引擎，打破數(shù)據(jù)孤島，洞察業(yè)務(wù)價(jià)值。
- E-mapreduce，構(gòu)建在阿里云服務(wù)器ECS上的開源Hadoop、spark、Hbase、hive、Flink生態(tài)大數(shù)據(jù)Pass產(chǎn)品。提供用戶在云上使用開源技術(shù)建設(shè)數(shù)據(jù)倉(cāng)庫(kù)、離線批處理、在線流式處理、即時(shí)分析、機(jī)器學(xué)習(xí)等場(chǎng)景下的大數(shù)據(jù)解決方案。
數(shù)據(jù)分析與治理，對(duì)企業(yè)數(shù)據(jù)的可用性、完整性和安全性全面管理。數(shù)據(jù)湖采用API接口讓數(shù)據(jù)湖實(shí)現(xiàn)多引擎的統(tǒng)一元數(shù)據(jù)管理和權(quán)限管理。
- MaxCompute ：MaxCompute 是一項(xiàng)面向分析的大數(shù)據(jù)計(jì)算服務(wù)，它以 Serverless 架構(gòu)提供快速、全托管的在線數(shù)據(jù)倉(cāng)庫(kù)服務(wù)，消除傳統(tǒng)數(shù)據(jù)平臺(tái)在資源擴(kuò)展性和彈性方面的限制，最小化用戶運(yùn)維投入，使您經(jīng)濟(jì)并高效的分析處理海量數(shù)據(jù)。
- 云原生數(shù)據(jù)湖分析(Data Lake Analytics，簡(jiǎn)稱 DLA) 采用全新的云原生+Serverless+ 據(jù)庫(kù)與大數(shù)據(jù)一體化架構(gòu)，支持企業(yè)級(jí)權(quán)限管理、高效入湖、 ETL、機(jī)器學(xué)習(xí)、流計(jì)算與交互式分析等。核心組包括：統(tǒng)一Meta、Lakehouse、Serverless Spark、Serverless Presto.
- 機(jī)器學(xué)習(xí) PAI：機(jī)器學(xué)習(xí) PAI（Platform of Artificial Intelligence）是阿里云面向企業(yè)客戶及開發(fā)者，提供輕量化、高性價(jià)比的云原生機(jī)器學(xué)習(xí)平臺(tái)支持百億特征、千億樣本規(guī)模加速訓(xùn)練，百余種落地場(chǎng)景，全面提升機(jī)器學(xué)習(xí)工程效率
- 日志服務(wù)SLS，日志大數(shù)據(jù)解決方案，一站式提供數(shù)據(jù)收集、清洗、分析、可視化和告警功能。
- dataworks，基于EMR/MC-Hologres 等大數(shù)據(jù)計(jì)算引擎，為客戶提供專業(yè)高效、安全可的一站式大數(shù)據(jù)開發(fā)與治理平臺(tái)。

4.1數(shù)據(jù)湖架構(gòu)

4.2數(shù)據(jù)湖構(gòu)建（Data Lake Formation，簡(jiǎn)稱 DLF）

4.2.1產(chǎn)品架構(gòu)

阿里云數(shù)據(jù)湖構(gòu)建（Data Lake Formation，簡(jiǎn)稱 DLF）是一款全托管的快速幫助用戶構(gòu)建云上數(shù)據(jù)湖及Lakehouse的服務(wù)，為客戶提供了統(tǒng)一的元數(shù)據(jù)管理、統(tǒng)一的權(quán)限與安全管理、便捷的數(shù)據(jù)入湖能力以及一鍵式數(shù)據(jù)探索能力。DLF可以幫助用戶快速完成云原生數(shù)據(jù)湖及Lakehouse方案的構(gòu)建與管理，并可無縫對(duì)接多種計(jì)算引擎，打破數(shù)據(jù)孤島，洞察業(yè)務(wù)價(jià)值。

元數(shù)據(jù)管理，通過控制臺(tái)查看和管理數(shù)據(jù)湖中元數(shù)據(jù)庫(kù)和表的信息，通過API的方式操作元數(shù)據(jù)，集成到第三方應(yīng)用服務(wù)。并支持多版本管理、可通過元數(shù)據(jù)發(fā)現(xiàn)和入湖任務(wù)自動(dòng)生成元數(shù)據(jù)。
數(shù)據(jù)入湖，通過入湖任務(wù)的方式將分散在MySQL、Kafka和PolarDB等數(shù)據(jù)統(tǒng)一存儲(chǔ)，入湖過程如果沒有定義元數(shù)據(jù)信息，入湖任務(wù)會(huì)自動(dòng)生成元數(shù)據(jù)的表信息。
數(shù)據(jù)權(quán)限管理，可以加強(qiáng)湖上數(shù)據(jù)權(quán)限控制，保障數(shù)據(jù)安全?？芍С謱?duì)元數(shù)據(jù)庫(kù)、元數(shù)據(jù)表、元數(shù)據(jù)列三種粒度的權(quán)限。
數(shù)據(jù)探索，為您提供一鍵式數(shù)據(jù)探索能力，可支持Spark 3.0 SQL語法，可以保存歷史查詢，預(yù)覽數(shù)據(jù)，導(dǎo)出結(jié)果，一鍵生產(chǎn)tpc-ds測(cè)試數(shù)據(jù)集。
湖管理，將為您提供對(duì)湖內(nèi)數(shù)據(jù)存儲(chǔ)的分析及優(yōu)化建議，加強(qiáng)對(duì)數(shù)據(jù)生命周期管理，優(yōu)化使用成本，方便您進(jìn)行數(shù)據(jù)運(yùn)維管理。

4.2.2應(yīng)用場(chǎng)景

數(shù)據(jù)分析場(chǎng)景，通過元數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)探索能力，可以快速的對(duì)OSS內(nèi)結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析、探索。
結(jié)合E-MapReduce、OSS兩個(gè)產(chǎn)品，DLF協(xié)助客戶快速構(gòu)建云上數(shù)據(jù)湖。

結(jié)合MaxCompute、Dataworks、E-MapReduce3個(gè)產(chǎn)品，DLF協(xié)助客戶快速構(gòu)建湖倉(cāng)一體架構(gòu)。

結(jié)合Databricks、OSS產(chǎn)品，構(gòu)建云上全托管Lakehouse數(shù)據(jù)架構(gòu)。

4.2.3阿里DDI（databricks datainsight 數(shù)據(jù)洞察）

產(chǎn)品核心：

基于商業(yè)版 Spark 的全托管大數(shù)據(jù)分析& AI 平臺(tái)
內(nèi)置商業(yè)版 Spark 引擎 Databricks Runtime ，在計(jì)算層面提供高效、穩(wěn)定的保障
與阿里云產(chǎn)品集成互通，提供數(shù)據(jù)安全、動(dòng)態(tài)擴(kuò)容、監(jiān)控告警等企業(yè)級(jí)特性

產(chǎn)品引擎與服務(wù)：

100% 兼容開源 Spark，經(jīng)阿里云與 Databricks 聯(lián)合研發(fā)性能優(yōu)化
提供商業(yè)化 SLA 保障與7*24小時(shí) Databricks 專家支持服務(wù)

產(chǎn)品關(guān)鍵信息與優(yōu)勢(shì)

4.2.3.1產(chǎn)品架構(gòu)

Databricks數(shù)據(jù)洞察構(gòu)建在ECS之上，使用阿里云對(duì)象存儲(chǔ)服務(wù)（OSS）為核心存儲(chǔ)。存儲(chǔ)訪問加速層方便您可以像操作HDFS上的數(shù)據(jù)一樣訪問OSS上的數(shù)據(jù)。
Databricks數(shù)據(jù)洞察提供了兩種執(zhí)行Spark作業(yè)的方式，包括通過Notebook或者在項(xiàng)目空間里新建Spark作業(yè)。
Databricks數(shù)據(jù)洞察還提供了監(jiān)控告警、元數(shù)據(jù)管理、權(quán)限管理等功能，方便您對(duì)集群資源進(jìn)行管理。

4.2.3.2應(yīng)用場(chǎng)景

1、數(shù)據(jù)湖分析

使用阿里云對(duì)象存儲(chǔ)OSS作為云上存儲(chǔ)，DDI集群提供靈活的計(jì)算資源，OSS上的數(shù)據(jù)可以被多個(gè)DDI集群共享，減少數(shù)據(jù)冗余。同時(shí)，DataInsight Notebook支持多用戶同時(shí)協(xié)同工作，您可以在Notebook中完成作業(yè)編輯、提交和結(jié)果查看。

2、實(shí)時(shí)數(shù)倉(cāng)

利用Databricks Delta Lake的ACID事務(wù)特性，可以構(gòu)建云上大數(shù)據(jù)的實(shí)時(shí)數(shù)倉(cāng)。

五、華為數(shù)據(jù)湖探索（Data Lake Insight，以下簡(jiǎn)稱DLI）5.1產(chǎn)品架構(gòu)

數(shù)據(jù)湖探索（Data Lake Insight，以下簡(jiǎn)稱DLI）是完全兼容Apache Spark、Apache Flink、openLooKeng（基于Presto）生態(tài)，提供一站式的流處理、批處理、交互式分析的Serverless融合處理分析服務(wù)。DLI是完全托管的大數(shù)據(jù)處理分析服務(wù)，企業(yè)使用標(biāo)準(zhǔn)SQL、Spark、Flink程序就可輕松完成多數(shù)據(jù)源的聯(lián)合計(jì)算分析，挖掘和探索數(shù)據(jù)價(jià)值。數(shù)據(jù)無需復(fù)雜的抽取、轉(zhuǎn)換、加載（ETL），使用SQL或程序就可以對(duì)云上CloudTable、RDS、DWS、css、OBS、ECS自建數(shù)據(jù)庫(kù)以及線下數(shù)據(jù)庫(kù)的異構(gòu)數(shù)據(jù)進(jìn)行探索。

5.2功能介紹

DLI用戶可以通過可視化界面、Restful API、JDBC、ODBC、Beeline等多種接入方式對(duì)云上CloudTable、RDS和DWS等異構(gòu)數(shù)據(jù)源進(jìn)行查詢分析，數(shù)據(jù)格式兼容CSV、JSON、Parquet、Carbon和ORC五種主流數(shù)據(jù)格式。

三大基本功能
- SQL作業(yè)支持SQL查詢功能：可為用戶提供標(biāo)準(zhǔn)的SQL語句。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索SQL語法參考》。
- Flink作業(yè)支持Flink SQL在線分析功能：支持Window、Join等聚合函數(shù)、地理函數(shù)、CEP函數(shù)等，用SQL表達(dá)業(yè)務(wù)邏輯，簡(jiǎn)便快捷實(shí)現(xiàn)業(yè)務(wù)。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索SQL語法參考》。
- Spark作業(yè)提供全托管式Spark計(jì)算特性：用戶可通過交互式會(huì)話(session)和批處理(batch)方式提交計(jì)算任務(wù)，在全托管Spark隊(duì)列上進(jìn)行數(shù)據(jù)分析。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索API參考》。
多數(shù)據(jù)源分析：
- Spark跨源連接：可通過DLI訪問CloudTable，DWS，RDS和CSS等數(shù)據(jù)源。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索用戶指南》。
- Flink跨源支持與多種云服務(wù)連通，形成豐富的流生態(tài)圈。數(shù)據(jù)湖探索的流生態(tài)分為云服務(wù)生態(tài)和開源生態(tài)：具體內(nèi)容請(qǐng)參見《數(shù)據(jù)湖探索開發(fā)指南》。
- - 云服務(wù)生態(tài)：數(shù)據(jù)湖探索在Flink SQL中支持與其他服務(wù)的連通。用戶可以直接使用SQL從這些服務(wù)中讀寫數(shù)據(jù)，如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等。
  - 開源生態(tài)：通過增強(qiáng)型跨源連接建立與其他VPC的網(wǎng)絡(luò)連接后，用戶可以在數(shù)據(jù)湖探索的租戶獨(dú)享隊(duì)列中訪問所有Flink和Spark支持的數(shù)據(jù)源與輸出源，如Kafka、Hbase、ElasticSearch等。
BI工具
- 對(duì)接永洪BI：與永洪BI對(duì)接實(shí)現(xiàn)數(shù)據(jù)分析。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索開發(fā)指南》。
支持地理空間查詢。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索開發(fā)指南》。

5.3應(yīng)用場(chǎng)景

（1）大數(shù)據(jù)ETL處理

大數(shù)據(jù)ETL：具備TB~EB級(jí)運(yùn)營(yíng)商數(shù)據(jù)治理能力，能快速將海量運(yùn)營(yíng)商數(shù)據(jù)做ETL處理，為分布式批處理計(jì)算提供分布式數(shù)據(jù)集。
高吞吐低時(shí)延：采用Apache Flink的Dataflow模型，高性能計(jì)算資源，從用戶自建的Kafka、MRS-Kafka、DMS-Kafka消費(fèi)數(shù)據(jù)，單CU每秒吞吐1千~2萬條消息。
細(xì)粒度權(quán)限管理：P公司內(nèi)部有N個(gè)子部門，子部門之間需要對(duì)數(shù)據(jù)進(jìn)行共享和隔離。DLI支持計(jì)算資源按租戶隔離，保障作業(yè)SLA；支持?jǐn)?shù)據(jù)權(quán)限控制到表/列，幫助企業(yè)實(shí)現(xiàn)部門間數(shù)據(jù)共享和權(quán)限管理。

（2）異構(gòu)數(shù)據(jù)源聯(lián)邦分析

多源數(shù)據(jù)分析免搬遷：關(guān)系型數(shù)據(jù)庫(kù)RDS中存放車輛和車主基本信息，表格存儲(chǔ)CloudTable中存放實(shí)時(shí)的車輛位置和健康狀態(tài)信息，數(shù)據(jù)倉(cāng)庫(kù)DWS中存放周期性統(tǒng)計(jì)的指標(biāo)。通過DLI無需數(shù)據(jù)搬遷，對(duì)多數(shù)據(jù)源進(jìn)行聯(lián)邦分析。
數(shù)據(jù)分級(jí)存儲(chǔ)：車企需要保留全量歷史數(shù)據(jù)支撐審計(jì)類等業(yè)務(wù)，低頻進(jìn)行訪問。溫冷數(shù)據(jù)存放在低成本的對(duì)象存儲(chǔ)服務(wù)OBS上，高頻訪問的熱數(shù)據(jù)存放在數(shù)據(jù)引擎（CloudTable和DWS）中，降低整體存儲(chǔ)成本。
告警快速敏捷觸發(fā)服務(wù)器彈性伸縮：對(duì)CPU、內(nèi)存、硬盤空間和帶寬無特殊要求。

（3）海量日志分析

高效的Spark編程模型：使用Spark Streaming直接從DIS中獲取數(shù)據(jù)，進(jìn)行數(shù)據(jù)清理等預(yù)處理操作。只需編寫處理邏輯，無需關(guān)心多線程模型。
簡(jiǎn)單易用：直接使用標(biāo)準(zhǔn)SQL編寫指標(biāo)分析邏輯，無需關(guān)注背后復(fù)雜的分布式計(jì)算平臺(tái)。
按需計(jì)費(fèi)：日志分析按實(shí)效性要求按周期進(jìn)行調(diào)度，每次調(diào)度之間存在大量空閑期。DLI按需計(jì)費(fèi)只在使用期間收費(fèi)，成本較獨(dú)占隊(duì)列降低50%以上。

六.Dremio(產(chǎn)品定位有差異)6.1公司簡(jiǎn)介

Dremio由MapR的前員工：Tomer Shiran（CEO）和Jacques Nadeau（CTO）于2015年創(chuàng)立。融資總額為4500萬美元。其總部位于美國(guó)，2017年發(fā)布了v1.0產(chǎn)品，客戶包括帝亞吉?dú)W（Diageo）、微軟、瑞銀、Nutanix和皇家加勒比游輪公司。

6.2產(chǎn)品架構(gòu)

Dremio是一款DaaS（Data-as-a-Service）數(shù)據(jù)即服務(wù)平臺(tái)，可對(duì)接多類數(shù)據(jù)源來進(jìn)行BI分析，該產(chǎn)品直接使用數(shù)據(jù)湖的源數(shù)據(jù)進(jìn)行快速訪問以達(dá)到直接進(jìn)行數(shù)據(jù)分析而不經(jīng)過數(shù)據(jù)的清洗、處理、加工、建模等方式。數(shù)據(jù)湖的意思就是將不同存儲(chǔ)類型、不同種類的數(shù)據(jù)匯聚在一起，這個(gè)存儲(chǔ)集群統(tǒng)一對(duì)外就是一個(gè)數(shù)據(jù)湖了。而Dremio通過直接在云數(shù)據(jù)湖存儲(chǔ)中進(jìn)行實(shí)時(shí)的、交互式的查詢來釋放數(shù)據(jù)價(jià)值。

Dremio的技術(shù)特點(diǎn)：

快速的數(shù)據(jù)查詢

在Dremio中，查詢數(shù)據(jù)是直達(dá)數(shù)據(jù)湖存儲(chǔ)的，無論數(shù)據(jù)是存儲(chǔ)在S3、ADLS、Hadoop、MySQL、Mongodb等載體上。Dremio使用了包括不限于以下技術(shù)來加速每次的查詢：

- Data Reflections
- Columnar Cloud Cache (C3)
- Predictive Pipelining work alongside Apache Arrow
使用Predictive Pipelining和Columnar Cloud Cache（C3）技術(shù)加速數(shù)據(jù)讀取

Dremio的Predictive Pipelining技術(shù)使得來自數(shù)據(jù)源的數(shù)據(jù)只有在執(zhí)行引擎真正需要到時(shí)才會(huì)去拉取，這個(gè)做法能顯著降低引擎等待數(shù)據(jù)的時(shí)間成本。同樣地，C3技術(shù)則是會(huì)自動(dòng)地在數(shù)據(jù)存取時(shí)將數(shù)據(jù)緩存到本地的NVMe存儲(chǔ)載體，使得查詢?cè)L問數(shù)據(jù)湖中的數(shù)據(jù)能有NVMe存取速度級(jí)別的表現(xiàn)。

為云而建造的現(xiàn)代化執(zhí)行引擎

Dremio的執(zhí)行引擎是建立在Apache Arrow及其生態(tài)技術(shù)上的，一個(gè)Dremio集群能夠根據(jù)存儲(chǔ)數(shù)據(jù)的體量規(guī)模彈性伸縮。

Data Reflections - 能夠更高效查詢速度的開關(guān)

通過在Dremio提供的客戶端頁(yè)面的幾下點(diǎn)擊，就能夠創(chuàng)建反射，反射是一種物理層面上對(duì)數(shù)據(jù)結(jié)構(gòu)的優(yōu)化，能夠加速各種查詢模式，根據(jù)你的需要可以創(chuàng)建任意數(shù)量的反射，Dremio會(huì)隱形并自動(dòng)地在查詢計(jì)劃中合并反射，并保證查詢到最新數(shù)據(jù)。

Arrow Flight - 以1000x的倍速移動(dòng)數(shù)據(jù)

AF被設(shè)計(jì)出來是用于取代處理小規(guī)模數(shù)據(jù)的ODBC和JDBC協(xié)議，AF在高速、分布式傳輸協(xié)議的基礎(chǔ)上，為Dremio和應(yīng)用的數(shù)據(jù)傳輸提供了1000x倍速度提升的吞吐。

自助式服務(wù)語義層

Dremio提供了一個(gè)應(yīng)用安全和商業(yè)意義的抽象層，以支持用戶能夠探索數(shù)據(jù)，以及派生出新的虛擬數(shù)據(jù)集。

可自定義化的語義抽象層

Dremio的語義層是一個(gè)能夠索引出所有用戶元數(shù)據(jù)的集成化、可搜索的目錄。在此語義層上，虛擬數(shù)據(jù)集以及空間構(gòu)成了語義層，并且都是能夠倍索引和搜索的。

高效的數(shù)據(jù)上下文管理

通過虛擬上下文的管理，Dremio讓可以使得篩選、轉(zhuǎn)換、聯(lián)表、聚合一個(gè)或多個(gè)數(shù)據(jù)源的數(shù)據(jù)變得快速，容易并且成本低。另外，Dremio的虛擬數(shù)據(jù)集是通過標(biāo)準(zhǔn)SQL定義的，如此我們使用起來舊不需要再另外學(xué)習(xí)一套查詢語法了。

直接應(yīng)用在BI或數(shù)據(jù)科學(xué)工具上

Dremio其實(shí)就如同關(guān)系型數(shù)據(jù)庫(kù)一樣，并且Dremio可以暴露ODBC、JDBC、REST以及Arrow Flight協(xié)議的接口，這樣我們就可以在一些BI應(yīng)用上連接Dremio獲取數(shù)據(jù)。

細(xì)粒度的訪問權(quán)限控制

Dremio提供行級(jí)和列級(jí)的權(quán)限控制，可以讓我們基于敏感數(shù)據(jù)、基于角色來控制對(duì)數(shù)據(jù)的訪問權(quán)限。

數(shù)據(jù)血緣

Dremio的data graph管理著數(shù)據(jù)源、虛擬數(shù)據(jù)集以及查詢語句之間的關(guān)系，我們可以通過data graph獲知到當(dāng)前查詢的數(shù)據(jù)集的來源。

七.Databricks7.1公司概況

1、Databricks 于 2013 年在舊金山成立，是大型數(shù)據(jù)分析工具的最大供應(yīng)商之一，由美國(guó)伯克利大學(xué)AMP實(shí)驗(yàn)室的開源處理引擎系統(tǒng)Apache Spark的多位創(chuàng)始人聯(lián)合創(chuàng)立，專注于大數(shù)據(jù)和AI人工智能，致力于提供基于Spark的云服務(wù)及開放統(tǒng)一的數(shù)據(jù)平臺(tái)。

2、Databricks開創(chuàng)了云計(jì)算領(lǐng)域的“Lakehouse”結(jié)構(gòu)概念，這一術(shù)語是由“Data Lakes”與“Data Warehouses”合成而成。目前Databricks提供四種產(chǎn)品：Spark、Delta Lake、MLflow（開發(fā)和維護(hù) AI 生命周期管理平臺(tái)）和Koalas（數(shù)據(jù)分析工具）。

3、公司定位：

Databricksis the Data + AI company，為客戶提供數(shù)據(jù)分析、數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和人工智能方面的服務(wù)，一體化的 Lakehouse 架構(gòu)
開源版本 VS 商業(yè)版本：公司絕大部分技術(shù)研發(fā)資源投入在商業(yè)化產(chǎn)品
多云策略，與頂級(jí)云服務(wù)商合作，提供數(shù)據(jù)開發(fā)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等產(chǎn)品，Data+AI 一體化分析平臺(tái)

4、市場(chǎng)地位

Databricks的全球客戶數(shù)量達(dá)5000多家，且全球有超過40%的財(cái)富500強(qiáng)企業(yè)都在使用Databricks的云平臺(tái)。
2021年8月20日，H輪，15億美元，估值380億美元。

7.2不同產(chǎn)品介紹

7.2.1Delta Lake

Delta Lake 是一個(gè)統(tǒng)一的數(shù)據(jù)管理系統(tǒng)，為云上數(shù)據(jù)湖帶來數(shù)據(jù)可靠性和快速分析。Delta Lake 運(yùn)行在現(xiàn)有數(shù)據(jù)湖之上，并且與 Apache Spark 的 API 完全兼容。使用Delta Lake，您可以加快高質(zhì)量數(shù)據(jù)導(dǎo)入數(shù)據(jù)湖的速度，團(tuán)隊(duì)也可以在云服務(wù)上快速使用這些數(shù)據(jù)，安全且可擴(kuò)展。

ACID 事務(wù)性：Delta Lake 在多個(gè)寫操作之間提供 ACID 事務(wù)性。每一次寫操作都是一個(gè)事務(wù)操作，事務(wù)日志（Transaction Log）中記錄的寫操作都有一個(gè)順序序列。事務(wù)日志（Transaction Log）跟蹤了文件級(jí)別的寫操作，并使用了樂觀鎖進(jìn)行并發(fā)控制，這非常適用于數(shù)據(jù)湖，因?yàn)閲L試修改相同文件的多次寫操作的情況并不經(jīng)常發(fā)生。當(dāng)發(fā)生沖突時(shí)，Delta Lake 會(huì)拋出一個(gè)并發(fā)修改異常，拋給供用戶處理并重試其作業(yè)。Delta Lake 還提供了最高級(jí)別的隔離（可序列化隔離），允許工程師不斷地向目錄或表寫入數(shù)據(jù)，而使用者不斷地從同一目錄或表讀取數(shù)據(jù)，讀取數(shù)據(jù)時(shí)會(huì)看到數(shù)據(jù)的最新快照。
Schema 管理（Schema management）：Delta Lake 會(huì)自動(dòng)驗(yàn)證正在寫入的DataFrame 的 Schema 是否與表的 Schema 兼容。若表中存在但 DataFrame 中不存在的列則會(huì)被設(shè)置為 null。如果 DataFrame 中有額外的列不在表中，那么該操作將會(huì)拋出異常。Delta Lake 具有 DDL（數(shù)據(jù)定義語言）顯式添加新列的功能，并且能夠自動(dòng)更新 Schema。
可伸縮的元數(shù)據(jù)（Metadata）處理：Delta Lake 將表或目錄的元數(shù)據(jù)信息存儲(chǔ)在事務(wù)日志（Transaction Log）中，而不是元數(shù)據(jù) Metastore 中。這使得 Delta Lake夠在固定時(shí)間內(nèi)列出大目錄中的文件，并且在讀取數(shù)據(jù)時(shí)效率很高。
數(shù)據(jù)版本控制和時(shí)間旅行（Time Travel）：Delta Lake 允許用戶讀取表或目錄的歷史版本快照。當(dāng)文件在寫入過程中被修改時(shí)，Delta Lake 會(huì)創(chuàng)建文件的新的版本并保留舊版本。當(dāng)用戶想要讀取表或目錄的較舊版本時(shí)，他們可以向 Apach Spark的 read API 提供時(shí)間戳或版本號(hào)，Delta Lake 根據(jù)事務(wù)日志（Transaction Log）中的信息來構(gòu)建該時(shí)間戳或版本的完整快照。這非常方便用戶來復(fù)現(xiàn)實(shí)驗(yàn)和報(bào)告，如果需要，還可以將表還原為舊版本。
統(tǒng)一批流一體：除了批處理寫入之外，Delta Lake 還可以作為 Apache Spark 的結(jié)構(gòu)化流的高效流接收器（Streaming Sink）。與 ACID 事務(wù)和可伸縮元數(shù)據(jù)處理相結(jié)合，高效的流接收器（Streaming Sink）支持大量近實(shí)時(shí)的分析用例，而無需維護(hù)復(fù)雜的流和批處理管道。
記錄更新和刪除：Delta Lake 將支持合并、更新和刪除的 DML（數(shù)據(jù)管理語言）命令。這使得工程師可以輕松地在數(shù)據(jù)湖中插入和刪除記錄，并簡(jiǎn)化他們的變更數(shù)據(jù)捕獲和 GDPR（一般數(shù)據(jù)保護(hù)條例）用例。由于 Delta Lake 在文件級(jí)粒度上進(jìn)行跟蹤和修改數(shù)據(jù)，因此它比讀取和覆蓋整個(gè)分區(qū)或表要高效得多。

7.2.2產(chǎn)品架構(gòu)

1、Databricks 產(chǎn)品支持執(zhí)行 Spark、Python、Scala、JAVA 和 R 等語言，甚至支持 SQL，適用于不同類型的用戶。

2、強(qiáng)大的數(shù)據(jù)版本控制：Databricks 原生支持 DELTA 格式。Delta Lake 是完全兼容 ACID 的，這就解決了 Spark 的不兼容 ACID 這一主要問題。

7.2.3湖倉(cāng)一體

事物支持：Lakehouse 在企業(yè)級(jí)應(yīng)用中，許多數(shù)據(jù)管道通常會(huì)同時(shí)讀取和寫入數(shù)據(jù)。通常多方同時(shí)使用 SQL 讀取或?qū)懭霐?shù)據(jù)，Lakehouse 保證支持ACID事務(wù)的一致性。
模式實(shí)施和治理：Lakehouse 應(yīng)該有一種支持模式實(shí)施和演變的方法，支持 DW 模式規(guī)范，例如 star /snowflake-schemas。該系統(tǒng)應(yīng)該能夠推理數(shù)據(jù)完整性，并且應(yīng)該具有健壯的治理和審核機(jī)制。
BI支持：Lakehouse 可以直接在源數(shù)據(jù)上使用BI工具。這樣可以減少陳舊度和等待時(shí)間，提高新近度，并且降低必須在數(shù)據(jù)湖和倉(cāng)庫(kù)中操作兩個(gè)數(shù)據(jù)副本的成本。
存儲(chǔ)與計(jì)算分離：事實(shí)上，這意味著存儲(chǔ)和計(jì)算使用單獨(dú)的群集，因此這些系統(tǒng)能夠擴(kuò)展到更多并發(fā)用戶和更大數(shù)據(jù)量。一些現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)也具有這種屬性。
兼容性：Lakehouse 使用的存儲(chǔ)格式是開放式和標(biāo)準(zhǔn)化的，例如 Parquet，并且它提供了多種 API，包括機(jī)器學(xué)習(xí)和 Python/R 庫(kù)，因此各種工具和引擎都可以直接有效地訪問數(shù)據(jù)。
支持從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的多種數(shù)據(jù)類型：Lakehouse 可用于存儲(chǔ)，優(yōu)化，分析和訪問許多新數(shù)據(jù)應(yīng)用程序所需的數(shù)據(jù)類型，包括圖像，視頻，音頻，半結(jié)構(gòu)化數(shù)據(jù)和文本。
支持各種工作場(chǎng)景：包括數(shù)據(jù)科學(xué)，機(jī)器學(xué)習(xí)和 SQL 分析。這些可能依賴于多種工具來支持的工作場(chǎng)景，它們都依賴于相同的數(shù)據(jù)存儲(chǔ)庫(kù)。
端到端流式任務(wù)：實(shí)時(shí)報(bào)告是許多企業(yè)的日常需要。對(duì)流處理的支持消除了對(duì)專門服務(wù)于實(shí)時(shí)數(shù)據(jù)應(yīng)用程序的單獨(dú)系統(tǒng)的需求。

八、confluent調(diào)研8.1公司概況

1、團(tuán)隊(duì)背景

（1）LinkedIn開發(fā)Apache Kafka實(shí)時(shí)信息列隊(duì)技術(shù)的程序員，創(chuàng)立confluent，核心是利用Apache Kafka。

三個(gè)創(chuàng)始人：Jay Kreps（美國(guó)加州人）和清華畢業(yè)的饒軍（Jun Rao）及來自印度的女生納赫（Neha Narkhede）。

2、融資情況

2021-6-25美股上市，市值143.64億美元。

3、商業(yè)化產(chǎn)品

商業(yè)化產(chǎn)品有3大類：

主營(yíng)產(chǎn)品：Confluent Platform，Confluent Cloud
支撐產(chǎn)品：無法單獨(dú)購(gòu)買，主要用來給樓上引流，例如應(yīng)用市場(chǎng)中的各種插件
咨詢服務(wù)類：例如專家服務(wù)，培訓(xùn)等

4、不同實(shí)時(shí)計(jì)算工具的對(duì)比

Spark 做批處理、Flink 做流處理、Clickhouse 做交互分析，這是最簡(jiǎn)單的一套。再?gòu)?fù)雜一點(diǎn)，可能還要部署 HBase 做 KV 查詢，用 ElasticSearch 做文本檢索。

產(chǎn)品

Spark streaming

不是特別適合于做秒級(jí)甚至亞秒級(jí)的計(jì)算

Kafka streaming

很難滿足我們對(duì)大體量的復(fù)雜計(jì)算的需求

Storm

沒有批處理能力

Flink

批流結(jié)合

8.2產(chǎn)品架構(gòu)

Confluent是用來管理和組織不同數(shù)據(jù)源的流媒體平臺(tái)，可以實(shí)時(shí)地把不同源和位置的數(shù)據(jù)集成到一個(gè)中心的事件流平臺(tái)。而且還強(qiáng)調(diào)了這個(gè)平臺(tái)很可靠、性能很高，總之就是很好用，很強(qiáng)大。Confluent目前提供了社區(qū)版和商業(yè)版兩個(gè)版本，社區(qū)版永久免費(fèi)，商業(yè)版面向企業(yè)收費(fèi)。

社區(qū)版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基礎(chǔ)服務(wù)。
商業(yè)版為企業(yè)提供了控制面板、負(fù)載均衡，跨中心數(shù)據(jù)備份、安全防護(hù)等高級(jí)特性。

（1）Confluent Control Center（控制中心），讓我們很容易地管理kafka的連接，創(chuàng)建，編輯，和管理與其他系統(tǒng)的連接。我們可以從producer到consumer監(jiān)控data streams，保證我們的每一條消息都被傳遞，還能測(cè)量出消息的傳輸耗時(shí)多久。使用confluent control center能讓開發(fā)人員不寫一句代碼，也能構(gòu)建基于kafka的數(shù)據(jù)生產(chǎn)管道。

（2）Confluent Replicator（數(shù)據(jù)復(fù)制與遷移），Confluent Platform使我們可以比以往更輕松地在多個(gè)數(shù)據(jù)中心內(nèi)維護(hù)多個(gè)Kafka群集。管理數(shù)據(jù)中心之間的數(shù)據(jù)復(fù)制和topic配置，比方說：ative-active地理定位部署：允許用戶訪問最近（附近）的數(shù)據(jù)中心，以優(yōu)化其架構(gòu)，實(shí)現(xiàn)低延遲和高性能

集中分析：將來自多個(gè)Kafka集群的數(shù)據(jù)聚合到一個(gè)地方，以進(jìn)行組織范圍的分析
云遷移：可以使用kafka完成本地應(yīng)用與云之間的數(shù)據(jù)遷移

我們可以利用Confluent Replicator從Confluent Control Center或CLI工具配置管理所有這些方案的復(fù)制。

（3）Confluent Auto Data Balancer（解決負(fù)載均衡），隨著集群的增長(zhǎng)，topic和partition以不同的速度增長(zhǎng)，隨著時(shí)間的推移，添加和刪除會(huì)導(dǎo)致跨數(shù)據(jù)中心資源的工作負(fù)載不平衡。有一些brokers是空閑的（數(shù)據(jù)傾斜），而其他brokers則對(duì)大量或多個(gè)partitions負(fù)載，從而減慢了消息傳遞的速度。當(dāng)執(zhí)行時(shí)，Confluent Auto Data Balancer會(huì)監(jiān)控您的群集中的broker數(shù)量，partition大小，partition數(shù)量以及群集中的broker數(shù)量。它允許我們轉(zhuǎn)移數(shù)據(jù)以在整個(gè)群集中創(chuàng)建均勻的工作負(fù)載，同時(shí)限制重新平衡流量，以最大限度地減少重新平衡時(shí)對(duì)生產(chǎn)工作負(fù)載的影響。

（4）Confluent JMS Client，Confluent Platform包含適用于Kafka的JMS兼容客戶端。通過用Kafka替換舊的JMS消息代理，現(xiàn)有的應(yīng)用程序可以與我們的現(xiàn)代流式平臺(tái)集成，而無需重新編寫應(yīng)用程序。

（5）Confluent Security Plugins，目前，有一個(gè)可用于Confluent REST Proxy的插件，它有助于驗(yàn)證傳入的請(qǐng)求并將經(jīng)過身份驗(yàn)證傳到kafka請(qǐng)求。

Kafka Brokers(開源）。構(gòu)成Kafka的消息，數(shù)據(jù)持久性和存儲(chǔ)層。

Kafka Java Clients(開源)。Java 庫(kù)，寫消息到kafka 或者從kafka 讀消息。

Kafka Streams（開源）。Kafka Streams是一個(gè)庫(kù)使kafka轉(zhuǎn)換成功能齊全的流處理系統(tǒng)。

Kafka Connect（開源）。一種可擴(kuò)展的和可靠的連接Kafka框架與外部系統(tǒng)（如數(shù)據(jù)庫(kù)，鍵值存儲(chǔ)，搜索索引和文件系統(tǒng)）的框架。

除了Kafka以外， Confluent Platform 包括更多的工具和服務(wù)，使構(gòu)建和管理數(shù)據(jù)流平臺(tái)更加容易。

Confluent Control Center（閉源）。管理和監(jiān)控Kafka最全面的GUI驅(qū)動(dòng)系統(tǒng)。

Confluent Kafka Connectors（開源）。連接SQL數(shù)據(jù)庫(kù)/Hadoop/Hive

Confluent Kafka Clients（開源）。對(duì)于其他編程語言，包括C/C++,Python

Confluent Kafka REST Proxy（開源）。允許一些系統(tǒng)通過HTTP和kafka之間發(fā)送和接收消息。

Confluent Schema Registry（開源）。幫助確定每一個(gè)應(yīng)用使用正確的schema當(dāng)寫數(shù)據(jù)或者讀數(shù)據(jù)到kafka中。

總的來說，Confluent Platform平臺(tái)的組件給你的團(tuán)隊(duì)朝著建立統(tǒng)一而靈活的方式建立一個(gè)企業(yè)范圍的數(shù)據(jù)流平臺(tái)。

分享到：

標(biāo)簽：數(shù)據(jù)倉(cāng)庫(kù)

網(wǎng)友整理

注冊(cè)時(shí)間：

網(wǎng)站：5 個(gè) 小程序：0 個(gè) 文章：12 篇

51998
網(wǎng)站
12
小程序
1030137
文章
747
會(huì)員

趕快注冊(cè)賬號(hào)，推廣您的網(wǎng)站吧！

文章分類

熱門網(wǎng)站

各百科-專業(yè)百科問答知識(shí)名網(wǎng)站 m.geelcn.com
免費(fèi)軟件,綠色軟件園,手機(jī)軟件下載,熱門游戲下載中心-中當(dāng)網(wǎng) m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國(guó)際體育資訊_全球體育賽事-中名網(wǎng) www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網(wǎng) www.feelcn.com/shenghuo/shipinanquan/
中合網(wǎng) www.heelcn.com
中當(dāng)網(wǎng) www.deelcn.com
魔扣網(wǎng)站維護(hù)代運(yùn)營(yíng) www.ylptlb.cn/tg
中合網(wǎng)-健康養(yǎng)生知識(shí)科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫(kù)，初中，高中，大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定

熱門文章