日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

一、基本概念1.1數(shù)倉(cāng)發(fā)展歷史


 


 

數(shù)據(jù)湖是以集中方式存儲(chǔ)各種類型數(shù)據(jù),提供彈性的 容量和吞吐能力,能夠覆蓋廣泛的數(shù)據(jù)源,支持多種計(jì)算與處理分析引擎直接對(duì)數(shù)據(jù)進(jìn)行訪問的統(tǒng)一存儲(chǔ)平臺(tái)。它 能夠?qū)崿F(xiàn)數(shù)據(jù)分析、機(jī)器學(xué)習(xí),數(shù)據(jù)訪問和管理等細(xì)粒度的授權(quán)、審計(jì)等功能。

數(shù)據(jù)湖對(duì)存取的數(shù)據(jù)沒有格式類型的限制,數(shù)據(jù)產(chǎn)生后,可以按照數(shù)據(jù)的原始內(nèi)容和屬性,直接存儲(chǔ)到數(shù)據(jù)湖, 無需在數(shù)據(jù)上傳之前對(duì)數(shù)據(jù)進(jìn)行任何的結(jié)構(gòu)化處理。數(shù)據(jù)湖可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫(kù)中的表),半結(jié) 構(gòu)化數(shù)據(jù)(如 CSV、JSON 、XML、日志等),非結(jié)構(gòu)化數(shù)據(jù)(如電子郵件、文檔、PDF 等)以及二進(jìn)制數(shù)據(jù) (如圖形、音頻、視頻等)

1.2數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)、湖倉(cāng)一體發(fā)展歷程


 

(1)數(shù)據(jù)倉(cāng)庫(kù),適合結(jié)構(gòu)化數(shù)據(jù),但不適合非結(jié)構(gòu)化數(shù)據(jù)。

(2)數(shù)據(jù)湖:支持多種格式存儲(chǔ)數(shù)據(jù)庫(kù)。但不支持事務(wù)處理、不保證數(shù)據(jù)質(zhì)量in過去缺乏一致性/隔離性,無法實(shí)現(xiàn)混合追加和讀取數(shù)據(jù),以及完成批處理和流式作業(yè)。

(3)lakehouse:直接在用于數(shù)據(jù)湖的低成本存儲(chǔ)上實(shí)現(xiàn)與數(shù)據(jù)倉(cāng)庫(kù)中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。

1.3數(shù)據(jù)湖

1.3.1數(shù)據(jù)湖特征

 

  • 保真性,有一份業(yè)務(wù)原始數(shù)據(jù),對(duì)業(yè)務(wù)數(shù)據(jù)一模一樣完整拷貝。
  • 靈活性,讀取型Schema,數(shù)據(jù)邏輯處理延后
  • 可管理,數(shù)據(jù)管理能力,包括數(shù)據(jù)源、數(shù)據(jù)連接、數(shù)據(jù)格式、數(shù)據(jù)schema(庫(kù)/表/列/行),權(quán)限等。
  • 可追溯,數(shù)據(jù)生命周期管理,定義、接入、存儲(chǔ)、處理、分析、應(yīng)用全過程,可清楚重現(xiàn)數(shù)據(jù)完整產(chǎn)生過程和流動(dòng)過程。
  • 豐富計(jì)算引擎,批處理+流式技術(shù)+交互式分析+機(jī)器學(xué)習(xí)。
  • 多模態(tài)的存儲(chǔ)引擎

 

1.3.2數(shù)據(jù)湖架構(gòu)


 


 

通用數(shù)據(jù)湖架構(gòu)


 

1.3.3云原生數(shù)據(jù)湖的特征


 

1.4數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)對(duì)比


 

首先,數(shù)據(jù)捕獲時(shí)未定義架構(gòu)。數(shù)據(jù)湖在功能上可以實(shí)現(xiàn)各種類型數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)湖中的數(shù)據(jù)可以是非結(jié)構(gòu) 化的、未處理的形態(tài),數(shù)據(jù)可以在確定需要使用時(shí)才會(huì)對(duì)數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理與轉(zhuǎn)換;而數(shù)據(jù)倉(cāng)庫(kù)則通常存放的是經(jīng) 過處理的、結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)存儲(chǔ)的 Schema 在數(shù)據(jù)存儲(chǔ)之前就需要被定義好。

其次,存儲(chǔ)到數(shù)據(jù)湖中的數(shù)據(jù)通常會(huì)按照原始形態(tài)直接存儲(chǔ),隨著業(yè)務(wù)和使用場(chǎng)景的發(fā)展,會(huì)使用不同的計(jì)算 存儲(chǔ)的數(shù)據(jù)進(jìn)行分析與處理,數(shù)據(jù)湖中的數(shù)據(jù)在一個(gè)企業(yè)組織中通常會(huì)被多個(gè)不同應(yīng)用、系統(tǒng)和部門使覆蓋的場(chǎng)景廣泛并且范圍也會(huì)動(dòng)態(tài)延展,因此需要提供更多的靈活性以適應(yīng)快速變化的應(yīng)用場(chǎng)景;數(shù)據(jù)通常使用場(chǎng)景是在數(shù)據(jù)收集期間就已經(jīng)明確,數(shù)據(jù)倉(cāng)庫(kù)通常集中在 BI、業(yè)務(wù)、運(yùn)營(yíng)等商業(yè)決策相關(guān)場(chǎng) 倉(cāng)庫(kù)也可以把已經(jīng)存在的數(shù)據(jù)轉(zhuǎn)換到新場(chǎng)景,但在靈活性方面不如數(shù)據(jù)湖,需要有更多的數(shù)據(jù)轉(zhuǎn)換時(shí)間 投入。


 

1.5批處理和流式處理區(qū)別:

(1)數(shù)據(jù)范圍:批處理對(duì)數(shù)據(jù)集中的所有或大部分?jǐn)?shù)據(jù)進(jìn)行查詢或處理。流處理對(duì)滾動(dòng)時(shí)間窗口內(nèi)的數(shù)據(jù)或僅對(duì)最近的數(shù)據(jù)記錄進(jìn)行查詢或處理。

(2)數(shù)據(jù)大小 ,批處理針對(duì)的是大批量數(shù)據(jù)(如GB或者PB級(jí)別)。流處理針對(duì)的是單條記錄或包含幾條記錄的微批數(shù)據(jù)(如KB或者M(jìn)B)。

(3)性能 ,批處理所需的時(shí)間一般是幾分鐘至幾小時(shí)的延遲。流處理所需的時(shí)間幾毫秒至幾秒的延遲。

(4)場(chǎng)景 ,批處理使用的場(chǎng)景分析起來很復(fù)雜。流處理只需要簡(jiǎn)單的響應(yīng)調(diào)用,聚合和滾動(dòng)指標(biāo)。


 

二、阿里大數(shù)據(jù)治理平臺(tái)2.1產(chǎn)品架構(gòu)

DataWorks(大數(shù)據(jù)開發(fā)治理平臺(tái))是阿里云重要的PaaS(Platform-as-a-Service)平臺(tái)產(chǎn)品,為您提供數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù),一站式開發(fā)管理的界面,幫助企業(yè)專注于數(shù)據(jù)價(jià)值的挖掘和探索。

DataWorks支持多種計(jì)算和存儲(chǔ)引擎服務(wù),包括離線計(jì)算MaxCompute、開源大數(shù)據(jù)引擎E-MapReduce、實(shí)時(shí)計(jì)算(基于Flink)、機(jī)器學(xué)習(xí)PAI、云原生數(shù)據(jù)倉(cāng)庫(kù) AnalyticDB for PostgreSQL,云原生數(shù)據(jù)倉(cāng)庫(kù)AnalyticDB for MySQL,并且支持用戶自定義接入計(jì)算和存儲(chǔ)服務(wù)。DataWorks為您提供全鏈路智能大數(shù)據(jù)及AI開發(fā)和治理服務(wù)。


 

 

  • 全面托管的調(diào)度
    • DataWorks提供強(qiáng)大的調(diào)度功能,詳情請(qǐng)參見調(diào)度配置。
      • 支持根據(jù)時(shí)間、依賴關(guān)系,進(jìn)行任務(wù)觸發(fā)的機(jī)制。詳情請(qǐng)參見時(shí)間屬性配置說明和配置同周期調(diào)度依賴。
      • 支持每日千萬級(jí)別大規(guī)模周期性任務(wù)調(diào)度,其將根據(jù)DAG關(guān)系準(zhǔn)確、準(zhǔn)時(shí)地運(yùn)行。
      • 支持分鐘、小時(shí)、天、周、月、年多種調(diào)度周期配置。

 

 

    • 完全托管的服務(wù),無需關(guān)心調(diào)度的服務(wù)器資源問題。
    • 提供隔離功能,確保不同租戶之間的任務(wù)不會(huì)相互影響。
  • DataWorks提供豐富的節(jié)點(diǎn)類型,詳情可參考:選擇數(shù)據(jù)開發(fā)節(jié)點(diǎn)。全面的引擎能力封裝,讓您無需接觸復(fù)雜的引擎命令行。并提供自定義節(jié)點(diǎn)插件化機(jī)制,支持您擴(kuò)展計(jì)算任務(wù)類型,自主接入自定義計(jì)算服務(wù),同時(shí),支持您結(jié)合DataWorks其他節(jié)點(diǎn)進(jìn)行復(fù)雜數(shù)據(jù)處理。
    • 數(shù)據(jù)集成:依托DataWorks中數(shù)據(jù)集成的強(qiáng)力支撐,支持超過20種數(shù)據(jù)源,為您提供穩(wěn)定高效的數(shù)據(jù)傳輸功能。詳情請(qǐng)參見數(shù)據(jù)集成。
    • 數(shù)據(jù)轉(zhuǎn)化:
      • 依托引擎強(qiáng)大的能力,保證了大數(shù)據(jù)的分析處理性能。例如:創(chuàng)建ODPS SQL節(jié)點(diǎn)、ODPS spark、EMR Hive、EMR MR等節(jié)點(diǎn)。
      • 提供通用類型節(jié)點(diǎn),,結(jié)合引擎節(jié)點(diǎn)可實(shí)現(xiàn)復(fù)雜數(shù)據(jù)分析處理過程。例如:賦值節(jié)點(diǎn)、do-while、for-each等節(jié)點(diǎn)。
      • 支持自定義節(jié)點(diǎn),通過自定義計(jì)算服務(wù)進(jìn)行數(shù)據(jù)開發(fā)。關(guān)于自定義節(jié)點(diǎn)配置詳情,可參考文檔:概述。
  • 可視化開發(fā)DataWorks提供可視化的代碼開發(fā)、工作流設(shè)計(jì)器頁(yè)面,無需搭配任何開發(fā)工具,簡(jiǎn)單拖拽和開發(fā),即可完成復(fù)雜的數(shù)據(jù)分析任務(wù)。詳情請(qǐng)參見界面功能點(diǎn)介紹。只要有瀏覽器有網(wǎng)絡(luò),您即可隨時(shí)隨地進(jìn)行開發(fā)工作。
  • 監(jiān)控告警運(yùn)維中心提供可視化的任務(wù)監(jiān)控管理工具,支持以DAG圖的形式展示任務(wù)運(yùn)行時(shí)的全局情況,詳情請(qǐng)參見運(yùn)維中心。您可以方便地配置各類報(bào)警方式,任務(wù)發(fā)生錯(cuò)誤可及時(shí)通知相關(guān)人員,保證業(yè)務(wù)正常運(yùn)行。詳情請(qǐng)參見智能監(jiān)控。
2.2功能介紹

 

2.2.1數(shù)據(jù)集成

數(shù)據(jù)集成有兩個(gè)定位,第一是數(shù)據(jù)中臺(tái)對(duì)接外界核心樞紐,即對(duì)接云上系統(tǒng)之間數(shù)據(jù)流轉(zhuǎn)的打通;第二是跨云跨網(wǎng)一站式數(shù)據(jù)傳輸,即在數(shù)據(jù)集成中,所有數(shù)據(jù)的進(jìn)出都可以提供一站式的解決方案。


 


 


 

批量配置數(shù)據(jù)源和批量配置同步任務(wù)。

向?qū)J胶湍_本模式,向?qū)J脚渲脭?shù)據(jù)源后,參數(shù)自動(dòng)生成。

過程:選擇數(shù)據(jù)源-添加同步任務(wù)。

規(guī)則類型,8種,例如,目標(biāo)表前綴;新增字段、字段賦值;目標(biāo)表子端替換;


 

同步任務(wù)運(yùn)行方式:測(cè)試運(yùn)行、補(bǔ)數(shù)據(jù)運(yùn)行和周期運(yùn)行。

同步速度調(diào)優(yōu):任務(wù)切分(切分鍵、作業(yè)并發(fā)數(shù))、資源占用;

 

  • 切分鍵,切分源端數(shù)據(jù);并發(fā)數(shù)小于DMU兩倍。
    • 資源單位DMU,為完成同步需要占用的CPU、內(nèi)存、網(wǎng)絡(luò)資源
    • 任務(wù)DMU<=5,并發(fā)資源數(shù)<=10
  • 自定義資源組,獨(dú)占資源,利用專線+獨(dú)占資源=提高速度

 

2.2.2數(shù)據(jù)建模


 

DataWorks 數(shù)據(jù)建模同時(shí)支持關(guān)系(ER、3NF)建模和維度建模(星型,雪花)。不同類型的模型沒有最好,只有更適合。用戶應(yīng)該從企業(yè)的實(shí)際場(chǎng)景出發(fā)選擇建模方式。根據(jù)經(jīng)驗(yàn)總結(jié),大多數(shù)企業(yè)都會(huì)同時(shí)存在以上兩種建模方式,底層模型用關(guān)系建模,力求做到數(shù)據(jù)精簡(jiǎn),往上維度建模就更適合,靠數(shù)據(jù)冗余帶來可用性、分析性和可操作性。


 


 

2.2.3數(shù)據(jù)開發(fā)-降本增效利器

DataWorks數(shù)據(jù)開發(fā)(DataStudio、StreamStudio、HoloStudio)面向各引擎提供可視化開發(fā)的主界面,賦予用戶智能代碼開發(fā)、多引擎混編工作流、規(guī)范化任務(wù)發(fā)布的強(qiáng)大能力,讓用戶輕松構(gòu)建離線數(shù)倉(cāng)、實(shí)時(shí)數(shù)倉(cāng)與即席分析系統(tǒng)。支持引擎:MaxCompute、E-MapReduce、Flink、Hologres、AnalyticDB for PostgreSQL,滿足用戶不同的企業(yè)級(jí)業(yè)務(wù)場(chǎng)景。
大幅提升工作效率

 

  • 非技術(shù)人員1~2小時(shí)即可掌握完整的數(shù)據(jù)研發(fā)流程
  • 無需維護(hù)各類開源技術(shù)棧,釋放更多人力專注于業(yè)務(wù)

 

從容面對(duì)復(fù)雜場(chǎng)景

 

  • 支持順序、循環(huán)、分支、判斷等節(jié)點(diǎn)類型
  • 支持跨引擎、跨地域、跨周期的任務(wù)調(diào)度

 

提供更規(guī)范、科學(xué)的開發(fā)模式

 

  • 高效的多人協(xié)同任務(wù)開發(fā)模式
  • 規(guī)范且安全的任務(wù)發(fā)布上線流程

 


 

2.2.4數(shù)據(jù)治理


 

2.2.5數(shù)據(jù)服務(wù)


 

2.3應(yīng)用場(chǎng)景

  • 資源優(yōu)化:幫您節(jié)省計(jì)算、存儲(chǔ)費(fèi)用
  • 移動(dòng)運(yùn)維:輕松搞定任務(wù)運(yùn)維
  • 運(yùn)行診斷:為您快速定位疑難問題
  • 智能監(jiān)控:提高生產(chǎn)力,更加智慧的告警處理方式
  • 字段級(jí)數(shù)據(jù)血緣:快速定位臟數(shù)據(jù)源頭
  • 多種控制節(jié)點(diǎn):滿足復(fù)雜業(yè)務(wù)場(chǎng)景邏輯
  • 數(shù)據(jù)保護(hù)傘:進(jìn)行數(shù)據(jù)安全保障
  • 實(shí)時(shí)流計(jì)算開發(fā):極大降低新技術(shù)使用門檻
  •  
三、華為數(shù)據(jù)湖治理中心- DGC

 

https://support.huaweicloud.com/usermanual-dgc/dgc_01_0024.html

3.1產(chǎn)品架構(gòu)

華為云整個(gè)的數(shù)據(jù)湖解決方案,完整覆蓋了數(shù)據(jù)處理的生命周期,并且明確支持了數(shù)據(jù)治理,并提供了基于模型和指標(biāo)的數(shù)據(jù)治理流程工具,在華為云的數(shù)據(jù)湖解決方案中逐漸開始往“湖倉(cāng)一體化”方向演進(jìn)。


 

DGC基于數(shù)據(jù)湖底座,提供數(shù)據(jù)集成、開發(fā)、治理、開放等能力。DGC支持對(duì)接所有華為云的數(shù)據(jù)湖與數(shù)據(jù)庫(kù)云服務(wù)作為數(shù)據(jù)湖底座,例如數(shù)據(jù)湖探索(Data Lake Insight,簡(jiǎn)稱DLI)、MRS hive、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)DWS等,也支持對(duì)接企業(yè)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),例如Oracle、Greenplum等。DGC包含如下功能組件:

 

  • 管理中心,提供DGC數(shù)據(jù)連接管理的能力,將DGC與數(shù)據(jù)湖底座進(jìn)行對(duì)接,用于數(shù)據(jù)開發(fā)與數(shù)據(jù)治理等活動(dòng)。
  • 數(shù)據(jù)集成之批量數(shù)據(jù)遷移,批量數(shù)據(jù)遷移提供20+簡(jiǎn)單易用的遷移能力和多種數(shù)據(jù)源到數(shù)據(jù)湖的集成能力,全向?qū)脚渲煤凸芾?,支持單表、整?kù)、增量、周期性數(shù)據(jù)集成。
  • 數(shù)據(jù)集成之實(shí)時(shí)數(shù)據(jù)集成,實(shí)時(shí)數(shù)據(jù)接入為處理或分析流數(shù)據(jù)的自定義應(yīng)用程序構(gòu)建數(shù)據(jù)流管道,主要解決云服務(wù)外的數(shù)據(jù)實(shí)時(shí)傳輸?shù)皆品?wù)內(nèi)的問題。實(shí)時(shí)數(shù)據(jù)接入每小時(shí)可從數(shù)十萬種數(shù)據(jù)源(例如日志和定位日志事件、網(wǎng)站點(diǎn)擊流、社交媒體源等)中連續(xù)捕獲、傳送和存儲(chǔ)數(shù)TB數(shù)據(jù)。
  • 規(guī)范設(shè)計(jì),作為數(shù)據(jù)治理的一個(gè)核心模塊,承擔(dān)數(shù)據(jù)治理過程中的數(shù)據(jù)加工并業(yè)務(wù)化的功能,提供智能數(shù)據(jù)規(guī)劃、自定義主題數(shù)據(jù)模型、統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)、可視化數(shù)據(jù)建模、標(biāo)注數(shù)據(jù)標(biāo)簽等功能,有利于改善數(shù)據(jù)質(zhì)量,有效支撐經(jīng)營(yíng)決策。
  • 數(shù)據(jù)開發(fā),大數(shù)據(jù)開發(fā)環(huán)境,降低用戶使用大數(shù)據(jù)的門檻,幫助用戶快速構(gòu)建大數(shù)據(jù)處理中心。支持?jǐn)?shù)據(jù)建模、數(shù)據(jù)集成、腳本開發(fā)、工作流編排等操作,輕松完成整個(gè)數(shù)據(jù)的處理分析流程。
  • 數(shù)據(jù)質(zhì)量,數(shù)據(jù)全生命周期管控,數(shù)據(jù)處理全流程質(zhì)量監(jiān)控,異常事件實(shí)時(shí)通知。
  • 數(shù)據(jù)資產(chǎn),提供企業(yè)級(jí)的元數(shù)據(jù)管理,厘清信息資產(chǎn)。通過數(shù)據(jù)地圖,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的數(shù)據(jù)血緣和數(shù)據(jù)全景可視,提供數(shù)據(jù)智能搜索和運(yùn)營(yíng)監(jiān)控。
  • 數(shù)據(jù)服務(wù),數(shù)據(jù)服務(wù)定位于標(biāo)準(zhǔn)化的數(shù)據(jù)服務(wù)平臺(tái),提供一站式數(shù)據(jù)服務(wù)開發(fā)、測(cè)試部署能力,實(shí)現(xiàn)數(shù)據(jù)服務(wù)敏捷響應(yīng),降低數(shù)據(jù)獲取難度,提升數(shù)據(jù)消費(fèi)體驗(yàn)和效率,最終實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的變現(xiàn)。
  • 數(shù)據(jù)安全,數(shù)據(jù)安全為數(shù)據(jù)湖治理中心提供數(shù)據(jù)生命周期內(nèi)統(tǒng)一的數(shù)據(jù)使用保護(hù)能力。通過敏感數(shù)據(jù)識(shí)別、分級(jí)分類、隱私保護(hù)、資源權(quán)限控制、數(shù)據(jù)加密傳輸、加密存儲(chǔ)、數(shù)據(jù)風(fēng)險(xiǎn)識(shí)別以及合規(guī)審計(jì)等措施,幫助用戶建立安全預(yù)警機(jī)制,增強(qiáng)整體安全防護(hù)能力,讓數(shù)據(jù)可用不可得和安全合規(guī)。
3.2數(shù)據(jù)集成(批量數(shù)據(jù)遷移)

 

批量數(shù)據(jù)遷移基于分布式計(jì)算框架,利用并行化處理技術(shù),支持用戶穩(wěn)定高效地對(duì)海量數(shù)據(jù)進(jìn)行移動(dòng),實(shí)現(xiàn)不停服數(shù)據(jù)遷移,快速構(gòu)建所需的數(shù)據(jù)架構(gòu)。


 

 

  • 表/文件/整庫(kù)遷移支持批量遷移表或者文件,還支持同構(gòu)/異構(gòu)數(shù)據(jù)庫(kù)之間整庫(kù)遷移,一個(gè)作業(yè)即可遷移幾百?gòu)埍怼?/li>
  • 增量數(shù)據(jù)遷移支持文件增量遷移、關(guān)系型數(shù)據(jù)庫(kù)增量遷移、HBase/CloudTable增量遷移,以及使用Where條件配合時(shí)間變量函數(shù)實(shí)現(xiàn)增量數(shù)據(jù)遷移。
  • 事務(wù)模式遷移支持當(dāng)CDM作業(yè)執(zhí)行失敗時(shí),將數(shù)據(jù)回滾到作業(yè)開始之前的狀態(tài),自動(dòng)清理目的表中的數(shù)據(jù)。
  • 字段轉(zhuǎn)換支持去隱私、字符串操作、日期操作等常用字段的數(shù)據(jù)轉(zhuǎn)換功能。
  • 文件加密在遷移文件到文件系統(tǒng)時(shí),CDM支持對(duì)寫入云端的文件進(jìn)行加密。
  • MD5校驗(yàn)一致性支持使用MD5校驗(yàn),檢查端到端文件的一致性,并輸出校驗(yàn)結(jié)果。
  • 臟數(shù)據(jù)歸檔支持將遷移過程中處理失敗的、被清洗過濾掉的、不符合字段轉(zhuǎn)換或者不符合清洗規(guī)則的數(shù)據(jù)單獨(dú)歸檔到臟數(shù)據(jù)日志中,便于用戶查看。并支持設(shè)置臟數(shù)據(jù)比例閾值,來決定任務(wù)是否成功。
3.3數(shù)據(jù)開發(fā)

 

使用數(shù)據(jù)開發(fā)模塊,用戶可進(jìn)行數(shù)據(jù)管理、腳本開發(fā)、作業(yè)開發(fā)、作業(yè)調(diào)度、運(yùn)維監(jiān)控等操作,輕松完成整個(gè)數(shù)據(jù)的處理分析流程。


 

支持的功能

說明

數(shù)據(jù)管理

支持管理DWS、DLI、MRS Hive等多種數(shù)據(jù)倉(cāng)庫(kù)。支持可視化和DDL方式管理數(shù)據(jù)庫(kù)表。

腳本開發(fā)

提供在線腳本編輯器,支持多人協(xié)作進(jìn)行SQL、Shell、Python/ target=_blank class=infotextkey>Python腳本在線代碼開發(fā)和調(diào)測(cè)。支持使用變量和函數(shù)。

作業(yè)開發(fā)

提供圖形化設(shè)計(jì)器,支持拖拉拽方式快速構(gòu)建數(shù)據(jù)處理工作流。預(yù)設(shè)數(shù)據(jù)集成、SQL、Shell等多種任務(wù)類型,通過任務(wù)間依賴完成復(fù)雜數(shù)據(jù)分析處理。支持導(dǎo)入和導(dǎo)出作業(yè)。

資源管理

支持統(tǒng)一管理在腳本開發(fā)和作業(yè)開發(fā)使用到的file、jar、archive類型的資源。

作業(yè)調(diào)度

支持單次調(diào)度、周期調(diào)度和事件驅(qū)動(dòng)調(diào)度,周期調(diào)度支持分鐘、小時(shí)、天、周、月多種調(diào)度周期。

運(yùn)維監(jiān)控

支持對(duì)作業(yè)進(jìn)行運(yùn)行、暫停、恢復(fù)、終止等多種操作。支持查看作業(yè)和其內(nèi)各任務(wù)節(jié)點(diǎn)的運(yùn)行詳情。支持配置多種方式報(bào)警,作業(yè)和任務(wù)發(fā)生錯(cuò)誤時(shí)可及時(shí)通知相關(guān)人,保證業(yè)務(wù)正常運(yùn)行。

3.4總結(jié)

華為的數(shù)據(jù)湖解決方案比較完整,DLI承擔(dān)了所有的數(shù)據(jù)湖構(gòu)建、數(shù)據(jù)處理、數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用的核心功能。DLI最大的特色是在于分析引擎的完備性,包括基于SQL的交互式分析以及基于Spark+Flink的流批一體處理引擎。在核心存儲(chǔ)引擎上,DLI依然通過內(nèi)置的OBS來提供,和AWS S3的能力基本對(duì)標(biāo)。華為數(shù)據(jù)湖解決方案在上下游生態(tài)上做的比AWS相對(duì)完善,對(duì)于外部數(shù)據(jù)源,幾乎支持所有目前華為云上提供的數(shù)據(jù)源服務(wù)。

DLI可以與華為的CDM(云數(shù)據(jù)遷移服務(wù))和DIS(數(shù)據(jù)接入服務(wù))對(duì)接:1)借助DIS,DLI可以定義各類數(shù)據(jù)點(diǎn),這些點(diǎn)可以在Flink作業(yè)中被使用,做為source或者sink;2)借助CDM,DLI甚至能接入IDC、第三方云服務(wù)的數(shù)據(jù)。

為了更好的支持?jǐn)?shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、質(zhì)量管理等數(shù)據(jù)湖高級(jí)功能,華為云提供了DAYU平臺(tái)。DAYU平臺(tái)是華為數(shù)據(jù)湖治理運(yùn)營(yíng)方法論的落地實(shí)現(xiàn)。DAYU涵蓋了整個(gè)數(shù)據(jù)湖治理的核心流程,并對(duì)其提供了相應(yīng)的工具支持;甚至在華為的官方文檔中,給出了數(shù)據(jù)治理組織的構(gòu)建建議。DAYU的數(shù)據(jù)治理方法論的落地實(shí)現(xiàn)如圖11所示(來自華為云官網(wǎng))。

四、阿里云數(shù)據(jù)湖方案

對(duì)象存儲(chǔ) OSS 是基于阿里云自研的分布式存儲(chǔ)引擎——盤古搭建,提供體系化的數(shù)據(jù)采 力,支持結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)源。體系由數(shù)據(jù)湖對(duì)象存儲(chǔ) OSS、云原生數(shù)據(jù)湖分析 DLA、數(shù)據(jù)湖構(gòu)建 DLF、E-MapReduce、 Works 等產(chǎn)品強(qiáng)強(qiáng)組合,在存儲(chǔ)與計(jì)算分離架構(gòu)下,提供“湖存儲(chǔ)”、“湖加速”、“湖計(jì)算”的企業(yè)級(jí)數(shù)據(jù)湖解決方案。


 

 

  • 數(shù)據(jù)存儲(chǔ):OSS
  • 數(shù)據(jù)加工:數(shù)據(jù)湖構(gòu)建+E-mapreduce
    • 數(shù)據(jù)湖構(gòu)建(DLF),云原生數(shù)據(jù)湖架構(gòu)核心組成部分,幫助用戶簡(jiǎn)單快速構(gòu)建云原生數(shù)據(jù)湖解決方案,DLF提供湖上云數(shù)據(jù)統(tǒng)一管理、企業(yè)級(jí)權(quán)限控制,并無縫對(duì)接多種計(jì)算引擎,打破數(shù)據(jù)孤島,洞察業(yè)務(wù)價(jià)值。
    • E-mapreduce,構(gòu)建在阿里云服務(wù)器ECS上的開源Hadoop、spark、Hbase、hive、Flink生態(tài)大數(shù)據(jù)Pass產(chǎn)品。提供用戶在云上使用開源技術(shù)建設(shè)數(shù)據(jù)倉(cāng)庫(kù)、離線批處理、在線流式處理、即時(shí)分析、機(jī)器學(xué)習(xí)等場(chǎng)景下的大數(shù)據(jù)解決方案。
  • 數(shù)據(jù)分析與治理,對(duì)企業(yè)數(shù)據(jù)的可用性、完整性和安全性全面管理。數(shù)據(jù)湖采用API接口讓數(shù)據(jù)湖實(shí)現(xiàn)多引擎的統(tǒng)一元數(shù)據(jù)管理和權(quán)限管理。
    • MaxCompute :MaxCompute 是一項(xiàng)面向分析的大數(shù)據(jù)計(jì)算服務(wù),它以 Serverless 架構(gòu)提供快速、全托 管的在線數(shù)據(jù)倉(cāng)庫(kù)服務(wù),消除傳統(tǒng)數(shù)據(jù)平臺(tái)在資源擴(kuò)展性和彈性方面的限制,最小化用戶運(yùn)維投入,使您經(jīng)濟(jì)并高 效的分析處理海量數(shù)據(jù)。
    • 云原生數(shù)據(jù)湖分析(Data Lake Analytics,簡(jiǎn)稱 DLA) 采用全新的云原生+Serverless+ 據(jù)庫(kù)與大數(shù)據(jù)一體化架構(gòu),支持企業(yè)級(jí)權(quán)限管理、高效入湖、 ETL、機(jī)器學(xué)習(xí)、流計(jì)算與交互式分析等。核心組 包括:統(tǒng)一Meta、Lakehouse、Serverless Spark、Serverless Presto.
    • 機(jī)器學(xué)習(xí) PAI:機(jī)器學(xué)習(xí) PAI(Platform of Artificial Intelligence)是阿里云面向企業(yè)客戶及開發(fā)者,提供 輕量化、高性價(jià)比的云原生機(jī)器學(xué)習(xí)平臺(tái)支持百億特征、千億樣本規(guī)模加速訓(xùn)練,百余種落地場(chǎng)景,全面提升機(jī)器 學(xué)習(xí)工程效率
    • 日志服務(wù)SLS,日志大數(shù)據(jù)解決方案,一站式提供數(shù)據(jù)收集、清洗、分析、可視化和告警功能。
    • dataworks,基于EMR/MC-Hologres 等大數(shù)據(jù)計(jì)算引擎,為客戶提供專業(yè)高效、安全可 的一站式大數(shù)據(jù)開發(fā)與治理平臺(tái)。
4.1數(shù)據(jù)湖架構(gòu)

 


 


 

4.2數(shù)據(jù)湖構(gòu)建(Data Lake Formation,簡(jiǎn)稱 DLF)

4.2.1產(chǎn)品架構(gòu)

阿里云數(shù)據(jù)湖構(gòu)建(Data Lake Formation,簡(jiǎn)稱 DLF)是一款全托管的快速幫助用戶構(gòu)建云上數(shù)據(jù)湖及Lakehouse的服務(wù),為客戶提供了統(tǒng)一的元數(shù)據(jù)管理、統(tǒng)一的權(quán)限與安全管理、便捷的數(shù)據(jù)入湖能力以及一鍵式數(shù)據(jù)探索能力。DLF可以幫助用戶快速完成云原生數(shù)據(jù)湖及Lakehouse方案的構(gòu)建與管理,并可無縫對(duì)接多種計(jì)算引擎,打破數(shù)據(jù)孤島,洞察業(yè)務(wù)價(jià)值。

 

  • 元數(shù)據(jù)管理,通過控制臺(tái)查看和管理數(shù)據(jù)湖中元數(shù)據(jù)庫(kù)和表的信息,通過API的方式操作元數(shù)據(jù),集成到第三方應(yīng)用服務(wù)。并支持多版本管理、可通過元數(shù)據(jù)發(fā)現(xiàn)和入湖任務(wù)自動(dòng)生成元數(shù)據(jù)。
  • 數(shù)據(jù)入湖,通過入湖任務(wù)的方式將分散在MySQL、Kafka和PolarDB等數(shù)據(jù)統(tǒng)一存儲(chǔ),入湖過程如果沒有定義元數(shù)據(jù)信息,入湖任務(wù)會(huì)自動(dòng)生成元數(shù)據(jù)的表信息。
  • 數(shù)據(jù)權(quán)限管理,可以加強(qiáng)湖上數(shù)據(jù)權(quán)限控制,保障數(shù)據(jù)安全??芍С謱?duì)元數(shù)據(jù)庫(kù)、元數(shù)據(jù)表、元數(shù)據(jù)列三種粒度的權(quán)限。
  • 數(shù)據(jù)探索,為您提供一鍵式數(shù)據(jù)探索能力,可支持Spark 3.0 SQL語法,可以保存歷史查詢,預(yù)覽數(shù)據(jù),導(dǎo)出結(jié)果,一鍵生產(chǎn)tpc-ds測(cè)試數(shù)據(jù)集。
  • 湖管理,將為您提供對(duì)湖內(nèi)數(shù)據(jù)存儲(chǔ)的分析及優(yōu)化建議,加強(qiáng)對(duì)數(shù)據(jù)生命周期管理,優(yōu)化使用成本,方便您進(jìn)行數(shù)據(jù)運(yùn)維管理。

 


 

4.2.2應(yīng)用場(chǎng)景

 

  • 數(shù)據(jù)分析場(chǎng)景,通過元數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)探索能力,可以快速的對(duì)OSS內(nèi)結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析、探索。
  • 結(jié)合E-MapReduce、OSS兩個(gè)產(chǎn)品,DLF協(xié)助客戶快速構(gòu)建云上數(shù)據(jù)湖。

 


 

 

  • 結(jié)合MaxCompute、Dataworks、E-MapReduce3個(gè)產(chǎn)品,DLF協(xié)助客戶快速構(gòu)建湖倉(cāng)一體架構(gòu)。

 


 

 

  • 結(jié)合Databricks、OSS產(chǎn)品,構(gòu)建云上全托管Lakehouse數(shù)據(jù)架構(gòu)。

 


 

4.2.3阿里DDI(databricks datainsight 數(shù)據(jù)洞察)


 

產(chǎn)品核心:

 

  • 基于商業(yè)版 Spark 的全托管大數(shù)據(jù)分析& AI 平臺(tái)
  • 內(nèi)置商業(yè)版 Spark 引擎 Databricks Runtime ,在計(jì)算層面提供高效、穩(wěn)定的保障
  • 與阿里云產(chǎn)品集成互通,提供數(shù)據(jù)安全、動(dòng)態(tài)擴(kuò)容、監(jiān)控告警等企業(yè)級(jí)特性

 

產(chǎn)品引擎與服務(wù):

 

  • 100% 兼容開源 Spark,經(jīng)阿里云與 Databricks 聯(lián)合研發(fā)性能優(yōu)化
  • 提供商業(yè)化 SLA 保障與7*24小時(shí) Databricks 專家支持服務(wù)

 

產(chǎn)品關(guān)鍵信息與優(yōu)勢(shì)


 


 

4.2.3.1產(chǎn)品架構(gòu)


 

 

  • Databricks數(shù)據(jù)洞察構(gòu)建在ECS之上,使用阿里云對(duì)象存儲(chǔ)服務(wù)(OSS)為核心存儲(chǔ)。存儲(chǔ)訪問加速層方便您可以像操作HDFS上的數(shù)據(jù)一樣訪問OSS上的數(shù)據(jù)。
  • Databricks數(shù)據(jù)洞察提供了兩種執(zhí)行Spark作業(yè)的方式,包括通過Notebook或者在項(xiàng)目空間里新建Spark作業(yè)。
  • Databricks數(shù)據(jù)洞察還提供了監(jiān)控告警、元數(shù)據(jù)管理、權(quán)限管理等功能,方便您對(duì)集群資源進(jìn)行管理。

 

4.2.3.2應(yīng)用場(chǎng)景

1、數(shù)據(jù)湖分析

使用阿里云對(duì)象存儲(chǔ)OSS作為云上存儲(chǔ),DDI集群提供靈活的計(jì)算資源,OSS上的數(shù)據(jù)可以被多個(gè)DDI集群共享,減少數(shù)據(jù)冗余。同時(shí),DataInsight Notebook支持多用戶同時(shí)協(xié)同工作,您可以在Notebook中完成作業(yè)編輯、提交和結(jié)果查看。


 

2、實(shí)時(shí)數(shù)倉(cāng)

利用Databricks Delta Lake的ACID事務(wù)特性,可以構(gòu)建云上大數(shù)據(jù)的實(shí)時(shí)數(shù)倉(cāng)。


 

五、華為數(shù)據(jù)湖探索(Data Lake Insight,以下簡(jiǎn)稱DLI)5.1產(chǎn)品架構(gòu)

數(shù)據(jù)湖探索(Data Lake Insight,以下簡(jiǎn)稱DLI)是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Presto)生態(tài),提供一站式的流處理、批處理、交互式分析的Serverless融合處理分析服務(wù)。DLI是完全托管的大數(shù)據(jù)處理分析服務(wù),企業(yè)使用標(biāo)準(zhǔn)SQL、Spark、Flink程序就可輕松完成多數(shù)據(jù)源的聯(lián)合計(jì)算分析,挖掘和探索數(shù)據(jù)價(jià)值。數(shù)據(jù)無需復(fù)雜的抽取、轉(zhuǎn)換、加載(ETL),使用SQL或程序就可以對(duì)云上CloudTable、RDS、DWS、css、OBS、ECS自建數(shù)據(jù)庫(kù)以及線下數(shù)據(jù)庫(kù)的異構(gòu)數(shù)據(jù)進(jìn)行探索。


 

5.2功能介紹

DLI用戶可以通過可視化界面、Restful API、JDBC、ODBC、Beeline等多種接入方式對(duì)云上CloudTable、RDS和DWS等異構(gòu)數(shù)據(jù)源進(jìn)行查詢分析,數(shù)據(jù)格式兼容CSV、JSON、Parquet、Carbon和ORC五種主流數(shù)據(jù)格式。

 

  • 三大基本功能
    • SQL作業(yè)支持SQL查詢功能:可為用戶提供標(biāo)準(zhǔn)的SQL語句。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索SQL語法參考》。
    • Flink作業(yè)支持Flink SQL在線分析功能:支持Window、Join等聚合函數(shù)、地理函數(shù)、CEP函數(shù)等,用SQL表達(dá)業(yè)務(wù)邏輯,簡(jiǎn)便快捷實(shí)現(xiàn)業(yè)務(wù)。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索SQL語法參考》。
    • Spark作業(yè)提供全托管式Spark計(jì)算特性:用戶可通過交互式會(huì)話(session)和批處理(batch)方式提交計(jì)算任務(wù),在全托管Spark隊(duì)列上進(jìn)行數(shù)據(jù)分析。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索API參考》。
  • 多數(shù)據(jù)源分析:
    • Spark跨源連接:可通過DLI訪問CloudTable,DWS,RDS和CSS等數(shù)據(jù)源。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索用戶指南》。
    • Flink跨源支持與多種云服務(wù)連通,形成豐富的流生態(tài)圈。數(shù)據(jù)湖探索的流生態(tài)分為云服務(wù)生態(tài)和開源生態(tài):具體內(nèi)容請(qǐng)參見《數(shù)據(jù)湖探索開發(fā)指南》。
      • 云服務(wù)生態(tài):數(shù)據(jù)湖探索在Flink SQL中支持與其他服務(wù)的連通。用戶可以直接使用SQL從這些服務(wù)中讀寫數(shù)據(jù),如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等。
      • 開源生態(tài):通過增強(qiáng)型跨源連接建立與其他VPC的網(wǎng)絡(luò)連接后,用戶可以在數(shù)據(jù)湖探索的租戶獨(dú)享隊(duì)列中訪問所有Flink和Spark支持的數(shù)據(jù)源與輸出源,如Kafka、Hbase、ElasticSearch等。
  • BI工具
    • 對(duì)接永洪BI:與永洪BI對(duì)接實(shí)現(xiàn)數(shù)據(jù)分析。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索開發(fā)指南》。
  • 支持地理空間查詢。具體內(nèi)容請(qǐng)參考《數(shù)據(jù)湖探索開發(fā)指南》。
5.3應(yīng)用場(chǎng)景

 

(1)大數(shù)據(jù)ETL處理

 

  • 大數(shù)據(jù)ETL:具備TB~EB級(jí)運(yùn)營(yíng)商數(shù)據(jù)治理能力,能快速將海量運(yùn)營(yíng)商數(shù)據(jù)做ETL處理,為分布式批處理計(jì)算提供分布式數(shù)據(jù)集。
  • 高吞吐低時(shí)延:采用Apache Flink的Dataflow模型,高性能計(jì)算資源,從用戶自建的Kafka、MRS-Kafka、DMS-Kafka消費(fèi)數(shù)據(jù),單CU每秒吞吐1千~2萬條消息。
  • 細(xì)粒度權(quán)限管理:P公司內(nèi)部有N個(gè)子部門,子部門之間需要對(duì)數(shù)據(jù)進(jìn)行共享和隔離。DLI支持計(jì)算資源按租戶隔離,保障作業(yè)SLA;支持?jǐn)?shù)據(jù)權(quán)限控制到表/列,幫助企業(yè)實(shí)現(xiàn)部門間數(shù)據(jù)共享和權(quán)限管理。

 


 

(2)異構(gòu)數(shù)據(jù)源聯(lián)邦分析

 

  • 多源數(shù)據(jù)分析免搬遷:關(guān)系型數(shù)據(jù)庫(kù)RDS中存放車輛和車主基本信息,表格存儲(chǔ)CloudTable中存放實(shí)時(shí)的車輛位置和健康狀態(tài)信息,數(shù)據(jù)倉(cāng)庫(kù)DWS中存放周期性統(tǒng)計(jì)的指標(biāo)。通過DLI無需數(shù)據(jù)搬遷,對(duì)多數(shù)據(jù)源進(jìn)行聯(lián)邦分析。
  • 數(shù)據(jù)分級(jí)存儲(chǔ):車企需要保留全量歷史數(shù)據(jù)支撐審計(jì)類等業(yè)務(wù),低頻進(jìn)行訪問。溫冷數(shù)據(jù)存放在低成本的對(duì)象存儲(chǔ)服務(wù)OBS上,高頻訪問的熱數(shù)據(jù)存放在數(shù)據(jù)引擎(CloudTable和DWS)中,降低整體存儲(chǔ)成本。
  • 告警快速敏捷觸發(fā)服務(wù)器彈性伸縮:對(duì)CPU、內(nèi)存、硬盤空間和帶寬無特殊要求。

 

(3)海量日志分析

 

  • 高效的Spark編程模型:使用Spark Streaming直接從DIS中獲取數(shù)據(jù),進(jìn)行數(shù)據(jù)清理等預(yù)處理操作。只需編寫處理邏輯,無需關(guān)心多線程模型。
  • 簡(jiǎn)單易用:直接使用標(biāo)準(zhǔn)SQL編寫指標(biāo)分析邏輯,無需關(guān)注背后復(fù)雜的分布式計(jì)算平臺(tái)。
  • 按需計(jì)費(fèi):日志分析按實(shí)效性要求按周期進(jìn)行調(diào)度,每次調(diào)度之間存在大量空閑期。DLI按需計(jì)費(fèi)只在使用期間收費(fèi),成本較獨(dú)占隊(duì)列降低50%以上。
六.Dremio(產(chǎn)品定位有差異)6.1公司簡(jiǎn)介

 

Dremio由MapR的前員工:Tomer Shiran(CEO)和Jacques Nadeau(CTO)于2015年創(chuàng)立。融資總額為4500萬美元。其總部位于美國(guó),2017年發(fā)布了v1.0產(chǎn)品,客戶包括帝亞吉?dú)W(Diageo)、微軟、瑞銀、Nutanix和皇家加勒比游輪公司。


 

6.2產(chǎn)品架構(gòu)

Dremio是一款DaaS(Data-as-a-Service)數(shù)據(jù)即服務(wù)平臺(tái),可對(duì)接多類數(shù)據(jù)源來進(jìn)行BI分析,該產(chǎn)品直接使用數(shù)據(jù)湖的源數(shù)據(jù)進(jìn)行快速訪問以達(dá)到直接進(jìn)行數(shù)據(jù)分析而不經(jīng)過數(shù)據(jù)的清洗、處理、加工、建模等方式。數(shù)據(jù)湖的意思就是將不同存儲(chǔ)類型、不同種類的數(shù)據(jù)匯聚在一起,這個(gè)存儲(chǔ)集群統(tǒng)一對(duì)外就是一個(gè)數(shù)據(jù)湖了。而Dremio通過直接在云數(shù)據(jù)湖存儲(chǔ)中進(jìn)行實(shí)時(shí)的、交互式的查詢來釋放數(shù)據(jù)價(jià)值。


 

Dremio的技術(shù)特點(diǎn):

 

  • 快速的數(shù)據(jù)查詢

 

在Dremio中,查詢數(shù)據(jù)是直達(dá)數(shù)據(jù)湖存儲(chǔ)的,無論數(shù)據(jù)是存儲(chǔ)在S3、ADLS、Hadoop、MySQL、Mongodb等載體上。Dremio使用了包括不限于以下技術(shù)來加速每次的查詢:

 

    • Data Reflections
    • Columnar Cloud Cache (C3)
    • Predictive Pipelining work alongside Apache Arrow
  • 使用Predictive Pipelining和Columnar Cloud Cache(C3)技術(shù)加速數(shù)據(jù)讀取

 

Dremio的Predictive Pipelining技術(shù)使得來自數(shù)據(jù)源的數(shù)據(jù)只有在執(zhí)行引擎真正需要到時(shí)才會(huì)去拉取,這個(gè)做法能顯著降低引擎等待數(shù)據(jù)的時(shí)間成本。同樣地,C3技術(shù)則是會(huì)自動(dòng)地在數(shù)據(jù)存取時(shí)將數(shù)據(jù)緩存到本地的NVMe存儲(chǔ)載體,使得查詢?cè)L問數(shù)據(jù)湖中的數(shù)據(jù)能有NVMe存取速度級(jí)別的表現(xiàn)。

 

  • 為云而建造的現(xiàn)代化執(zhí)行引擎

 

Dremio的執(zhí)行引擎是建立在Apache Arrow及其生態(tài)技術(shù)上的,一個(gè)Dremio集群能夠根據(jù)存儲(chǔ)數(shù)據(jù)的體量規(guī)模彈性伸縮。

 

  • Data Reflections - 能夠更高效查詢速度的開關(guān)

 

通過在Dremio提供的客戶端頁(yè)面的幾下點(diǎn)擊,就能夠創(chuàng)建反射,反射是一種物理層面上對(duì)數(shù)據(jù)結(jié)構(gòu)的優(yōu)化,能夠加速各種查詢模式,根據(jù)你的需要可以創(chuàng)建任意數(shù)量的反射,Dremio會(huì)隱形并自動(dòng)地在查詢計(jì)劃中合并反射,并保證查詢到最新數(shù)據(jù)。

 

  • Arrow Flight - 以1000x的倍速移動(dòng)數(shù)據(jù)

 

AF被設(shè)計(jì)出來是用于取代處理小規(guī)模數(shù)據(jù)的ODBC和JDBC協(xié)議,AF在高速、分布式傳輸協(xié)議的基礎(chǔ)上,為Dremio和應(yīng)用的數(shù)據(jù)傳輸提供了1000x倍速度提升的吞吐。

 

  • 自助式服務(wù)語義層

 

Dremio提供了一個(gè)應(yīng)用安全和商業(yè)意義的抽象層,以支持用戶能夠探索數(shù)據(jù),以及派生出新的虛擬數(shù)據(jù)集。

 

  • 可自定義化的語義抽象層

 

Dremio的語義層是一個(gè)能夠索引出所有用戶元數(shù)據(jù)的集成化、可搜索的目錄。在此語義層上,虛擬數(shù)據(jù)集以及空間構(gòu)成了語義層,并且都是能夠倍索引和搜索的。

 

  • 高效的數(shù)據(jù)上下文管理

 

通過虛擬上下文的管理,Dremio讓可以使得篩選、轉(zhuǎn)換、聯(lián)表、聚合一個(gè)或多個(gè)數(shù)據(jù)源的數(shù)據(jù)變得快速,容易并且成本低。另外,Dremio的虛擬數(shù)據(jù)集是通過標(biāo)準(zhǔn)SQL定義的,如此我們使用起來舊不需要再另外學(xué)習(xí)一套查詢語法了。

 

  • 直接應(yīng)用在BI或數(shù)據(jù)科學(xué)工具上

 

Dremio其實(shí)就如同關(guān)系型數(shù)據(jù)庫(kù)一樣,并且Dremio可以暴露ODBC、JDBC、REST以及Arrow Flight協(xié)議的接口,這樣我們就可以在一些BI應(yīng)用上連接Dremio獲取數(shù)據(jù)。

 

  • 細(xì)粒度的訪問權(quán)限控制

 

Dremio提供行級(jí)和列級(jí)的權(quán)限控制,可以讓我們基于敏感數(shù)據(jù)、基于角色來控制對(duì)數(shù)據(jù)的訪問權(quán)限。

 

  • 數(shù)據(jù)血緣

 

Dremio的data graph管理著數(shù)據(jù)源、虛擬數(shù)據(jù)集以及查詢語句之間的關(guān)系,我們可以通過data graph獲知到當(dāng)前查詢的數(shù)據(jù)集的來源。

七.Databricks7.1公司概況

1、Databricks 于 2013 年在舊金山成立,是大型數(shù)據(jù)分析工具的最大供應(yīng)商之一,由美國(guó)伯克利大學(xué)AMP實(shí)驗(yàn)室的開源處理引擎系統(tǒng)Apache Spark的多位創(chuàng)始人聯(lián)合創(chuàng)立,專注于大數(shù)據(jù)和AI人工智能,致力于提供基于Spark的云服務(wù)及開放統(tǒng)一的數(shù)據(jù)平臺(tái)。

2、Databricks開創(chuàng)了云計(jì)算領(lǐng)域的“Lakehouse”結(jié)構(gòu)概念,這一術(shù)語是由“Data Lakes”與“Data Warehouses”合成而成。目前Databricks提供四種產(chǎn)品:Spark、Delta Lake、MLflow(開發(fā)和維護(hù) AI 生命周期管理平臺(tái))和Koalas(數(shù)據(jù)分析工具)。

3、公司定位:

 

  • Databricksis the Data + AI company,為客戶提供數(shù)據(jù)分析、數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和人工智能方面的服務(wù),一體化的 Lakehouse 架構(gòu)
  • 開源版本 VS 商業(yè)版本:公司絕大部分技術(shù)研發(fā)資源投入在商業(yè)化產(chǎn)品
  • 多云策略,與頂級(jí)云服務(wù)商合作,提供數(shù)據(jù)開發(fā)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等產(chǎn)品,Data+AI 一體化分析平臺(tái)

 

4、市場(chǎng)地位

 

  • Databricks的全球客戶數(shù)量達(dá)5000多家,且全球有超過40%的財(cái)富500強(qiáng)企業(yè)都在使用Databricks的云平臺(tái)。
  • 2021年8月20日,H輪,15億美元,估值380億美元。
7.2不同產(chǎn)品介紹

 

7.2.1Delta Lake

Delta Lake 是一個(gè)統(tǒng)一的數(shù)據(jù)管理系統(tǒng),為云上數(shù)據(jù)湖帶來數(shù)據(jù)可靠性和快速分析。Delta Lake 運(yùn)行在現(xiàn)有數(shù)據(jù)湖之上,并且與 Apache Spark 的 API 完全兼容。使用Delta Lake,您可以加快高質(zhì)量數(shù)據(jù)導(dǎo)入數(shù)據(jù)湖的速度,團(tuán)隊(duì)也可以在云服務(wù)上快速使用這些數(shù)據(jù),安全且可擴(kuò)展。

 

  • ACID 事務(wù)性:Delta Lake 在多個(gè)寫操作之間提供 ACID 事務(wù)性。每一次寫操作都是一個(gè)事務(wù)操作,事務(wù)日志(Transaction Log)中記錄的寫操作都有一個(gè)順序序列。事務(wù)日志(Transaction Log)跟蹤了文件級(jí)別的寫操作,并使用了樂觀鎖進(jìn)行并發(fā)控制,這非常適用于數(shù)據(jù)湖,因?yàn)閲L試修改相同文件的多次寫操作的情況并不經(jīng)常發(fā)生。當(dāng)發(fā)生沖突時(shí),Delta Lake 會(huì)拋出一個(gè)并發(fā)修改異常,拋給供用戶處理并重試其作業(yè)。Delta Lake 還提供了最高級(jí)別的隔離(可序列化隔離),允許工程師不斷地向目錄或表寫入數(shù)據(jù),而使用者不斷地從同一目錄或表讀取數(shù)據(jù),讀取數(shù)據(jù)時(shí)會(huì)看到數(shù)據(jù)的最新快照。
  • Schema 管理(Schema management):Delta Lake 會(huì)自動(dòng)驗(yàn)證正在寫入的DataFrame 的 Schema 是否與表的 Schema 兼容。若表中存在但 DataFrame 中不存在的列則會(huì)被設(shè)置為 null。如果 DataFrame 中有額外的列不在表中,那么該操作將會(huì)拋出異常。Delta Lake 具有 DDL(數(shù)據(jù)定義語言)顯式添加新列的功能,并且能夠自動(dòng)更新 Schema。
  • 可伸縮的元數(shù)據(jù)(Metadata)處理:Delta Lake 將表或目錄的元數(shù)據(jù)信息存儲(chǔ)在事務(wù)日志(Transaction Log)中,而不是元數(shù)據(jù) Metastore 中。這使得 Delta Lake夠在固定時(shí)間內(nèi)列出大目錄中的文件,并且在讀取數(shù)據(jù)時(shí)效率很高。
  • 數(shù)據(jù)版本控制和時(shí)間旅行(Time Travel):Delta Lake 允許用戶讀取表或目錄的歷史版本快照。當(dāng)文件在寫入過程中被修改時(shí),Delta Lake 會(huì)創(chuàng)建文件的新的版本并保留舊版本。當(dāng)用戶想要讀取表或目錄的較舊版本時(shí),他們可以向 Apach Spark的 read API 提供時(shí)間戳或版本號(hào),Delta Lake 根據(jù)事務(wù)日志(Transaction Log)中的信息來構(gòu)建該時(shí)間戳或版本的完整快照。這非常方便用戶來復(fù)現(xiàn)實(shí)驗(yàn)和報(bào)告,如果需要,還可以將表還原為舊版本。
  • 統(tǒng)一批流一體:除了批處理寫入之外,Delta Lake 還可以作為 Apache Spark 的結(jié)構(gòu)化流的高效流接收器(Streaming Sink)。與 ACID 事務(wù)和可伸縮元數(shù)據(jù)處理相結(jié)合,高效的流接收器(Streaming Sink)支持大量近實(shí)時(shí)的分析用例,而無需維護(hù)復(fù)雜的流和批處理管道。
  • 記錄更新和刪除:Delta Lake 將支持合并、更新和刪除的 DML(數(shù)據(jù)管理語言)命令。這使得工程師可以輕松地在數(shù)據(jù)湖中插入和刪除記錄,并簡(jiǎn)化他們的變更數(shù)據(jù)捕獲和 GDPR(一般數(shù)據(jù)保護(hù)條例)用例。由于 Delta Lake 在文件級(jí)粒度上進(jìn)行跟蹤和修改數(shù)據(jù),因此它比讀取和覆蓋整個(gè)分區(qū)或表要高效得多。

 

7.2.2產(chǎn)品架構(gòu)


 


 


 


 


 

1、Databricks 產(chǎn)品支持執(zhí)行 Spark、Python、Scala、JAVA 和 R 等語言,甚至支持 SQL,適用于不同類型的用戶。

2、強(qiáng)大的數(shù)據(jù)版本控制:Databricks 原生支持 DELTA 格式。Delta Lake 是完全兼容 ACID 的,這就解決了 Spark 的 不兼容 ACID 這一主要問題。

7.2.3湖倉(cāng)一體

 

  1. 事物支持:Lakehouse 在企業(yè)級(jí)應(yīng)用中,許多數(shù)據(jù)管道通常會(huì)同時(shí)讀取和寫入數(shù)據(jù)。通常多方同時(shí)使用 SQL 讀取或?qū)懭霐?shù)據(jù),Lakehouse 保證支持ACID事務(wù)的一致性。
  2. 模式實(shí)施和治理:Lakehouse 應(yīng)該有一種支持模式實(shí)施和演變的方法,支持 DW 模式規(guī)范,例如 star /snowflake-schemas。該系統(tǒng)應(yīng)該能夠推理數(shù)據(jù)完整性,并且應(yīng)該具有健壯的治理和審核機(jī)制。
  3. BI支持:Lakehouse 可以直接在源數(shù)據(jù)上使用BI工具。這樣可以減少陳舊度和等待時(shí)間,提高新近度,并且降低必須在數(shù)據(jù)湖和倉(cāng)庫(kù)中操作兩個(gè)數(shù)據(jù)副本的成本。
  4. 存儲(chǔ)與計(jì)算分離:事實(shí)上,這意味著存儲(chǔ)和計(jì)算使用單獨(dú)的群集,因此這些系統(tǒng)能夠擴(kuò)展到更多并發(fā)用戶和更大數(shù)據(jù)量。一些現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)也具有這種屬性。
  5. 兼容性:Lakehouse 使用的存儲(chǔ)格式是開放式和標(biāo)準(zhǔn)化的,例如 Parquet,并且它提供了多種 API,包括機(jī)器學(xué)習(xí)和 Python/R 庫(kù),因此各種工具和引擎都可以直接有效地訪問數(shù)據(jù)。
  6. 支持從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的多種數(shù)據(jù)類型:Lakehouse 可用于存儲(chǔ),優(yōu)化,分析和訪問許多新數(shù)據(jù)應(yīng)用程序所需的數(shù)據(jù)類型,包括圖像,視頻,音頻,半結(jié)構(gòu)化數(shù)據(jù)和文本。
  7. 支持各種工作場(chǎng)景:包括數(shù)據(jù)科學(xué),機(jī)器學(xué)習(xí)和 SQL 分析。這些可能依賴于多種工具來支持的工作場(chǎng)景,它們都依賴于相同的數(shù)據(jù)存儲(chǔ)庫(kù)。
  8. 端到端流式任務(wù):實(shí)時(shí)報(bào)告是許多企業(yè)的日常需要。對(duì)流處理的支持消除了對(duì)專門服務(wù)于實(shí)時(shí)數(shù)據(jù)應(yīng)用程序的單獨(dú)系統(tǒng)的需求。
八、confluent調(diào)研8.1公司概況

 

1、團(tuán)隊(duì)背景

(1)LinkedIn開發(fā)Apache Kafka實(shí)時(shí)信息列隊(duì)技術(shù)的程序員,創(chuàng)立confluent,核心是利用Apache Kafka。

 

  • 三個(gè)創(chuàng)始人:Jay Kreps(美國(guó)加州人)和清華畢業(yè)的饒軍(Jun Rao)及來自印度的女生納赫(Neha Narkhede)。

 

2、融資情況

2021-6-25美股上市,市值143.64億美元。


 

3、商業(yè)化產(chǎn)品

商業(yè)化產(chǎn)品有3大類:

 

  • 主營(yíng)產(chǎn)品:Confluent Platform,Confluent Cloud
  • 支撐產(chǎn)品:無法單獨(dú)購(gòu)買,主要用來給樓上引流,例如應(yīng)用市場(chǎng)中的各種插件
  • 咨詢服務(wù)類:例如專家服務(wù),培訓(xùn)等

 


 

4、不同實(shí)時(shí)計(jì)算工具的對(duì)比

Spark 做批處理、Flink 做流處理、Clickhouse 做交互分析,這是最簡(jiǎn)單的一套。再?gòu)?fù)雜一點(diǎn),可能還要部署 HBase 做 KV 查詢,用 ElasticSearch 做文本檢索。

產(chǎn)品

Spark streaming

不是特別適合于做秒級(jí)甚至亞秒級(jí)的計(jì)算

Kafka streaming

很難滿足我們對(duì)大體量的復(fù)雜計(jì)算的需求

Storm

沒有批處理能力

Flink

批流結(jié)合

8.2產(chǎn)品架構(gòu)

Confluent是用來管理和組織不同數(shù)據(jù)源的流媒體平臺(tái),可以實(shí)時(shí)地把不同源和位置的數(shù)據(jù)集成到一個(gè)中心的事件流平臺(tái)。而且還強(qiáng)調(diào)了這個(gè)平臺(tái)很可靠、性能很高,總之就是很好用,很強(qiáng)大。Confluent目前提供了社區(qū)版和商業(yè)版兩個(gè)版本,社區(qū)版永久免費(fèi),商業(yè)版面向企業(yè)收費(fèi)。

 

  • 社區(qū)版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基礎(chǔ)服務(wù)。
  • 商業(yè)版為企業(yè)提供了控制面板、負(fù)載均衡,跨中心數(shù)據(jù)備份、安全防護(hù)等高級(jí)特性。

 


 

(1)Confluent Control Center(控制中心),讓我們很容易地管理kafka的連接,創(chuàng)建,編輯,和管理與其他系統(tǒng)的連接。我們可以從producer到consumer監(jiān)控data streams,保證我們的每一條消息都被傳遞,還能測(cè)量出消息的傳輸耗時(shí)多久。使用confluent control center能讓開發(fā)人員不寫一句代碼,也能構(gòu)建基于kafka的數(shù)據(jù)生產(chǎn)管道。

(2)Confluent Replicator(數(shù)據(jù)復(fù)制與遷移),Confluent Platform使我們可以比以往更輕松地在多個(gè)數(shù)據(jù)中心內(nèi)維護(hù)多個(gè)Kafka群集。管理數(shù)據(jù)中心之間的數(shù)據(jù)復(fù)制和topic配置,比方說:ative-active地理定位部署:允許用戶訪問最近(附近)的數(shù)據(jù)中心,以優(yōu)化其架構(gòu),實(shí)現(xiàn)低延遲和高性能

 

  • 集中分析:將來自多個(gè)Kafka集群的數(shù)據(jù)聚合到一個(gè)地方,以進(jìn)行組織范圍的分析
  • 云遷移:可以使用kafka完成本地應(yīng)用與云之間的數(shù)據(jù)遷移

 

我們可以利用Confluent Replicator從Confluent Control Center或CLI工具配置管理所有這些方案的復(fù)制。

(3)Confluent Auto Data Balancer(解決負(fù)載均衡),隨著集群的增長(zhǎng),topic和partition以不同的速度增長(zhǎng),隨著時(shí)間的推移,添加和刪除會(huì)導(dǎo)致跨數(shù)據(jù)中心資源的工作負(fù)載不平衡。有一些brokers是空閑的(數(shù)據(jù)傾斜),而其他brokers則對(duì)大量或多個(gè)partitions負(fù)載,從而減慢了消息傳遞的速度。當(dāng)執(zhí)行時(shí),Confluent Auto Data Balancer會(huì)監(jiān)控您的群集中的broker數(shù)量,partition大小,partition數(shù)量以及群集中的broker數(shù)量。它允許我們轉(zhuǎn)移數(shù)據(jù)以在整個(gè)群集中創(chuàng)建均勻的工作負(fù)載,同時(shí)限制重新平衡流量,以最大限度地減少重新平衡時(shí)對(duì)生產(chǎn)工作負(fù)載的影響。

(4)Confluent JMS Client,Confluent Platform包含適用于Kafka的JMS兼容客戶端。通過用Kafka替換舊的JMS消息代理,現(xiàn)有的應(yīng)用程序可以與我們的現(xiàn)代流式平臺(tái)集成,而無需重新編寫應(yīng)用程序。

(5)Confluent Security Plugins,目前,有一個(gè)可用于Confluent REST Proxy的插件,它有助于驗(yàn)證傳入的請(qǐng)求并將經(jīng)過身份驗(yàn)證傳到kafka請(qǐng)求。

Kafka Brokers(開源)。構(gòu)成Kafka的消息,數(shù)據(jù)持久性和存儲(chǔ)層。

Kafka Java Clients(開源)。Java 庫(kù),寫消息到kafka 或者從kafka 讀消息。

Kafka Streams(開源)。Kafka Streams是一個(gè)庫(kù)使kafka轉(zhuǎn)換成功能齊全的流處理系統(tǒng)。

Kafka Connect(開源)。一種可擴(kuò)展的和可靠的連接Kafka框架與外部系統(tǒng)(如數(shù)據(jù)庫(kù),鍵值存儲(chǔ),搜索索引和文件系統(tǒng))的框架。

除了Kafka以外, Confluent Platform 包括更多的工具和服務(wù),使構(gòu)建和管理數(shù)據(jù)流平臺(tái)更加容易。

Confluent Control Center(閉源)。管理和監(jiān)控Kafka最全面的GUI驅(qū)動(dòng)系統(tǒng)。

Confluent Kafka Connectors(開源)。連接SQL數(shù)據(jù)庫(kù)/Hadoop/Hive

Confluent Kafka Clients(開源)。對(duì)于其他編程語言,包括C/C++,Python

Confluent Kafka REST Proxy(開源)。允許一些系統(tǒng)通過HTTP和kafka之間發(fā)送和接收消息。

Confluent Schema Registry(開源)。幫助確定每一個(gè)應(yīng)用使用正確的schema當(dāng)寫數(shù)據(jù)或者讀數(shù)據(jù)到kafka中。

總的來說,Confluent Platform平臺(tái)的組件給你的團(tuán)隊(duì)朝著建立統(tǒng)一而靈活的方式建立一個(gè)企業(yè)范圍的數(shù)據(jù)流平臺(tái)。

分享到:
標(biāo)簽:數(shù)據(jù)倉(cāng)庫(kù)
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定