目前廣為人知的Druid有兩個,一個是阿里巴巴開源的Durid數(shù)據(jù)庫連接池,一個是MetaMarkets開源的分布式、實時多維OLAP分析的數(shù)據(jù)處理系統(tǒng)。
這篇文章將介紹后者,即Apache Druid。由美國廣告技術(shù)公司MetaMarkets公司2012年開源,孵化于Apache。
一、Apache Druid 是什么?
Druid 是一個分布式的、支持實時多維 OLAP 分析的數(shù)據(jù)處理系統(tǒng)。它既支持高速的數(shù)據(jù)實時攝入處理,也支持實時且靈活的多維數(shù)據(jù)分析查詢。因此 Druid 最常用的場景就是大數(shù)據(jù)背景下、靈活快速的多維 OLAP 分析。 另外,Druid 還有一個關(guān)鍵的特點(diǎn):它支持根據(jù)時間戳對數(shù)據(jù)進(jìn)行預(yù)聚合攝入和聚合分析,因此也有用戶經(jīng)常在有時序數(shù)據(jù)處理分析的場景中用到它。
二、Apache Druid基本特點(diǎn)
Druid是一個用于大數(shù)據(jù)實時查詢和分析的高容錯、高性能開源分布式系統(tǒng),旨在快速處理大規(guī)模的數(shù)據(jù),并能夠?qū)崿F(xiàn)快速查詢和分析。分析和存儲系統(tǒng),提供極具成本效益并且永遠(yuǎn)在線的實時數(shù)據(jù)攝取和任意數(shù)據(jù)處理。
為分析而設(shè)計——Druid是為OLAP工作流的探索性分析而構(gòu)建。它支持各種filter、aggregator和查詢類型,并為添加新功能提供了一個框架。用戶已經(jīng)利用Druid的基礎(chǔ)設(shè)施開發(fā)了高級查詢和直方圖功能。
交互式查詢——Druid的低延遲數(shù)據(jù)攝取架構(gòu)允許事件在它們創(chuàng)建后毫秒內(nèi)查詢,因為Druid的查詢延時通過只讀取和掃描有必要的元素被優(yōu)化。Aggregate和 filter沒有坐等結(jié)果。
高可用性——Druid是用來支持需要一直在線的SaaS的實現(xiàn)。你的數(shù)據(jù)在系統(tǒng)更新時依然可用、可查詢。規(guī)模的擴(kuò)大和縮小不會造成數(shù)據(jù)丟失。
可伸縮——現(xiàn)有的Druid部署每天處理數(shù)十億事件和TB級數(shù)據(jù)。Druid被設(shè)計成PB級別。
Druid主要是解決低延遲下實時數(shù)據(jù)攝入與查詢的平臺,本質(zhì)是一個數(shù)據(jù)存儲。數(shù)據(jù)存儲格式對一款存儲系統(tǒng)來說是最核心的組件,Druid 的數(shù)據(jù)格式是自定義的,以此保證了在海量數(shù)據(jù)下的亞秒級查詢。
Druid有如下一些特性:
1. 亞秒響應(yīng)的交互式查詢,支持較高并發(fā)。
2. 支持實時導(dǎo)入,導(dǎo)入即可被查詢,支持高并發(fā)導(dǎo)入。
3. 采用分布式 shared-nothing 的架構(gòu),可以擴(kuò)展到PB級。
4. 支持聚合函數(shù),count 和 sum,以及使用 JAVAscript 實現(xiàn)自定義 UDF。
5. 支持復(fù)雜的 Aggregator,近似查詢的 Aggregator,例如 HyperLoglog 以及 Yahoo 開源的 DataSketches。
6. 支持Groupby,Select,Search查詢。
7. 不支持大表之間的Join,但其 lookup 功能滿足和維度表的 Join。
Druid為什么查詢速度快?
數(shù)據(jù)的預(yù)聚合:Druid 可以按照給定的時間粒度和所有維度列,進(jìn)行最細(xì)粒度的指標(biāo)聚合運(yùn)算,并加以保存為原始數(shù)據(jù)。
列式存儲:對部分列進(jìn)行查詢時可以顯著提高效率。
Bitmap 索引:利用位圖對所有維度列構(gòu)建索引,可以快速定位數(shù)據(jù)行。
mmap:通過內(nèi)存映射文件的方式加快對于 Segment 的訪問。
查詢結(jié)果的中間緩存:支持對于查詢級別和 Segment 級別的緩存。
三、Druid使用場景
Druid適合于以下場景:
插入頻繁,但很少更新。
大多數(shù)查詢都是聚合和報告性質(zhì)的查詢(group by查詢)以及搜索和掃描查詢。
查詢延遲要求為100毫秒到幾秒。
數(shù)據(jù)中有一個時間組件(Druid包括具體與時間相關(guān)的優(yōu)化和設(shè)計選擇)。
有多個表,但每次查詢只能訪問一個大的分布式表,或者查詢可能會遇到多個較小的“查找”表。
有高基數(shù)數(shù)據(jù)列(例如URL,用戶ID),需要對它們進(jìn)行快速計數(shù)和排名。
希望從Kafka,HDFS,文件或?qū)ο蟠鎯Γㄈ鏏mazon S3)中加載數(shù)據(jù)。
Druid不適用于以下場景:
需要使用主鍵對現(xiàn)有記錄進(jìn)行低延遲更新。Druid支持流式插入,但不支持流式更新(使用后臺批處理作業(yè)進(jìn)行更新)。
需要構(gòu)建一個離線報告系統(tǒng),其中查詢延遲不是很重要。
想做big joins(將一個大事實表連接到另一個大事實表),可能完成這些查詢需要花費(fèi)你幾個小時。
四、Druid架構(gòu)圖
如圖所示,分為三種服務(wù)器類型:主服務(wù)器(Master)、查詢服務(wù)器(Query)和數(shù)據(jù)服務(wù)器(Data)。
Master:運(yùn)行Coordinator和Overlord進(jìn)程,管理數(shù)據(jù)可用性和攝取。
Query:運(yùn)行Broker和可選的Router進(jìn)程,處理來自外部客戶端的查詢。
Data:運(yùn)行Historical和MiddleManager進(jìn)程,運(yùn)行數(shù)據(jù)的采集以及存儲所有歷史查詢數(shù)據(jù)負(fù)載。
Druid有若干不同類型的進(jìn)程,簡單描述如下:
Coordinator 進(jìn)程:負(fù)責(zé)集群 Segment 的管理和發(fā)布,并確保 Segment 在 Historical 集群中的負(fù)載均衡。
Overlord 進(jìn)程:負(fù)責(zé)接受任務(wù)、協(xié)調(diào)任務(wù)的分配、創(chuàng)建任務(wù)鎖以及收集、返回任務(wù)運(yùn)行狀態(tài)給客戶端;通過設(shè)置 druid.Coordinator.asOverlord.enabled 屬性,Coordinator進(jìn)程和Overlord進(jìn)程可以作為單個組合進(jìn)程運(yùn)行。讓 Coordinator 具備 Overlord 功能,這樣可以減少一個組件的部署和運(yùn)維。
Broker 進(jìn)程:負(fù)責(zé)從客戶端接收查詢請求,并將查詢請求轉(zhuǎn)發(fā)給 Historical 節(jié)點(diǎn)和 MiddleManager 節(jié)點(diǎn)。Broker 節(jié)點(diǎn)需要感知 Segment 信息在集群上的分布。
Router 進(jìn)程:是一個可選進(jìn)程,可以將請求路由到Brokers、Coordinators和Overlords。
Historical 進(jìn)程:主要負(fù)責(zé)加載索引文件,同時提供歷史數(shù)據(jù)的查詢服務(wù)。
MiddleManager 進(jìn)程:主要是負(fù)責(zé)數(shù)據(jù)索引,生成索引文件,并把索引文件先發(fā)布到一個共享的存儲系統(tǒng)里,如普遍采用的 HDFS 系統(tǒng)。
在架構(gòu)圖中,最下面的部分是外部依賴。除了內(nèi)置的進(jìn)程類型外,Druid同時有三個外部依賴,它們旨在利用現(xiàn)有的基礎(chǔ)設(shè)施。
(1)Metadata Storage
存儲關(guān)于Druid中的Metadata,規(guī)則數(shù)據(jù)、配置數(shù)據(jù)等,主要包含以下幾張表:
druid_config(通常是空的),druid_rules(協(xié)作節(jié)點(diǎn)使用的一些規(guī)則信息,比如哪個segment從哪個node去load),druid_segments(存儲每個segment的metadata信息)。
生產(chǎn)環(huán)境中可以使用MySQL。
(2)Zookeeper
分布式協(xié)調(diào)服務(wù),用于節(jié)點(diǎn)管理和事件監(jiān)控。
查詢節(jié)點(diǎn)通過Zookeeper來感知實時節(jié)點(diǎn)和歷史節(jié)點(diǎn)的存在,提供查詢服務(wù)。
協(xié)調(diào)節(jié)點(diǎn)通過Zookeeper感知?dú)v史節(jié)點(diǎn),實現(xiàn)負(fù)載均衡。
統(tǒng)治節(jié)點(diǎn)、協(xié)調(diào)節(jié)點(diǎn)的leader選舉。
(2)Deep Storage
用于存儲 Segment 文件供 Historical 節(jié)點(diǎn)下載。Deep Storage 不屬于 Druid 內(nèi)部組件,用戶可根據(jù)系統(tǒng)規(guī)模來自定義配置。單節(jié)點(diǎn)可用本地磁盤,分布式可用 HDFS。
五、Druid的數(shù)據(jù)源和分段
Druid的數(shù)據(jù)存儲在DataSource中,DataSource 是一個邏輯概念,表示 Druid 的基本數(shù)據(jù)結(jié)構(gòu),可以理解為關(guān)系型數(shù)據(jù)庫中的表。它包含時間、維度和指標(biāo)三列。
時間(TimeStamp):表明每行數(shù)據(jù)的時間值,默認(rèn)使用 UTC 時間格式且精確到毫秒級別。這個列是數(shù)據(jù)聚合與范圍查詢的重要維度。
維度(Dimension):標(biāo)識數(shù)據(jù)行的各個類別信息。
指標(biāo)(Metric):用于聚合計算的列,這些指標(biāo)列通常是一些數(shù)字,主要操作包括 Count、Sum 和 Mean 等。
每一個數(shù)據(jù)源按照時間進(jìn)行分段,當(dāng)然你還可以選擇其他屬性進(jìn)行分段。
每一個時間區(qū)間被稱為一個"Chunk"。舉個例子,如果以天分區(qū),則一個Chunk為一天。在一個Chunk內(nèi),數(shù)據(jù)被分成一個或者多個"segments"。每個segment是一個單獨(dú)的文件,它由數(shù)以百萬的數(shù)據(jù)行構(gòu)成。因為segment是組織在時間Chunk里的,所以按照時間曲線有助于理解segments。
這些segment是按照時間組織成的Chunk,所以在按照時間查詢數(shù)據(jù)時,效率非常高。
segment 是 Druid 中數(shù)據(jù)的實際物理存儲格式,Druid 正是通過 segment 實現(xiàn)了對數(shù)據(jù)的橫縱向切割(Slice and Dice)操作:
橫向:通過參數(shù) segmentGranularity 的設(shè)置,將不同時間范圍內(nèi)的數(shù)據(jù)存儲在不同的 segment 數(shù)據(jù)塊中。這樣在指定時間范圍內(nèi)查詢時,可以不用掃全表。
縱向:即列式存儲,對每個列進(jìn)行切分并壓縮,且利用 Bitmap 構(gòu)建索引從而優(yōu)化數(shù)據(jù)訪問。
一個數(shù)據(jù)源剛開始由幾個segments組成,一直擴(kuò)展到幾百幾千甚至上百萬個segments。每個segment的生命周期始于被MiddleManager創(chuàng)建,這個時候segment是可變的沒有被提交的。一個segment的構(gòu)建包含以下列出來的幾個步驟,這種設(shè)計是為了滿足一個可以支持壓縮并可以被快速查詢的文件格式。
轉(zhuǎn)換成列式存儲格式
利用bitmap建立索引
利用多種算法進(jìn)行壓縮
segments會周期性地提交。此時它會被寫入deep storage,然后狀態(tài)改為不可變的。隨后它會被從MiddleManager移動到Historical進(jìn)程中去。與此同時,關(guān)于這個segment的一個條目也會被寫入元數(shù)據(jù)存儲。這個條目是描述該segment的元數(shù)據(jù),包含segment的schema、大小、以及它在deep storage上的存儲位置。所有這些類似的條目都會被Coordinator用來尋找對應(yīng)的數(shù)據(jù)是否在集群上是可用狀態(tài)的。
六、Druid應(yīng)用實踐
Druid當(dāng)前最新版本為0.20。下載鏈接:http://druid.apache.org/downloads.html
Druid 有著很成熟的用戶群體,包括國內(nèi)外的知名企業(yè),國外的話當(dāng)屬 Airbnb,這家公司在內(nèi)部大量使用 Druid 來做分析,包括他們開源的知名 BI 工具 Apache Superset,也在其中專門為 Druid 寫了一套 Query Engine。國內(nèi)公司像阿里、小米、58都在用。