時下不論是在全文搜索領(lǐng)域還是大數(shù)據(jù)即時處理領(lǐng)域ELK都一枝獨(dú)秀,而ELK的核心在于Elasticsearch,ELK很秀源于Elasticsearch很棒。很多可能用過ELK但是對其核心Elasticsearch卻知之甚少,本文我們就一起來學(xué)習(xí)Elasticsearch,從基本概念到生產(chǎn)使用一文全搞定。
基礎(chǔ)概念
對于一個Elasticsearch(ES)的新手,首先需要學(xué)習(xí)一些基本概念。
Elasticsearch項(xiàng)目源于JAVA的優(yōu)秀的分布式搜索引擎Apache Lucene,Luncene還派生了另一個非常優(yōu)秀的搜索項(xiàng)目Solor。不管是是Elasticsearch和Solor其底層保存數(shù)據(jù)和搜索引擎部分都是Lucene。ES在基于Lucene內(nèi)核上更加優(yōu)秀的一個分布式實(shí)時搜索引擎,尤其在分布式集群和橫向擴(kuò)展方面做的非常好,可以很輕松地運(yùn)行管理數(shù)千個Lucene實(shí)例。
在ES架構(gòu)中的最高級別單元是群集(Cluster)。集群是ES節(jié)點(diǎn)和索引的集合。
節(jié)點(diǎn)(Node)是ES的實(shí)例。它們可以是單個服務(wù)器,也可以僅僅為服務(wù)器上運(yùn)行的ES進(jìn)程。注意:服務(wù)器并等價于節(jié)點(diǎn)不相同。VM虛擬機(jī)或物理服務(wù)器都可以容納許多ES進(jìn)程,每個ES進(jìn)程都是一個節(jié)點(diǎn)。節(jié)點(diǎn)可以完全加入一個集群。有不同類型的節(jié)點(diǎn)。其中最有重要兩個節(jié)點(diǎn)是數(shù)據(jù)節(jié)點(diǎn)(Data Node)和備選主節(jié)點(diǎn)(Master-Eligible Node)。一個節(jié)點(diǎn)可以同時具備多種屬性。數(shù)據(jù)節(jié)點(diǎn)運(yùn)行所有數(shù)據(jù)操作。即存儲,索引和搜索數(shù)據(jù)。備選主節(jié)點(diǎn)用來投票為運(yùn)行集群和索引管理的主機(jī)。
索引(Index)是數(shù)據(jù)的高級抽象。索引本身不保存數(shù)據(jù)。它們只是對實(shí)際存儲數(shù)據(jù)的另一種抽象。對數(shù)據(jù)執(zhí)行的任何操作(例如插入,刪除,建立索引和搜索)都會對索引產(chǎn)生影響。索引可以完全屬于一個簇,并且由分片組成。
分片(Shard)是Apache Lucene的實(shí)例。一個分片可以容納許多文檔。分片是實(shí)際數(shù)據(jù)存儲,索引和搜索的對象。一個分片恰好屬于一個節(jié)點(diǎn)和索引。分片分兩種類型:主(primary)分片和副本(replica)。兩者基本上是等同的,它們擁有相同的數(shù)據(jù),并且并行搜索所有分片。在擁有相同數(shù)據(jù)的所有分片中,一個是主分片,是唯一可以接受索引請求的分片。如果主分片所在的節(jié)點(diǎn)死亡,則副本分片將自動接管成為主分片。然后,ES將創(chuàng)建一個新的副本分片并復(fù)制數(shù)據(jù)。總體上可以用一個簡單的圖示如下:
深入了解
如果想運(yùn)行一個系統(tǒng),首先需要了解該系統(tǒng)。在了解基礎(chǔ)概念后,我們來實(shí)際了解Elasticsearch的各個部分。
Quorum
理解Elasticsearch組織是一個民主機(jī)制很重要。節(jié)點(diǎn)通過投票決定誰是老大Master,即主節(jié)點(diǎn)。該主節(jié)點(diǎn)主運(yùn)行很多集群管理進(jìn)程,在集群中享有最終決定權(quán)。ES的 選舉是有條件的,既只有備選節(jié)點(diǎn)才能參與選舉成為主節(jié)點(diǎn)。符合Master資格的是其配置中設(shè)置為下面條件的所有節(jié)點(diǎn):
node.master: true
在群集啟動時或主節(jié)點(diǎn)退出群集時,所有符合主節(jié)點(diǎn)條件的節(jié)點(diǎn)都會開始選舉新的主節(jié)點(diǎn)。因此,需要具有2n + 1個符合主機(jī)要求的節(jié)點(diǎn)。否則,可能會出現(xiàn)選舉55開的裂腦情況。
節(jié)點(diǎn)加入
當(dāng)ES流程啟動時,它就獨(dú)立自由存在,他如何知道自己所處的集群呢?有不同的方法可以完成此操作。但常用一種叫做種子主機(jī)(Seed Hosts)的方法來這個過程。
Elasticsearch節(jié)點(diǎn)會不斷地和他所見過的所有其他節(jié)點(diǎn)進(jìn)行對話。因此,一個節(jié)點(diǎn)最初只需資詢幾個其他節(jié)點(diǎn)即可了解整個集群。整個過程不是一個恒定的過程:節(jié)點(diǎn)不屬于集群時,它們僅共享有關(guān)他們發(fā)現(xiàn)的其他節(jié)點(diǎn)的信息。一旦加入群集,節(jié)點(diǎn)便會停止該操作,并依靠當(dāng)選群集主節(jié)點(diǎn)共享所發(fā)生的變化信息。這樣可以節(jié)省了大量不必要的網(wǎng)絡(luò)閑聊。在ES 7.x中,節(jié)點(diǎn)間只交流他們所見到到備選主機(jī)節(jié)點(diǎn),發(fā)現(xiàn)過程會忽略備選主機(jī)節(jié)點(diǎn)。
以一個三節(jié)點(diǎn)集群的為例:
初始狀態(tài):
節(jié)點(diǎn)A和C只是知道B。B是種子主機(jī)。種子主機(jī)要么以配置文件的形式提供給ES,要么直接放入elasticsearch.yml中。
節(jié)點(diǎn)A與B連接并交換信息:
一旦節(jié)點(diǎn)A連接到B,B現(xiàn)在就知道了A的存在。A沒有任何變化。
節(jié)點(diǎn)C連接并與B共享信息
現(xiàn)在C連線,C會和B通訊。B就會告訴C A的存在。C和B現(xiàn)在都知道群集中的所有節(jié)點(diǎn)。下一次A重新連接到B,它也會知道C的存在。
段合并
前面我們說過,分片存儲數(shù)據(jù)。數(shù)據(jù)將以..文件的形式存儲在文件系統(tǒng)中。在Lucene和Elasticsearch中,這些文件被稱為段(Segments)。一個分片會有一到數(shù)千個段。
段是物理上實(shí)際存在的文件,可以在ES安裝的data目錄中看到。所以端文件的操作是個開銷。如果要查看,必須要找到對應(yīng)的文件并打開。如果要打開許多文件,那么將會帶來很大的開銷。由于Lucene中的段是不可變的,只能寫入不可更改。放入ES中的每個文檔都將創(chuàng)建一個僅包含單個文檔的段。那么,如果集群中有十億個文檔則對應(yīng)會有十億個段文件么?
實(shí)際上不是這樣的。在Lucene后臺,會進(jìn)行段合并。該操作不對段進(jìn)行更改,但是可以兩個較小段的數(shù)據(jù)合并創(chuàng)建新的段,并將合并的兩個小段清理掉:
lucene會不斷段合并,并 保持段數(shù)量不會太大。
消息路由
在Elasticsearch中,可以對集群中的任何節(jié)點(diǎn)運(yùn)行任何命令,并且保持結(jié)果將相同。然而,在最底層文檔將只存在于一個主分片及其副本中,而ES該文檔位于何處,也沒有映射說明特定文檔位于特定分片中。
如果進(jìn)行搜索,請求入口點(diǎn)ES節(jié)點(diǎn)會將其廣播到索引中的所有分片,這些分片來查看該文檔的所有段。如果要插入,則ES節(jié)點(diǎn)會隨機(jī)選擇一個主分片并??將文檔放在其中,然后將其寫入該主要分片及其所有副本。
生產(chǎn)實(shí)踐
最后部分來說說在生產(chǎn)中如何部署和管理Elasticsearc。
Elasticsearch實(shí)踐中最常見的一個問題是,估計(jì)需要的集群規(guī)模,包括節(jié)點(diǎn)數(shù)量,需要硬件資源等。
內(nèi)存
首先要考慮內(nèi)存使用,內(nèi)存大小將限制所有其他資源。
Java堆
ES是用Java開發(fā)的。Java要用堆,可以將其視為Java保留的內(nèi)存。關(guān)于堆,有所有重要的東西會使這個文檔的大小增加三倍。
關(guān)于盡量可能多的使用,但堆大小不要超過30G。
有一個這很多人都不知道的關(guān)于堆的秘密:堆中的每個對象都需要一個唯一的地址,即一個對象指針。該地址的長度是固定的,所以可以尋址的對象數(shù)量是有限的。簡而言之,在某一時刻,Java會需要使用壓縮的對象指針而不是未壓縮的對象指針。這樣每個內(nèi)存訪問都將涉及其他步驟,并且速度會慢得多。請不要超過此閾值(大約32G)。
根據(jù)社區(qū)對Elasticsearch的不同文件系統(tǒng),堆大小,F(xiàn)S和BIOS的組合的基準(zhǔn)測試,結(jié)果如下:
如上圖所示,從32G的堆大小開始,性能突然開始變差(50%訪問延時,越小越好)。
吞吐量結(jié)果(越大越好)也類似:
總之,請使用29G或30G的內(nèi)存,請使用XFS,并盡可能使用hardwareprefetch和llc-prefetch。
文件緩存
絕大大多數(shù)人會在linux上運(yùn)行Elasticsearch,Linux使用RAM作為文件系統(tǒng)緩存。常見的建議是將64G用于ES服務(wù)器,這樣一半的緩存,一半的堆。大型ES群集(如用于日志記錄)可以從擁有大容量的FS緩存中獲益。如果所有的索引都適合堆,則不需要那么多。
Elasticsearch 7.x會在其堆上需要一定數(shù)量的直接內(nèi)存,并且還有其他開銷,這就是為什么建議堆大小不超過物理內(nèi)存的50%的原因。這是一個上限,64GB主機(jī)上的32GB堆可能不能為文件系統(tǒng)緩存保留太多空間。文件系統(tǒng)緩存是Elasticsearch/Lucene性能的關(guān)鍵,并且較小的堆有時可以產(chǎn)生更好的性能(它們?yōu)槲募到y(tǒng)緩存留出更多空間,并且對于GC而言也更便宜)。
CPU
這取決于對群集執(zhí)行的操作。如果要進(jìn)行大量索引編制,則與僅執(zhí)行日志記錄相比,需要更多,更快的CPU。對于日志記錄,一般來說8核CPU就綽綽有余,但是更具不同用途,要具體實(shí)踐而定。
磁盤
如果索引分配到合適的內(nèi)存,則磁盤僅在節(jié)點(diǎn)冷時才重要。而且實(shí)際可以存儲的數(shù)據(jù)量取決于索引布局。每個分片都是Lucene實(shí)例,它們都有內(nèi)存需求。這樣可以在堆中容納最大數(shù)量的分片。通常,可以將所有數(shù)據(jù)磁盤放入RAID0。應(yīng)該在Elasticsearch級別進(jìn)行復(fù)制,因此丟失節(jié)點(diǎn)無關(guān)緊要。不要請將LVM和多個磁盤一起使用,因?yàn)長VM一次只能寫入一個磁盤,根本就不會給帶來多個磁盤的好處。
關(guān)于文件系統(tǒng)和RAID設(shè)置:
調(diào)度器:cfq和截止日期優(yōu)于noop。如果有nvme,Kyber可能會很好(未嚴(yán)格測試過)
QueueDepth:盡可能高
預(yù)讀:是的,請使用
Raid塊大小:無影響
FS塊大小:無影響
FS類型:XFS優(yōu)于ext4
索引布局
大程度上取決于的用例。從日志集群背景為例來說。
分片
簡而言之:
對于寫繁重的工作負(fù)載,主分片=節(jié)點(diǎn)數(shù)
于讀繁重的工作負(fù)載,主分片*復(fù)制=節(jié)點(diǎn)數(shù)
更多副本=更高的搜索性能
可以通過一個公式來計(jì)算寫入性能:
節(jié)點(diǎn)吞吐量*主分片數(shù)
原因很簡單:如果只有一個主分片,那么只能像一個節(jié)點(diǎn)可以寫入數(shù)據(jù)那樣快地寫入數(shù)據(jù),因?yàn)橐粋€分片只能位于一個節(jié)點(diǎn)上。如果確實(shí)想優(yōu)化寫入性能,則應(yīng)確保每個節(jié)點(diǎn)上只有一個分片(主節(jié)點(diǎn)或副本),因?yàn)楦北撅@然獲得與主節(jié)點(diǎn)相同的寫入,并且寫入很大程度上取決于磁盤IO。
注意:如果有很多索引,則可能不正確,而瓶頸可能是其他原因。
如果要優(yōu)化搜索性能,可以通過以下公式給出搜索性能:
節(jié)點(diǎn)吞吐量*(主分片數(shù)+副本數(shù))
對于搜索,主碎片和副本分片基本上是等同的。因此,如果想提高搜索性能,只需增加副本數(shù)即可。
規(guī)模大小
關(guān)于索引大小有很懂資料。我們在此一個經(jīng)驗(yàn)是:
30G堆=每個節(jié)點(diǎn)最多140個分片
使用多余140分片,可能會使Elasticsearch進(jìn)程崩潰并出現(xiàn)內(nèi)存不足錯誤。因?yàn)槊總€分片都是Lucene實(shí)例,并且每個實(shí)例都需要一定數(shù)量的內(nèi)存。所以,每個節(jié)點(diǎn)可以有多少個分片。
如果有節(jié)點(diǎn)數(shù)量,分片數(shù)量和索引大小,則可以容納多少個索引:
分片數(shù)量=(140*節(jié)點(diǎn)數(shù))/(主分片數(shù)*副本率)
這樣就可以計(jì)算出,所需要的大小:
索引大小=(節(jié)點(diǎn)數(shù) * 硬盤大小)/索引數(shù)量
請注:較大的索引也相對較慢。對于日志記錄來說,一定程度是可以的,但是對于真正搜索繁重的應(yīng)用程序,應(yīng)該根據(jù)所擁有的內(nèi)存數(shù)量來增加大小。
段合并
請記住,每個段都是文件系統(tǒng)上的實(shí)際文件。基本上,對于每個搜索查詢,都會轉(zhuǎn)到索引中的所有分片,再從那里到分片中的所有段。段文件太多會極大地增加群集的讀取IOPS,直至無法使用。因此,最好將段數(shù)保持在盡可能低的水平。
有一個force_merge API,允許將段合并到一定數(shù)量,例如1。如果進(jìn)行索引輪換,例如,因?yàn)槭褂肊lasticsearch進(jìn)行日志記錄,則在不使用群集時進(jìn)行常規(guī)使用中的強(qiáng)制合并是一個好主意。
強(qiáng)制合并會占用大量資源,并且會大大降低群集的速度,如果有很多索引,則必須要強(qiáng)制合并。
集群布局
對于除最小設(shè)置以外的所有內(nèi)容,最好使用專用的符合主機(jī)資格的節(jié)點(diǎn)。保持具有2n + 1個備選節(jié)點(diǎn)以確保仲裁。但是對于數(shù)據(jù)節(jié)點(diǎn),只希望能夠隨時添加一個新節(jié)點(diǎn),而不必?fù)?dān)心。另外,也不希望數(shù)據(jù)節(jié)點(diǎn)上的高負(fù)載影響的主節(jié)點(diǎn)。
最后,主節(jié)點(diǎn)是種子節(jié)點(diǎn)的理想候選者。
記住,種子節(jié)點(diǎn)是在Elasticsearch中執(zhí)行節(jié)點(diǎn)發(fā)現(xiàn)的最簡單方法。由于的主節(jié)點(diǎn)很少會會更改,因此,它們是最佳選擇,他們已經(jīng)知道了集群中的所有其他節(jié)點(diǎn)。
主節(jié)點(diǎn)可能很小,一個核心甚至4G的內(nèi)存就可以滿足大多數(shù)群集的需求。與往常一樣,關(guān)注實(shí)際使用情況并進(jìn)行相應(yīng)調(diào)整。
監(jiān)控
監(jiān)控是個好東西,對Elasticsearch也是如此。ES為提供了大量的指標(biāo),并且支持以JSON的形式為方便調(diào)用,在監(jiān)控工具中添加這些指標(biāo)非常簡單。以下是一些有用的監(jiān)控指標(biāo)包括:
段數(shù),堆使用率,堆GC時間,搜索、索引、合并的平均用時,IOPS,磁盤利用率等
總結(jié)
本文,我們由簡到深入再到實(shí)踐實(shí)戰(zhàn),介紹了Elasticsearch使用的全部信息。主要是分享干貨 ,沒有其他枝枝節(jié)節(jié)的描寫和內(nèi)容,希望對大家有所幫助。