日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

如何確定Apache Kafka的大小和規(guī)模
作者丨Andrew Mills

編譯丨云昭

調(diào)整或擴(kuò)展Kafka以獲得最佳成本和性能的第一步是了解數(shù)據(jù)流平臺(tái)如何使用資源。這里給一些實(shí)用的建議。

實(shí)現(xiàn)Apache Kafka的團(tuán)隊(duì),或者擴(kuò)展他們對(duì)強(qiáng)大的開(kāi)源分布式事件流平臺(tái)的使用,通常需要幫助理解如何根據(jù)他們的需求正確地調(diào)整和擴(kuò)展Kafka資源。這可能很棘手。

無(wú)論您是在考慮云資源還是預(yù)處理硬件資源,了解Kafka集群將如何利用CPU、RAM和存儲(chǔ)(并了解應(yīng)遵循的最佳實(shí)踐),都將使您處于一個(gè)更好的位置,可以立即獲得正確的規(guī)模。結(jié)果將是成本和性能之間的優(yōu)化平衡。讓我們來(lái)看看Kafka是如何使用資源的,瀏覽一個(gè)有指導(dǎo)意義的用例,以及優(yōu)化Kafka部署的最佳實(shí)踐。

1、Kafka如何利用CPU的?

一般來(lái)說(shuō),Apache Kafka在CPU利用率方面比較輕。在選擇基礎(chǔ)設(shè)施時(shí),我傾向于擁有更多的核心而不是更快的核心,以提高并行化水平。影響CPU使用量的因素有很多,其中最主要的是SSL身份驗(yàn)證和日志壓縮。其他考慮因素是每個(gè)代理?yè)碛械姆謪^(qū)數(shù)量、有多少數(shù)據(jù)將進(jìn)入磁盤、Kafka消費(fèi)者的數(shù)量(此處詳細(xì)介紹),以及這些消費(fèi)者離實(shí)時(shí)性有多近。如果您的數(shù)據(jù)消費(fèi)者正在獲取舊數(shù)據(jù),那么從磁盤獲取數(shù)據(jù)將花費(fèi)CPU時(shí)間。我們將在下一節(jié)中對(duì)此進(jìn)行深入探討。

了解CPU使用背后的這些基本驅(qū)動(dòng)因素對(duì)于幫助團(tuán)隊(duì)正確確定可用CPU功率至關(guān)重要。

2、Kafka如何使用RAM的?

RAM需求主要取決于需要在內(nèi)存中保留多少“熱”數(shù)據(jù)并可用于快速訪問(wèn)。一旦收到消息,Kafka就會(huì)將數(shù)據(jù)交給底層操作系統(tǒng)的頁(yè)面緩存,后者負(fù)責(zé)將數(shù)據(jù)保存到磁盤。

從大小和可伸縮性的角度來(lái)看,RAM的正確數(shù)量取決于您的用例的數(shù)據(jù)訪問(wèn)模式。如果您的團(tuán)隊(duì)將Kafka部署為實(shí)時(shí)數(shù)據(jù)流(使用轉(zhuǎn)換并公開(kāi)消費(fèi)者將在幾秒鐘內(nèi)提取的數(shù)據(jù)),則RAM需求通常很低,因?yàn)橹恍枰趦?nèi)存中存儲(chǔ)幾秒鐘的數(shù)據(jù)。或者,如果您的Kafka消費(fèi)者需要提取幾分鐘或幾小時(shí)的數(shù)據(jù),那么您需要考慮RAM中需要多少數(shù)據(jù)。

CPU和RAM利用率之間的關(guān)系很重要。如果Kafka可以訪問(wèn)RAM中的數(shù)據(jù),那么它就不必花費(fèi)CPU資源從磁盤中獲取數(shù)據(jù)。如果RAM中沒(méi)有可用的數(shù)據(jù),代理程序?qū)拇疟P中提取數(shù)據(jù),從而消耗CPU資源,并在數(shù)據(jù)傳遞中增加一些延遲。實(shí)現(xiàn)Kafka的團(tuán)隊(duì)在調(diào)整CPU和RAM資源時(shí)應(yīng)該考慮到這種關(guān)系。

3、Kafka如何使用存儲(chǔ)

有幾個(gè)因素會(huì)影響Kafka存儲(chǔ)需求,如保留時(shí)間、數(shù)據(jù)轉(zhuǎn)換和適當(dāng)?shù)膹?fù)制因素。考慮這個(gè)例子:每天有幾TB的數(shù)據(jù)落在一個(gè)Kafka主題上,使用Kafka對(duì)該數(shù)據(jù)執(zhí)行六次轉(zhuǎn)換以保留中間數(shù)據(jù),每個(gè)主題保留數(shù)據(jù)三天,復(fù)制因子設(shè)置為3。很容易看出,團(tuán)隊(duì)可以根據(jù)使用Kafka的方式,將存儲(chǔ)的數(shù)據(jù)需求快速增加一倍、三倍或四倍。您需要充分了解這些因素才能正確確定存儲(chǔ)大小。

4、Kafka預(yù)定大小示例

以下是我們工作中的一個(gè)真實(shí)例子,幫助媒體娛樂(lè)行業(yè)的服務(wù)提供商正確確定預(yù)先部署的Kafka的規(guī)模。該業(yè)務(wù)的峰值吞吐量入口為每秒10GB。組織需要存儲(chǔ)10%的數(shù)據(jù)(每天總計(jì)9TB),并將這些數(shù)據(jù)保留30天。從復(fù)制的角度來(lái)看,該公司將存儲(chǔ)該數(shù)據(jù)的三個(gè)拷貝,總存儲(chǔ)需求為810TB。為了應(yīng)對(duì)潛在的峰值,明智的做法是在預(yù)期需求的基礎(chǔ)上增加30-40%的空間,這意味著組織應(yīng)該有1.2PB的可用存儲(chǔ)空間。它們不使用SSL,而且大多數(shù)消費(fèi)者都需要實(shí)時(shí)數(shù)據(jù),因此CPU和RAM需求不如存儲(chǔ)重要。他們確實(shí)有一些批處理進(jìn)程在運(yùn)行,但延遲不是一個(gè)問(wèn)題,所以數(shù)據(jù)來(lái)自磁盤是安全的。

雖然這個(gè)特定的用例仍在構(gòu)建中,但該示例演示了使用基本數(shù)據(jù)計(jì)算給定Kafka實(shí)現(xiàn)的最小有效規(guī)模的過(guò)程,然后從中探索擴(kuò)大場(chǎng)景的潛在需求。

5、Kafka容量規(guī)劃最佳實(shí)踐

了解給定用例的特定體系結(jié)構(gòu)——主題設(shè)計(jì)、消息大小、消息量、數(shù)據(jù)訪問(wèn)模式、消費(fèi)者數(shù)量等——可以提高預(yù)測(cè)大小的準(zhǔn)確性。在考慮每個(gè)代理的適當(dāng)存儲(chǔ)密度時(shí),請(qǐng)考慮在由于熱點(diǎn)或代理丟失而重新分配分區(qū)期間重新流式傳輸數(shù)據(jù)所需的時(shí)間。如果你將100TB連接到Kafka代理,但它失敗了,那么你正在重新傳輸大量數(shù)據(jù)。這可能會(huì)導(dǎo)致網(wǎng)絡(luò)飽和,從而阻礙入口或出口流量,并導(dǎo)致生產(chǎn)商失敗。有一些方法可以抑制回流,但你會(huì)發(fā)現(xiàn)平均恢復(fù)時(shí)間顯著增加。         

6、常見(jiàn)的誤解

現(xiàn)在,越來(lái)越多的供應(yīng)商為Kafka提供專有的分層存儲(chǔ),并將Kafka作為數(shù)據(jù)庫(kù)或數(shù)據(jù)湖。卡夫卡不是一個(gè)數(shù)據(jù)庫(kù)。雖然您可以使用Kafka進(jìn)行長(zhǎng)期存儲(chǔ),但您必須了解其中的權(quán)衡。

從Kafka作為實(shí)時(shí)數(shù)據(jù)流引擎到充當(dāng)數(shù)據(jù)庫(kù)或數(shù)據(jù)湖的演變屬于一種熟悉的模式。專門為特定用例設(shè)計(jì)的技術(shù)有時(shí)會(huì)成為某些用戶的錘子,然后每個(gè)問(wèn)題都像釘子一樣。這些用戶將嘗試修改專門構(gòu)建的工具以適應(yīng)他們的用例,而不是查看已經(jīng)解決問(wèn)題的其他技術(shù)。

這讓我想起了Apache Cassandra意識(shí)到來(lái)自關(guān)系世界的用戶正在努力理解數(shù)據(jù)模型在扁平行中的重要性。用戶在開(kāi)始存儲(chǔ)數(shù)據(jù)之前不習(xí)慣理解訪問(wèn)模式,他們只會(huì)在現(xiàn)有表上添加另一個(gè)索引。在Cassandra v3.0中,該項(xiàng)目公開(kāi)了物化視圖,類似于索引關(guān)系表,但實(shí)現(xiàn)方式不同。從那時(shí)起,這個(gè)功能就充滿了問(wèn)題,并被標(biāo)記為實(shí)驗(yàn)性的。我覺(jué)得Kafka作為數(shù)據(jù)庫(kù)或數(shù)據(jù)湖的想法注定會(huì)有類似的命運(yùn)。

7、找到合適的尺寸以獲得最佳成本和Kafka性能

在沒(méi)有首先了解Kafka資源利用率的情況下匆忙進(jìn)入Kafka實(shí)現(xiàn)的團(tuán)隊(duì)經(jīng)常會(huì)遇到問(wèn)題和障礙,這些問(wèn)題和障礙教會(huì)了他們艱難的道路。通過(guò)花時(shí)間了解Kafka的資源需求,團(tuán)隊(duì)將實(shí)現(xiàn)更高效的成本和性能,他們將能夠更有效地支持他們的應(yīng)用程序。

參考鏈接: https://www.infoworld.com/article/3708250/how-to-size-and-scale-apache-kafka-without-tears.html

分享到:
標(biāo)簽:Kafka
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定