日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務,提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

1. Spark是什么?

Spark,是一種通用的大數(shù)據(jù)計算框架,正如傳統(tǒng)大數(shù)據(jù)技術Hadoop的MapReduce、Hive引擎,以及Storm流式實時計算引擎等。

Spark包含了大數(shù)據(jù)領域常見的各種計算框架:比如Spark Core用于離線計算,Spark SQL用于交互式查詢,Spark Streaming用于實時流式計算,Spark MLlib用于機器學習,Spark GraphX用于圖計算。

Spark主要用于大數(shù)據(jù)的計算,而Hadoop以后主要用于大數(shù)據(jù)的存儲(比如HDFS、Hive、HBase等),以及資源調度(Yarn)。


2.Spark整體架構

大數(shù)據(jù)Spark和Hadoop以及區(qū)別(干貨)

 

Spark的特點:

速度快:Spark基于內存進行計算(當然也有部分計算基于磁盤,比如shuffle)。

容易上手開發(fā):Spark的基于RDD的計算模型,比Hadoop的基于Map-Reduce的計算模型要更加易于理解,更加易于上手開發(fā),實現(xiàn)各種復雜功能,比如二次排序、topn等復雜操作時,更加便捷。

超強的通用性:Spark提供了Spark RDD、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX等技術組件,可以一站式地完成大數(shù)據(jù)領域的離線批處理、交互式查詢、流式計算、機器學習、圖計算等常見的任務。

集成Hadoop:Spark并不是要成為一個大數(shù)據(jù)領域的“獨裁者”,一個人霸占大數(shù)據(jù)領域所有的“地盤”,而是與Hadoop進行了高度的集成,兩者可以完美的配合使用。Hadoop的HDFS、Hive、HBase負責存儲,YARN負責資源調度;Spark復雜大數(shù)據(jù)計算。實際上,Hadoop+Spark的組合,是一種“double win”的組合。

極高的活躍度:Spark目前是Apache基金會的頂級項目,全世界有大量的優(yōu)秀工程師是Spark的committer。并且世界上很多頂級的IT公司都在大規(guī)模地使用Spark。

大數(shù)據(jù)Spark和Hadoop以及區(qū)別(干貨)

 


Hadoop是什么?

 Hadoop是項目的總稱。主要是由HDFSMapReduce組成。HDFS是google File System(GFS)的開源實現(xiàn)。MapReduce是Google MapReduce的開源實現(xiàn)。 具體而言,Apache Hadoop軟件庫是一個允許使用簡單編程模型跨計算機集群處理大型數(shù)據(jù)集合的框架,其設計的初衷是將單個服務器擴展成上千個機器組成的一個集群為大數(shù)據(jù)提供計算服務,其中每個機器都提供本地計算和存儲服務。

Hadoop的核心:

1.HDFS和MapReduce是Hadoop的兩大核心。通過HDFS來實現(xiàn)對分布式儲存的底層支持,達到高速并行讀寫與大容量的儲存擴展。

2.通過MapReduce實現(xiàn)對分布式任務進行處理程序支持,保證高速分區(qū)處理數(shù)據(jù)。

MapReduce的計算模型分為Map和Reduce兩個過程。在日常經(jīng)驗里,我們統(tǒng)計數(shù)據(jù)需要分類,分類越細、參與統(tǒng)計的人數(shù)越多,計算的時間就越短,這就是Map的形象比喻,在大數(shù)據(jù)計算中,成百上千臺機器同時讀取目標文件的各個部分,然后對每個部分的統(tǒng)計量進行計算,Map就是負責這一工作的;而Reduce就是對分類計數(shù)之后的合計,是大數(shù)據(jù)計算的第二階段。可見,數(shù)據(jù)的計算過程就是在HDFS基礎上進行分類匯總。

大數(shù)據(jù)Spark和Hadoop以及區(qū)別(干貨)

 

HDFS把節(jié)點分成兩類:NameNode和DataNode。NameNode是唯一的,程序與之通信,然后從DataNode上存取文件。這些操作是透明的,與普通的文件系統(tǒng)API沒有區(qū)別。

MapReduce則是JobTracker節(jié)點為主,分配工作以及負責和用戶程序通信。


Spark和Hadoop的區(qū)別和比較:

1.原理比較:

Hadoop和Spark都是并行計算,兩者都是用MR模型進行計算

Hadoop一個作業(yè)稱為一個Job,Job里面分為Map Task和Reduce Task階段,每個Task都在自己的進程中運行,當Task結束時,進程也會隨之結束;

Spark用戶提交的任務稱為Application,一個application對應一個SparkContext,app中存在多個job,每觸發(fā)一次action操作就會產生一個job。這些job可以并行或串行執(zhí)行,每個job中有多個stage,stage是shuffle過程中DAGScheduler通過RDD之間的依賴關系劃分job而來的,每個stage里面有多個task,組成taskset,由TaskScheduler分發(fā)到各個executor中執(zhí)行;executor的生命周期是和app一樣的,即使沒有job運行也是存在的,所以task可以快速啟動讀取內存進行計算。

2.數(shù)據(jù)的存儲和處理:

hadoop:

Hadoop實質上更多是一個分布式系統(tǒng)基礎架構: 它將巨大的數(shù)據(jù)集分派到一個由普通計算機組成的集群中的多個節(jié)點進行存儲,同時還會索引和跟蹤這些數(shù)據(jù),大幅度提升大數(shù)據(jù)處理和分析效率。Hadoop 可以獨立完成數(shù)據(jù)的存儲和處理工作,因為其除了提供HDFS分布式數(shù)據(jù)存儲功能,還提供MapReduce數(shù)據(jù)處理功能。

spark:

Spark 是一個專門用來對那些分布式存儲的大數(shù)據(jù)進行處理的工具,沒有提供文件管理系統(tǒng),自身不會進行數(shù)據(jù)的存儲。它必須和其他的分布式文件系統(tǒng)進行集成才能運作。可以選擇Hadoop的HDFS,也可以選擇其他平臺。

3.處理速度:

hadoop:

Hadoop是磁盤級計算,計算時需要在磁盤中讀取數(shù)據(jù);其采用的是MapReduce的邏輯,把數(shù)據(jù)進行切片計算用這種方式來處理大量的離線數(shù)據(jù).

spark:

Spark,它會在內存中以接近“實時”的時間完成所有的數(shù)據(jù)分析。Spark的批處理速度比MapReduce快近10倍,內存中的數(shù)據(jù)分析速度則快近100倍。

4.恢復性:

hadoop:

Hadoop將每次處理后的數(shù)據(jù)寫入磁盤中,對應對系統(tǒng)錯誤具有天生優(yōu)勢。

spark:

Spark的數(shù)據(jù)對象存儲在彈性分布式數(shù)據(jù)集(RDD:)中。“這些數(shù)據(jù)對象既可放在內存,也可以放在磁盤,所以RDD也提供完整的災難恢復功能。

5.處理數(shù)據(jù):

hadoop:

Hadoop適合處理靜態(tài)數(shù)據(jù),對于迭代式流式數(shù)據(jù)的處理能力差;

spark:

Spark通過在內存中緩存處理的數(shù)據(jù),提高了處理流式數(shù)據(jù)和迭代式數(shù)據(jù)的性能;

6.中間結果:

hadoop:

Hadoop中中間結果存放在HDFS中,每次MR都需要刷寫-調用,

spark:

而Spark中間結果存放優(yōu)先存放在內存中,內存不夠再存放在磁盤中,不放入HDFS,避免了大量的IO和刷寫讀取操作;


三大分布式計算系統(tǒng):

Hadoop適合處理離線的靜態(tài)的大數(shù)據(jù);

Spark適合處理離線的流式的大數(shù)據(jù);

Storm/Flink適合處理在線的實時的大數(shù)據(jù)。



記錄學習,每天進步一點點的橘子大王。

分享到:
標簽:數(shù)據(jù)
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定