Hadoop，HDFS，HBase，Hive 有什么不同？

> Photo by Mr Cup / Fabien Barral on Unsplash

隨著技術(shù)的快速變化，越來越多的數(shù)據(jù)一直在生成。

據(jù)最新的全球數(shù)據(jù)領(lǐng)域估計，到2025年，全世界產(chǎn)生的數(shù)據(jù)量將增長到175 ZB。

公司現(xiàn)在需要改進(jìn)的軟件來管理這些海量數(shù)據(jù)。他們一直在尋找處理和存儲數(shù)據(jù)并將其分布在不同服務(wù)器上的方法，以便他們可以利用它們。

在本文中，我們將討論特定的數(shù)據(jù)管理工具系列，這些工具在討論時經(jīng)常會引起混淆和互換使用。今天，我們將討論Hadoop，HDFS，HBase和Hive，以及它們?nèi)绾螏椭覀兲幚砗痛鎯Υ罅繑?shù)據(jù)。

Hadoop

Hadoop是指幾種不同技術(shù)的統(tǒng)稱。但是，Hadoop還是特定的軟件框架。它使用戶能夠輕松管理分布式計算和存儲。它通過將文檔劃分到多個存儲區(qū)和跨機器集群的塊中來實現(xiàn)。

為了實現(xiàn)容錯，Hadoop將這些存儲復(fù)制到集群上。然后，它通過將作業(yè)劃分為幾個較小的獨立任務(wù)來執(zhí)行分布式處理。然后，此任務(wù)在計算機群集上并行運行。

Hadoop通過集群服務(wù)對大型數(shù)據(jù)集進(jìn)行分布式處理，以同時在多臺計算機上工作。為了在Hadoop上處理任何數(shù)據(jù)，我們使用了幾種服務(wù)，我們將討論：

· HDFS：HDFS或Hadoop分布式文件系統(tǒng)是一種主要-次要拓?fù)洌哂袃蓚€運行的守護程序：DataNode和NameNode。稍后再詳細(xì)介紹。

· MapReduce：這是一種在分布式集群上并行處理大數(shù)據(jù)的算法。然后，MapReduce可以將此數(shù)據(jù)合并為結(jié)果。

· YARN：YARN的功能是將源管理，作業(yè)監(jiān)視和計劃任務(wù)劃分為單獨的守護程序。它可以超越數(shù)千個節(jié)點。這是因為YARN聯(lián)合允許用戶將多個群集通過到一個大群集中。我們可以在一個較大的工作中同時使用許多獨立的集群，這是通過較大規(guī)模的系統(tǒng)實現(xiàn)的。

HDFS

如前所述，HDFS是在兩個守護程序（DataNode和NameNode）上運行的主次拓?fù)洹?/p>

名稱節(jié)點存儲元數(shù)據(jù)，其中所有數(shù)據(jù)都存儲在DataNodes中。另外，如果您的NameNode發(fā)生故障并且沒有任何備份，則整個Hadoop實例將無法訪問。就像在迭代鏈表時丟失指針一樣。如果您不知道接下來數(shù)據(jù)的存儲位置，則無法訪問。

另一方面，DataNode是實際存儲數(shù)據(jù)的位置。如果任何特定的DataNode關(guān)閉，這應(yīng)該沒問題，因為NameNode經(jīng)常會跨數(shù)據(jù)節(jié)點管理同一數(shù)據(jù)塊的多個實例（這在某種程度上取決于配置）。

借助Hadoop分布式文件系統(tǒng)，您可以在服務(wù)器上一次寫入數(shù)據(jù)，然后多次讀取。 HDFS是立即處理大量數(shù)據(jù)的理想選擇。

原因是HDFS與硬件群集商品上的NameNode和DataNode一起使用。實際上，這是Hadoop流行的主要原因之一。

您可以在廉價的硬件上運行HDFS并輕松地橫向擴展（這意味著購買更多的機器來處理數(shù)據(jù)），這一事實使它成為非常受歡迎的選擇。以前，大多數(shù)公司都依靠垂直擴展（購買通常很昂貴但可以單獨處理更多數(shù)據(jù)的服務(wù)器）。這是昂貴的并且具有更多的計算限制。

HDFS和Hadoop與MapReduce等其他基礎(chǔ)層組件相結(jié)合，使各種規(guī)模和能力的企業(yè)都可以擴展其數(shù)據(jù)處理，而無需購買昂貴的設(shè)備。

HBase

HDFS和Hadoop有點相同，我們可以互換使用術(shù)語來理解開發(fā)人員。

但是，HBase是非常不同的。

HBase是建立在Hadoop文件系統(tǒng)之上的開源，面向列的數(shù)據(jù)庫。在某種程度上，這是人們更熟悉的層，從某種意義上說，它與典型的數(shù)據(jù)庫更加相似。

它是水平可擴展的。 HBase的數(shù)據(jù)模型類似于google大表設(shè)計的數(shù)據(jù)模型。它不僅提供了對大量非結(jié)構(gòu)化數(shù)據(jù)的快速隨機訪問，而且還利用了HDFS提供的相同的容錯能力。

HBase是Hadoop生態(tài)系統(tǒng)的一部分，該生態(tài)系統(tǒng)實時提供對Hadoop文件系統(tǒng)中數(shù)據(jù)的讀寫訪問。由于相同的原因，許多大公司都將HBase用于其日常功能。例如，Pinterest可與38個HBase群集一起工作，每秒執(zhí)行約500萬次操作！

更重要的是，HBase提供了對一百萬條記錄中的單個行的較低延遲訪問。為了正常工作，HBase在內(nèi)部使用哈希表，然后提供對索引的HDFS文件的隨機訪問。

Hive

盡管Hadoop具有非常好的可擴展性和可靠性，并且非常適合提取數(shù)據(jù)，但是它的學(xué)習(xí)曲線過于陡峭，無法使其具有成本效益和時間效益。另一個很好的替代方法是在MapReduce之上的Apache Hive。

Hive是一種數(shù)據(jù)倉庫軟件，允許用戶快速輕松地編寫類似SQL的查詢以從Hadoop提取數(shù)據(jù)。

這個開源框架的主要目的是處理和存儲大量數(shù)據(jù)。對于Hadoop，您可以使用MapReduce JAVA API實施SQL查詢。對于Apache Hive，您可以輕松繞過Java，而僅使用類似SQL的查詢訪問數(shù)據(jù)。

Apache Hive的工作很簡單。它將用HiveQL編寫的輸入程序轉(zhuǎn)換為一個或多個Java MapReduce和Spark作業(yè)。

然后，它將數(shù)據(jù)組織到HDFS表中，并在群集上運行作業(yè)以產(chǎn)生結(jié)果。 Hive是一種將結(jié)構(gòu)應(yīng)用于大量非結(jié)構(gòu)化數(shù)據(jù)，然后對它們執(zhí)行基于SQL的查詢的簡單方法。由于它使用的接口熟悉JDBC（Java數(shù)據(jù)庫連接），因此可以輕松地與傳統(tǒng)數(shù)據(jù)中心技術(shù)集成。

Hive的一些最重要的組件是：

· MetaStore：這是存儲Hive表的架構(gòu)。 Hive Metastore主要用于保存有關(guān)倉庫中分區(qū)和表的所有信息。默認(rèn)情況下，它運行與Hive服務(wù)相同的過程。

· SerDe：SerDe或序列化器/反序列化器是一項功能，向配置單元提供有關(guān)如何處理記錄的指令