大數(shù)據(jù)平臺(tái)

Hadoop

離線數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算基礎(chǔ)框架 
分布式存儲(chǔ)HDFS
離線計(jì)算引擎MapReduce
資源調(diào)度Apache YARN

CDH

基于穩(wěn)定版Hadoop及相關(guān)項(xiàng)目最成型的發(fā)行版本, 成為企業(yè)部署最廣泛的大數(shù)據(jù)系統(tǒng)
可視化的UI界面中方便的管理
配置和監(jiān)控Hadoop以及其它所有相關(guān)組件
簡單來說將十幾個(gè)hadoop開源項(xiàng)目集成在一起

HDP

基于hadoop生態(tài)系統(tǒng)開源組件構(gòu)建的大數(shù)據(jù)分析平臺(tái)

集群管理與監(jiān)控

Cloudera Manager

用于部署和管理CDH集群的軟件

Hadoop平臺(tái)的管理軟件，具備Hadoop組件的安裝、管理、運(yùn)維

文件系統(tǒng)

HDFS

分布式文件系統(tǒng)

資源調(diào)度

YARN

hadoop的資源管理和作業(yè)調(diào)度系統(tǒng)

協(xié)調(diào)框架

Zookeeper

 分布式協(xié)調(diào)服務(wù)，解決分布式數(shù)據(jù)一致性方案 實(shí)現(xiàn)諸如數(shù)據(jù)發(fā)布
訂閱、負(fù)載均衡、命名、集群管理 master節(jié)點(diǎn)管理
 分布式鎖和分布式隊(duì)列

數(shù)據(jù)存儲(chǔ)

Hbase

分布式面向列的NoSQL開源數(shù)據(jù)庫

Cassandra

分布式的混合NoSQL數(shù)據(jù)庫 ，還有C++版本ScyllaDB

MongDB

面向文檔的開源分布式數(shù)據(jù)庫

redis

開源的支持網(wǎng)絡(luò)，基于內(nèi)存可持久化日志，key-value數(shù)據(jù)庫，可用于
數(shù)據(jù)庫
緩存
消息中間件

Neo4j

開源高性能的NoSQL圖形數(shù)據(jù)庫

數(shù)據(jù)處理

MapReduce

分布式離線的計(jì)算框架
批處理 
日漸被spark和flink取代

Spark

通用的一站式計(jì)算框架
SparkCore批處理
SparkSQL交互式處理
SparkStreaming流處理
Spark Graphx圖計(jì)算
Spark MLlib機(jī)器學(xué)習(xí)

Flink

流處理和批處理分布式數(shù)據(jù)處理框架
 核心是一個(gè)流式的數(shù)據(jù)流執(zhí)行引擎 類似于Spark
批處理
數(shù)據(jù)流處理
交互處理
圖形處理和機(jī)器學(xué)習(xí)

Storm

分布式實(shí)時(shí)大數(shù)據(jù)處理系統(tǒng)
毫秒級(jí)別的實(shí)時(shí)數(shù)據(jù)處理能力 
實(shí)時(shí)分析的領(lǐng)導(dǎo)者

數(shù)據(jù)查詢分析

Hive

基于hadoop的數(shù)據(jù)倉庫，結(jié)構(gòu)化
SparkSQL
處理結(jié)構(gòu)化數(shù)據(jù)的spark組件
分布式的SQL查詢引擎

Impala

實(shí)時(shí)交互SQL大數(shù)據(jù)查詢引擎

Druid

實(shí)時(shí)大數(shù)據(jù)分析引擎

Elastic Search

分布式可擴(kuò)展的實(shí)時(shí)搜索和分析引擎，基于Apache Lucene搜索引擎

數(shù)據(jù)收集

Flume

分布式海量日志采集、聚合和傳輸系統(tǒng)

Logstash

具有實(shí)時(shí)管道功能的開源數(shù)據(jù)收集引擎

數(shù)據(jù)交換

sqoop

數(shù)據(jù)遷移工具，用來在不同數(shù)據(jù)存儲(chǔ)軟件之間進(jìn)行數(shù)據(jù)傳輸?shù)拈_源軟件

DataX

阿里巴巴開源的離線數(shù)據(jù)同步工具，用于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(MySQL、Oracle等)
HDFS、Hive、ODPS、HBase、FTP等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步

消息系統(tǒng)

Pulsar

企業(yè)級(jí)分布式消息系統(tǒng)，有替代Kafka的趨勢

Kafka

發(fā)布/訂閱的消息系統(tǒng)，由Scala寫成

RocketMQ

阿里巴巴分布式、隊(duì)列模型的消息中間件

任務(wù)調(diào)度

Azkaban

批量工作流任務(wù)調(diào)度器，將所有正在運(yùn)行的工作流的狀態(tài)保存在其內(nèi)存

Oozie

基于Hadoop的企業(yè)級(jí)工作流調(diào)度框架
將所有正在運(yùn)行的工作流的狀態(tài)保存SQL數(shù)據(jù)庫
Cloudeara貢獻(xiàn)給Apache的頂級(jí)項(xiàng)目

數(shù)據(jù)治理

Ranger

Hadoop 平臺(tái)上并提供操作、監(jiān)控、管理綜合數(shù)據(jù)安全的框架
提供一個(gè)集中的管理機(jī)制，所有數(shù)據(jù)權(quán)限

Sentry

Hadoop集群元數(shù)據(jù)和數(shù)據(jù)存儲(chǔ)提供集中、細(xì)粒度的訪問控制項(xiàng)目

數(shù)據(jù)可視化

Kibana

用于和 Elasticsearch 一起使用的開源的分析與可視化平臺(tái)

數(shù)據(jù)挖掘

Mahout

基于hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個(gè)分布式框架

Spark MLlib

Spark的機(jī)器學(xué)習(xí)庫

MADlib

基于SQL的數(shù)據(jù)庫內(nèi)置的可擴(kuò)展的機(jī)器學(xué)習(xí)庫

云平臺(tái)技術(shù)

AWS S3

一種對(duì)象存儲(chǔ)服務(wù)，提供行業(yè)領(lǐng)先的可擴(kuò)展性、數(shù)據(jù)可用性、安全性和性能
存儲(chǔ)和保護(hù)各種用例數(shù)據(jù)

GCP

google提供的一套云計(jì)算服務(wù)
注冊一個(gè)帳號(hào)，在分布在全球各地?cái)?shù)十個(gè)google機(jī)房使用所有的基礎(chǔ)架構(gòu)服務(wù)

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

大數(shù)據(jù)有哪些開源的框架和組件值得我們學(xué)習(xí)？