大數(shù)據(jù)平臺(tái)
Hadoop
離線數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算基礎(chǔ)框架
分布式存儲(chǔ)HDFS
離線計(jì)算引擎MapReduce
資源調(diào)度Apache YARN
CDH
基于穩(wěn)定版Hadoop及相關(guān)項(xiàng)目最成型的發(fā)行版本, 成為企業(yè)部署最廣泛的大數(shù)據(jù)系統(tǒng)
可視化的UI界面中方便的管理
配置和監(jiān)控Hadoop以及其它所有相關(guān)組件
簡單來說將十幾個(gè)hadoop開源項(xiàng)目集成在一起
HDP
基于hadoop生態(tài)系統(tǒng)開源組件構(gòu)建的大數(shù)據(jù)分析平臺(tái)
集群管理與監(jiān)控
Cloudera Manager
用于部署和管理CDH集群的軟件
Hadoop平臺(tái)的管理軟件,具備Hadoop組件的安裝、管理、運(yùn)維
文件系統(tǒng)
HDFS
分布式文件系統(tǒng)
資源調(diào)度
YARN
hadoop的資源管理和作業(yè)調(diào)度系統(tǒng)
協(xié)調(diào)框架
Zookeeper
分布式協(xié)調(diào)服務(wù),解決分布式數(shù)據(jù)一致性方案 實(shí)現(xiàn)諸如數(shù)據(jù)發(fā)布
訂閱、負(fù)載均衡、命名、集群管理 master節(jié)點(diǎn)管理
分布式鎖和分布式隊(duì)列
數(shù)據(jù)存儲(chǔ)
Hbase
分布式面向列的NoSQL開源數(shù)據(jù)庫
Cassandra
分布式的混合NoSQL數(shù)據(jù)庫 ,還有C++版本ScyllaDB
MongDB
面向文檔的開源分布式數(shù)據(jù)庫
redis
開源的支持網(wǎng)絡(luò),基于內(nèi)存可持久化日志,key-value數(shù)據(jù)庫,可用于
數(shù)據(jù)庫
緩存
消息中間件
Neo4j
開源高性能的NoSQL圖形數(shù)據(jù)庫
數(shù)據(jù)處理
MapReduce
分布式離線的計(jì)算框架
批處理
日漸被spark和flink取代
Spark
通用的一站式計(jì)算框架
SparkCore批處理
SparkSQL交互式處理
SparkStreaming流處理
Spark Graphx圖計(jì)算
Spark MLlib機(jī)器學(xué)習(xí)
Flink
流處理和批處理分布式數(shù)據(jù)處理框架
核心是一個(gè)流式的數(shù)據(jù)流執(zhí)行引擎 類似于Spark
批處理
數(shù)據(jù)流處理
交互處理
圖形處理和機(jī)器學(xué)習(xí)
Storm
分布式實(shí)時(shí)大數(shù)據(jù)處理系統(tǒng)
毫秒級(jí)別的實(shí)時(shí)數(shù)據(jù)處理能力
實(shí)時(shí)分析的領(lǐng)導(dǎo)者
數(shù)據(jù)查詢分析
Hive
基于hadoop的數(shù)據(jù)倉庫,結(jié)構(gòu)化
SparkSQL
處理結(jié)構(gòu)化數(shù)據(jù)的spark組件
分布式的SQL查詢引擎
Impala
實(shí)時(shí)交互SQL大數(shù)據(jù)查詢引擎
Druid
實(shí)時(shí)大數(shù)據(jù)分析引擎
Elastic Search
分布式可擴(kuò)展的實(shí)時(shí)搜索和分析引擎,基于Apache Lucene搜索引擎
數(shù)據(jù)收集
Flume
分布式海量日志采集、聚合和傳輸系統(tǒng)
Logstash
具有實(shí)時(shí)管道功能的開源數(shù)據(jù)收集引擎
數(shù)據(jù)交換
sqoop
數(shù)據(jù)遷移工具,用來在不同數(shù)據(jù)存儲(chǔ)軟件之間進(jìn)行數(shù)據(jù)傳輸?shù)拈_源軟件
DataX
阿里巴巴開源的離線數(shù)據(jù)同步工具,用于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(MySQL、Oracle等)
HDFS、Hive、ODPS、HBase、FTP等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步
消息系統(tǒng)
Pulsar
企業(yè)級(jí)分布式消息系統(tǒng),有替代Kafka的趨勢
Kafka
發(fā)布/訂閱的消息系統(tǒng),由Scala寫成
RocketMQ
阿里巴巴分布式、隊(duì)列模型的消息中間件
任務(wù)調(diào)度
Azkaban
批量工作流任務(wù)調(diào)度器,將所有正在運(yùn)行的工作流的狀態(tài)保存在其內(nèi)存
Oozie
基于Hadoop的企業(yè)級(jí)工作流調(diào)度框架
將所有正在運(yùn)行的工作流的狀態(tài)保存SQL數(shù)據(jù)庫
Cloudeara貢獻(xiàn)給Apache的頂級(jí)項(xiàng)目
數(shù)據(jù)治理
Ranger
Hadoop 平臺(tái)上并提供操作、監(jiān)控、管理綜合數(shù)據(jù)安全的框架
提供一個(gè)集中的管理機(jī)制,所有數(shù)據(jù)權(quán)限
Sentry
Hadoop集群元數(shù)據(jù)和數(shù)據(jù)存儲(chǔ)提供集中、細(xì)粒度的訪問控制項(xiàng)目
數(shù)據(jù)可視化
Kibana
用于和 Elasticsearch 一起使用的開源的分析與可視化平臺(tái)
數(shù)據(jù)挖掘
Mahout
基于hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個(gè)分布式框架
Spark MLlib
Spark的機(jī)器學(xué)習(xí)庫
MADlib
基于SQL的數(shù)據(jù)庫內(nèi)置的可擴(kuò)展的機(jī)器學(xué)習(xí)庫
云平臺(tái)技術(shù)
AWS S3
一種對(duì)象存儲(chǔ)服務(wù),提供行業(yè)領(lǐng)先的可擴(kuò)展性、數(shù)據(jù)可用性、安全性和性能
存儲(chǔ)和保護(hù)各種用例數(shù)據(jù)
GCP
google提供的一套云計(jì)算服務(wù)
注冊一個(gè)帳號(hào),在分布在全球各地?cái)?shù)十個(gè)google機(jī)房使用所有的基礎(chǔ)架構(gòu)服務(wù)