授課對象:
Hadoop初學者、具有一定Linux系統、Java使用經驗
系統架構師、系統分析師、高級程序員、資深開發人員。
牽涉到大數據處理的數據中心運行、規劃、設計負責人。
政府機關,金融保險、移動和互聯網等大數據來源單位的負責人。
高校、科研院所牽涉到大數據與分布式數據處理的項目負責人。
數據倉庫管理人員、建模人員,分析人員和開發人員、系統管理人員、數據庫管理人員以及對數據倉庫感興趣的其他人員。
課程大綱:
第1周 Hadoop生態系統概述以及版本演化
Hadoop生態系統及其版本演化歷史,并給出hadoop版本選擇建議。
第2周 HDFS 2.0 原理、特性與基本架構
介紹HDFS 2.0原理與架構,并與HDFS 1.0進行對比。介紹HDFS 2.0新特性,包括快照、緩存、異構存儲架構等
第3周 YARN應用場景、基本架構與資源調度
介紹YARN是什么、基本原理與架構,并剖析其調度策略。
第4周 MapReduce 2.0基本原理與架構
介紹計算框架MapReduce基本原理與架構
第5周 MapReduce 2.0編程實踐(涉及多語言編程)
手把手介紹如何用java、C++、php等語言編寫MapReduce程序
第6周 HBase應用場景、原理與基本架構
介紹HBase應用場景、原理和架構
第7周 HBase編程實踐(涉及多語言編程)
手把手介紹如何用Java、C++、Python等語言編寫HBase客戶端程序。
第8周 HBase案例分析
介紹幾個HBase典型應用案例,包括互聯網應用案例和銀行應用案例。
第9周 Zookeeper部署及典型應用
介紹Zookeeper是什么,在hadoop生態系統中的地位
第10周 Hadoop數據入庫系統Flume與Sqoop
介紹如何使用flume和sqoop兩個系統將外部流式數據(比如網站日志,用戶行為數據等)、關系型數據庫(比如MySQL、Oracle等)中的數據導入Hadoop中進行分析和挖掘
第11周 數據分析系統Hive與Pig應用與比較
介紹如何使用hive和pig分析hadoop中的海量數據
第12周 數據挖掘工具包Mahout
介紹如何使用mahout提供的數據挖掘和機器學習算法進行海量數據挖掘
第13周 工作流引擎Oozie與Azkaban應用
介紹如何使用Oozie和azkaban對MapReduce作業、Pig/hive作業等進行統一管理和調度
第14周 兩個綜合案例:日志分析系統與機器學習平臺
介紹兩個典型的互聯網應用案例,進一步深入領悟hadoop生態系統中各個系統的應用場景和解決實際問題的方式。