課程介紹:
本課程會介紹Hadoop/Spark各組件的架構,但不會涉及任何安裝的內容,安裝的教程、錄像視頻什么的網上到處都是,講安裝太浪費時間~Hadoop/Spark環境的安裝請大家自行解決,建議用ClouderaCDH或者HortonworksHDP。
課程目錄:
第一周:企業級Hadoop/Spark應用概述,Hadoop/Spark生態系統與現有企業級應用的整合
1.企業級集群部署、數據管理、任務調度、集群監控
2.Hadoop架構介紹、Spark/Shark介紹
3.Spark與Hadoop的關系
4.現有Hadoop架構的種種問題和限制,HA
5.企業數據倉庫的選型,Hadoop世界與EDW世界中的TPC(TPCDS與TPCH)
6.Hadoop世界中的DBA
7.成本考量——人?物?物是人非
第二周:HadoopEcoSystem進階應用基礎知識
1.HDFS/MapReduce/Yarn/Hive/Impala/Oozie進階應用、資源分配及調優
2.玩轉HiveETL高級應用:權限管理、externaltable、partition、中文支持、HiveServer2JDBC接口
3.Hive的WindowingandAnalyticsFunctions
4.Hive0.13的新功能
5.Impala與Hive對比,各種Hints:Hive的MapJoin,Impala的SHUFFLEJoin(partitionedjoin)
第三周:進階應用實例—物流/廣告/電商/零售/互聯網行業Hadoop大數據應用
1.企業級應用實例1:物流行業—訂單跟蹤
2.Hive通過externaltable、partition、動態partition與NFS結合使用創建數據表,避免LOADDATA
3.Hive和Impala的Join優化Hints,MapJoin、ShuffleJoin實例
4.企業級應用實例2:廣告行業—基于用戶行為分析的用戶歸類標簽(客戶畫像)
5.Hive復合數據類型array
6.array與collect_set、collect_list、array_contains、sort_array
7.impala的group_concat
8.array與lateralview、LATERALVIEWOUTER
9.企業級應用實例3:電商/零售行業—簡單的推薦系統RecommenderSystem實現(基于用戶標簽/客戶畫像)
10.Hive復合數據類型map、str_to_map、map_keys、map_values,map與lateralview
11.通過Hive、Impala轉換函數進行數據保護,確保企業應用信息安全(通過translate進行簡單數據脫敏DataMasking)
12.HiveServer2JDBC接口實例應用、中文支持Bug糾錯
13.Hive的窗口和分析函數入門(row_number、rank、dense_rank等)
14.企業級應用實例4:互聯網行業—訪問量業績報表
15.Hive的窗口和分析函數進階(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等)
16.ROWSBETWEEN…AND…(CURRENTROW,rowsPRECEDING,rowsFOLLOWING)
17.本周總結——物流/廣告/電商/零售/互聯網行業Hadoop企業級大數據應用方案經驗教訓總結
第四周:Hadoop&Spark/Shark進階應用基礎知識
1.HBase/ZooKeeper/Sqoop/Graphite/Ganglia進階應用及調優,Spark/SparkSQL/Shark簡介
2.HBaseShell與HBaseRESTAPI應用
3.HBase的Region進階應用Compact、Split與Merge
4.HBase進階腳本應用:jrubyscript
5.HBase與Hive的整合高級應用:binary(byte)value,lateralviewexplode
6.Hive0.13:posexplode
7.Spark/SparkSQL/Shark架構介紹、SparkScala/Python開發介紹
第五周:進階應用實例—Hadoop/Spark平臺企業級開發框架
1.Hadoop生態系統中為企業級開發提供的測試框架應用實例
2.Spark實現“物流行業—訂單跟蹤SLA”的實例,Scala語言及Python語言實現,SparkSQL+Parquet文件實現,SparkScalaMaven項目實例
3.HBase開發實例:RESTAPI使用、JRuby腳本編寫、Region進階應用
4.與ContinuousIntegration系統整合的可能
5.——軟件/互聯網行業Hadoop企業級開發框架
第六周:Hadoop&Spark/Shark企業級應用整合
1.HBase與Hive整合的大坑
2.HBasePython客戶端happybase使用介紹、編程實例
3.HBaseCoprocessor與HBase+Hive特征特點比較、分別適用的場景
4.企業中應用HBase,Hive,Impala,Spark/Shark的注意事項,資源分配
5.Hadoop與現有企業級BI平臺的整合
6PentahoPDI/Kettle
7.OracleorIn-MemoryDatabase
8.MicroStrategy/Tableau
第七周:進階應用實例—Hadoop/Spark企業級大數據BI應用整合
1.互聯網行業時間序列(timeseriesdata)數據處理實例——整合HBase與Hive:增量數據與全量數據,冷數據與熱數據分治
2.互聯網行業時間序列(timeseriesdata)數據處理實例——整合Sp
,Scala語言處理HBase返回值Result類中KeyValue對象的ByteBuffer/ByteArray
4.通過Kettle/Spoon工具整合Hadoop與現有RDBMS的企業級BI解決方案
5.其它整合Hadoop與RDBMS構建企業級BI應用平臺的可能(如使用PostgreSQLFDW,使用Presto的JDBCconnector等)
6.——互聯網行業Hadoop企業級大數據BI應用整合方案
第八周:總結與展望
1.企業級大數據應用總結
2.構建企業大數據團隊探討
3.Hadoop方面工作面試秘籍:應用開發方向、數據分析方向、技術架構方向、團隊帶頭人
4.現有幾大Hadoop平臺比較:ClouderaCDH,HortonworksHDP,MapR
5.Hadoop大數據還能干什么?通過Spark整合Streaming與Batchprocessing?
6.金融/工業/能源/智慧城市/醫療行業/SmartData
7.德國汽車、新能源行業的大數據創新項目分享
8.德國醫療行業大數據應用現狀
9.Hadoop大數據企業應用面臨的問題