第一階段 Spark基礎入門
第1課 Spark系統概述與編程接口
知識點1:Spark系統概述
知識點2:Spark RDD分區及依賴關系
知識點3:RDD API-transformation、action
實戰項目:PageRank中的依賴關系
第2課 Spark運行模式及原理
知識點1:Spark運行模式
知識點2:Spark基本工作流程
知識點3:Spark Shuffle講解
實戰項目:YARN cluster模式–部署、運行、內部實現及其原理
第二階段 Spark進階:存儲、調度、性能調優
第3課 Spark存儲、調度、與監控分析
知識點1:存儲管理模塊整體架構
知識點2:RDD持久化
知識點3:Shuffle數據持久化
知識點4:廣播(Broadcast)變量持久化
知識點5:Spark調度相關流程
實戰項目:Spark監控管理
第4課 Spark性能調優
知識點1:開發調優
知識點2:資源調優
知識點3:數據傾斜調優
實戰項目:shuffle調優
第三階段 Spark深入:即時查詢、流計算與圖計算
第5課 Spark即時查詢講解
知識點1:SQLContext 及DataFrame的介紹
知識點2:常用的查詢操作
知識點3:流計算系統的對比
知識點4:Spark streaming的介紹與數據處理流程
知識點5:流數據源的接入
知識點6:transformation與window操作
實戰項目:SQL優化配置、及流計算項目的部署與調優
第6課 Spark圖計算講解
知識點1:屬性圖的介紹
知識點2:edge、vertex、triplet介紹與創建
知識點3:屬性圖的操作
知識點4:圖算法介紹
實戰項目:圖的調優
第四階段 Spark機器學習實戰
第7課 Spark機器學習講解
知識點1:Mllib 機器學習庫介紹
知識點2:基本的統計分析功能
知識點3:基本的機器學習庫使用介紹
知識點4:模型的評價標準庫使用介紹
實戰項目:使用邏輯回歸完成KDD99的分類問題
第8課 Spark機器學習應用
實戰項目:使用Mllib的樹模型完成分類問題
實戰項目:使用Mllib搭建推薦系統