內容介紹
從零起步,分階段無任何障礙逐步掌握大數據統一計算平臺Spark,從Spark框架編寫和開發語言Scala開始,到Spark企業級開發,再到Spark框架源碼解析、Spark與Hadoop的融合、商業案例和企業面試,一次性徹底掌握Spark,成為云計算大數據時代的幸運兒和弄潮兒,笑傲大數據職場和人生!
學習目標
1,掌握Scala;
2,精通Spark企業及開發;
3,精通Spark框架源碼實現;
4,掌握Spark與Hadoop融合和商業案例;
5,輕松加入任何類型和難度的Spark面試;
學習建議
1,從第一階段掌握Scala開始,逐步深入;
2,跟著視頻一步步動手實踐
【課程目錄】
1.熟練的掌握Scala語言系列課
安裝Scala開發環境
Scala常用類型介紹
動手體驗值與變量的聲明
動手體驗Scala函數與方法的定義和使用
動手編寫條件表達式
循環表達式與For循環的使用
默認參數、帶名參數及變長參數
lazy值
異常處理
數組
Map操作
類的定義:屬性與方法
不同的構造器
object對象
apply方法
方法重寫與字段重寫
抽象類
trait
包的定義與使用
包對象定義與使用
文件訪問
函數的定義
值函數
匿名函數
閉包
SAM與Curry
高階函數示例
集合
序列
可變列表與不可變列表
集合操作
case class
泛型類
泛型函數
Lower bounds 與 Upper bounds
View bounds
Context bounds
協變與逆變
隱式轉換
隱式參數
隱式類
創建actor
actor的消息機制
共享線程
多個actor協同工作
actor使用最佳實踐
隱式轉換規則
隱式參數
上下文界定
隱式參數下的隱式轉換
Scala隱式轉發最佳實踐
Akka在分布式系統中的巨大價值
Akka架構
Akka內核剖析
Akka案例實戰
2.精通Spark提供給開發者API系列課程
動手構建Spark集群
測試Spark集群
程序數據的來源:File、HDFS、HBase、S3等
IDE環境構建
Maven
sbt
編寫并部署Spark程序的實例
源碼剖析SparkContext
加載數據成為RDD
DAG
深入實戰各種Scala RDD Function
RDD的優化問題
編寫可測試的Spark程序
Spark測試框架解析
Spark測試代碼實戰
Logs
內存
序列化
安全
3.精通Spark內核系列課程
Spark生態系統剖析
Spark的架構設計剖析
RDD計算流程解析
Spark的出色容錯機制
Cache的內部實現揭秘
CheckPoint內部實現揭秘
Broadcast的實現揭秘
生產環境下的Broadcast
transformation
action
lineage
寬依賴與窄依賴
任務調度流程分析
DAGScheduler
TaskScheduler
Task內部揭秘
累加器的機制和使用的最佳實踐
RDD的設計和源碼實現
Spark作業提交過程源碼剖析
Task執行過程源碼剖析
Scheduler模塊源碼剖析
如何建立RDD之間的關系
細說RDD的transformation
揭秘combineByKey
從部署層次細說Job的部署和執行細節
Job的邏輯執行和物理執行
復雜的Job的實現
Job的物理執行內幕
生產和提交Job的內幕
Shuffle的工作機制
細說Shuffle操作
深入解析Shuffle
Shuffle的性能優化
Job的提交和接收內幕揭秘
Task內幕揭秘
從集群工作的角度看Shuffle
4.掌握基于Spark上的核心框架的使用系列課程(spark sql、GraphX)
Spark SQL原理和實現
使用Spark SQL操作文本文件和DSL
Spark SQL操作JSON和Hive
Spark GraphX原理和實現
PageRank
TriangleCount
Table operator和Graph Operator
Verticies、Edges、Triplets
動手編寫GraphX實例
圖操作之Property Operator、Structural Operator
圖操作之Computing Degree、Computing Neighbors
圖操作之Join Operators、Map Reduce Triplets
Pregel API
ShortestPaths
DStream
transformation
checkpoint
案例實戰
K-Means
Collaborative Filtering
JobServer的架構設計
JobServer提供的接口
JobServer最佳實踐
Spark on Yarn的架構原理
Spark on Yarn的最佳實踐
Tachyon架構剖析
Tachyon操作詳解
Spark下的Tachyon使用解析
5.商業級別大數據中心系列課程
淘寶的Hadoo+Spark大數據鑒賞
Yahoo的Hadoop+Spark大數據鑒賞
Conviva的Spark大數據鑒賞
優酷土豆使用Spark大數據鑒賞
網易使用Spark大數據鑒賞
騰訊使用Spark大數據鑒賞
京東使用大數據Spark鑒賞
華為使用Spark大數據鑒賞
Yahoo的Hadoop+Spark大數據鑒賞
Conviva的Spark大數據鑒賞
大數據處理中心的黃金架構
大數據處理中心的最佳技術堆棧
大數據處理中心的速度為王
互聯網企業構建大數據中心最佳實踐
金融機構構建大數據中心最佳實踐
傳統企業構建大數據中心最佳實踐
6.spark書籍
搭建hadoop單機和偽分布式的環境
如何構建真正的Hadoop分布式集群環境
構造分布式Spark集群
構建Spark集群
動手實戰Scala
Spark實戰高手之從零開始
Spark最佳學習路徑
Spark運行原理解析
Spark 編程指南
【Spark專刊】Scala入門
Spark架構設計與編程模型
Spark內核揭秘
Spark性能優化
Spark API編程動手實戰
Spark SQL編程動手實戰