煉數成金 Spark大數據分析平臺 8課
spark介紹:
2015年, Spark只用了一年多時間,已實現開源到火爆 ,亦逐漸顯露出與通用大數據平臺Hadoop的分庭抗爭之勢。在這個大背景下,在大數據領域時代,誰將是獨領風騷?Spark無疑是最大的競爭者,無論是 2015 Spark技術峰會 ,還是國內的大數據大會,可以看到中國力量正在崛起,Spark最大的集群來自騰訊——8000個節點,單個Job最大分別是阿里巴巴和Databricks——1PB,震撼人心!同時,截止2015年6月,Spark的Contributor比2014年漲了3倍,達到730人;總代碼行數也比2014年漲了2倍多,達到40萬行,不但大量的互聯網企業已經在使用或者正準備使用Spark,而且大量的電信、金融、證券和傳統企業已經開始引入了Spark。
授課對象:
有Java開發經驗或Scala開發經驗,最好了解Hadoop,Hive等使用經驗。課程對于Spark初學者,Spark開發人員及Spark運維人員都具有比較大的學習價值。
收獲預期:
深入理解Spark的運行原理
學會搭建Spark,hadoop集群環境
完全掌握Spark編程基礎,了解Spark運維的基礎知識
完成大數據入門,可逐漸轉崗大數據相關職位。
Spark版本:Spark1.4
準備環境:
CentOS,eclipse或IntelliJ IDEA, Scala,JDK,Maven,sbt,Hadoop,hive,建議三臺虛擬機。
然而作為一個高速發展中的開源項目,其部署過程中存在的門檻和挑戰亦不可謂不大,本課程將主要介紹Spark1.4.0,引領大家進入大數據Spark入門。
課程目錄:
1、Spark生態和安裝部署
什么是Spark
Spark有什么
安裝部署
Spark安裝簡介
Spark的源碼編譯
Spark Standalone安裝
Spark Standalone HA安裝
Spark工具
Spark交互式工具spark-shell
Spark應用程序部署工具spark-submit
2、Spark編程模型和解析
Spark的編程模型
RDD的特點、操作、依賴關系
緩存策略
廣播變量和累加器
Spark編程環境搭建
Spark編程實例
3、Spark運行架構和解析
Spark的運行架構
基本術語
運行架構(DAGScheduler、TaskSeduler、Task、容錯性、推測機制、數據本地性)
Spark on Standalone運行過程
Spark on YARN 運行過程
Spark實例演示
Spark on Standalone實例演示
Spark on YARN實例演示
4、不得不說的hive
hive的運行架構
hive的安裝
hive的實例演示
shark的簡介
5、SparkSQL原理和實踐
Spark的運行架構
Catalyst
sqlontext
hiveContext
ThriftServer和CLI
ThriftServer
CLI
SparkSQL的實例演示和編程
spark-shell實例演示
spark-sql實例演示
SparkSQL的編程
6、SparkStreaming原理和實踐
SparkStreaming原理
SparkStreaming的原理
SparkStreaming的運行方式
DStream的特點和操作
SparkStreaming實例演示
網絡數據演示
文本實例演示
Window操作演示
7、MLlib入門
什么是機器學習
MLlib的架構
Mllib實例演示
聚類算法演示
推薦系統演示
8、GraphX入門
圖論基礎
GraphX的架構
GraphX實例演示
圖的基本操作
PageRank演示