課程特色:
1、精選kaggle初級案例,實戰入門講解。一步一腳印,十大案例精講,案例知識點與代碼交互講解,讓你快速突破R語言。
2、實戰案例是最好的數據能力提升方式,本課程提供案例的數據集、代碼以及老師講解的PPT。
3、kaggle競賽案例包含大量日常工作中的數據處理的方法,以及數據可視化的方法,助你突破數據工作的效率,對于數據處理、可視化、建模和模型評估有綜合性顯著性的提升,全方位的提升你的數據能力!
4、結合數據分析師的日常數據處理,建模的工作內容所需,融會貫通,通過案例教你如何成為一名數據分析師。
5、多種建模方法(隨機森林、決策樹、樸素貝葉斯、knn、支持向量機、 k均值聚類,模型融合方法等都有講到,部分涉及原理簡介)
講師簡介:
鄔書豪 車聯網數據挖掘攻城獅,做過數據建模項目,打過數據科學比賽。參與過的數據建模項目包括中國中車、東風集團、上汽通用、上汽大通等公司。
致力于成為一名熱愛數據從數據出發解決實際問題的數據科學家。
課程大綱:
第一章:員工離職預測
數據變量說明
描述性分析(一)
描述性分析(二)
決策樹建模
樸素貝葉斯建模
模型評估與應用
第二章:kaggle數據科學社區調查報告
變量說明
數據預處理
數據科學從業者用戶畫像1
數據科學從業者用戶畫像2
數據科學從業者用戶畫像3
數據科學從業者用戶畫像4
數據科學從業者用戶畫像5
python、R、SQL推薦程度分析
第三章:信用卡欺詐預測
案例數據介紹
數據預處理之缺失值處理
數據預處理之分層抽樣
數據預處理之標準化
描述性分析1
描述性分析2
簡單調參
定制調參
隨機森林建模
knn建模
模型評估
第四章:學生成績水平分類預測
案例變量說明
封裝繪圖函數
描述性分析1
描述性分析2
描述性分析3
回歸樹建模
隨機森林建模
支持向量機建模
模型融合
第五章:美國槍擊案例
案例數據變量說明
描述性分析1
槍手用戶畫像
美國槍擊案地圖可視化
常用圖形外觀調節
常用數據重塑函數總結1
常用數據重塑函數總結2
第六章:毒蘑菇識別
案例變量說明
數據預處理
樸素貝葉斯簡介
特征選擇
樸素貝葉斯建模
回歸樹建模+可視化決策規則
隨機森林建模
模型評估
第七章:利用聲音數據識別性別
案例變量說明
描述性分析
模型對比
回歸樹建模
支持向量機建模
規則學習建模
隨機森林建模
封裝法特征選取+隨機森林建模
模型評估
混淆矩陣、ROC
第八章:垃圾短信識別
案例變量說明
數據重塑
文本處理
繪制詞云圖
隨機森林建模預測
總數據建模預測
重塑數據建模預測
模型評估
第九章:閃電約會
案例背景介紹+變量說明
探索相親者的年齡分布分析
探索哪些愛好更受彼此贊同分析
探索哪些領域的人更受歡迎分析
探索相親者的心儀對象的特點分析
圖形輸出總結
深入淺出ggplot2包條形圖總結
深入淺出ggplot2包箱線圖總結
第十章: Youtube新趨勢視頻分析
案例變量說明
探索哪些視頻更受歡迎
探索觀看人數與點贊人數的關系
探索觀看人數與累積評論數的關系
探索不同國家視頻的受歡迎狀況
探索不同國家發布的視頻種類
對視頻數據系譜聚類
k均值聚類原理