【課程介紹】
課程風格通俗易懂,真實案例實戰。精心挑選真實的數據集為案例,通過python數據科學庫numpy,pandas,matplot結合機器學習庫scikit-learn完成一些列的機器學習案例。課程以實戰為基礎,所有課時都結合代碼演示如何使用這些python庫來完成一個真實的數據案例。算法與項目相結合,選擇經典kaggle項目,從數據預處理開始一步步代碼實戰帶大家快速入門機器學習。
【課程目標】
課程目標:零基礎快速掌握python數據分析與機器學習算法實戰,快速入門python最流行的數據分析庫numpy,pandas,matplotlib。對于繁瑣的機器學習算法,先從原理上進行推導,以算法流程為主結合實際案例完成算法代碼,使用scikit-learn機器學習庫完成快速建立模型,評估以及預測。結合經典kaggle案例,從數據預處理開始一步步完成整個項目,使大家對如何應用python庫完成實際的項目有完整的經驗與概念。
【課程目錄】
章節1: Python科學計算庫-Numpy4
課時1課程介紹(主題與大綱)
課時2機器學習概述
課時3使用Anaconda安裝python環境(Python新手先看這個)
課時4課程數據,代碼,PPT(在參考資料界面)
課時5科學計算庫Numpy
課時6Numpy基礎結構
課時7Numpy矩陣基礎
課時8Numpy常用函數
課時9矩陣常用操作
課時10不同復制操作對比
章節2: python數據分析處理庫-Pandas
課時11Pandas數據讀取
課時12Pandas索引與計算
課時13Pandas數據預處理實例
課時14Pandas常用預處理方法
課時15Pandas自定義函數
課時16Series結構
章節3: Python數據可視化庫-Matplotlib
課時17折線圖繪制
課時18子圖操作
課時19條形圖與散點圖
課時20柱形圖與盒圖
課時21細節設置
章節4: Python可視化庫Seaborn6
課時22Seaborn簡介
課時23整體布局風格設置
課時24風格細節設置
課時25調色板
課時26調色板顏色設置
課時27單變量分析繪圖
課時28回歸分析繪圖
課時29多變量分析繪圖
課時30分類屬性繪圖
課時31Facetgrid使用方法
課時32Facetgrid繪制多變量
課時33熱度圖繪制
章節5: 回歸算法
課時34回歸算法綜述
課時35回歸誤差原理推導
課時36回歸算法如何得出最優解
課時37基于公式推導完成簡易線性回歸
課時38邏輯回歸與梯度下降
課時39使用梯度下降求解回歸問題
章節6: 決策樹
課時40決策樹算法綜述
課時41決策樹熵原理
課時42決策樹構造實例
課時43信息增益原理
課時44信息增益率的作用
課時45決策樹剪枝策略
課時46隨機森林模型
課時47決策樹參數詳解
章節7: 貝葉斯算法
課時48貝葉斯算法概述
課時49貝葉斯推導實例
課時50貝葉斯拼寫糾錯實例
課時51垃圾郵件過濾實例
課時52貝葉斯實現拼寫檢查器
章節8: 支持向量機
課時53支持向量機要解決的問題
課時54支持向量機目標函數
課時55支持向量機目標函數求解
課時56支持向量機求解實例
課時57支持向量機軟間隔問題
課時58支持向量核變換
課時59SMO算法求解支持向量機
章節9: 神經網絡
課時60初識神經網絡
課時61計算機視覺所面臨的挑戰
課時62K近鄰嘗試圖像分類
課時63超參數的作用
課時64線性分類原理
課時65神經網絡-損失函數
課時66神經網絡-正則化懲罰項
課時67神經網絡-softmax分類器
課時68神經網絡-最優化形象解讀
課時69神經網絡-梯度下降細節問題
課時70神經網絡-反向傳播
課時71神經網絡架構
課時72神經網絡實例演示
課時73神經網絡過擬合解決方案
課時74感受神經網絡的強大
章節10: Xgboost集成算法
課時75集成算法思想
課時76xgboost基本原理
課時77xgboost目標函數推導
課時78xgboost求解實例
課時79xgboost安裝
課時80xgboost實戰演示
課時81Adaboost算法概述
章節11: 自然語言處理詞向量模型-Word2Vec
課時82自然語言處理與深度學習
課時83語言模型
課時84-N-gram模型
課時85詞向量
課時86神經網絡模型
課時87Hierarchical Softmax
課時88CBOW模型實例
課時89CBOW求解目標
課時90梯度上升求解
課時91負采樣模型
章節12: K近鄰與聚類
課時92無監督聚類問題
課時93聚類結果與離群點分析
課時94K-means聚類案例對NBA球員進行評估
課時95使用Kmeans進行圖像壓縮
課時96K近鄰算法原理
課時97K近鄰算法代碼實現
章節13: PCA降維與SVD矩陣分解
課時98PCA基本原理
課時99PCA實例
課時100SVD奇異值分解原理
課時101SVD推薦系統應用實例
章節14: scikit-learn模型建立與評估
課時102使用python庫分析汽車油耗效率
課時103使用scikit-learn庫建立回歸模型
課時104使用邏輯回歸改進模型效果
課時105 模型效果衡量標準
課時106ROC指標與測試集的價值
課時107交叉驗證
課時108多類別問題
章節15: Python庫分析科比生涯數據
課時109Kobe Bryan生涯數據讀取與簡介
課時110特征數據可視化展示
課時111數據預處理
課時112使用Scikit-learn建立模型
章節16: 機器學習項目實戰-泰坦尼克獲救預測
課時113船員數據分析
課時114數據預處理
課時115使用回歸算法進行預測
課時117隨機森林特征重要性分析
章節17: 機器學習項目實戰-交易數據異常檢測
課時118案例背景和目標
課時119樣本不均衡解決方案
課時120下采樣策略
課時121交叉驗證
課時122模型評估方法
課時123正則化懲罰
課時124邏輯回歸模型
課時125混淆矩陣
課時126邏輯回歸閾值對結果的影響
課時127SMOTE樣本生成策略
章節18: Python文本數據分析:新聞分類任務
課時128文本分析與關鍵詞提取
課時129相似度計算
課時130新聞數據與任務簡介
課時131TF-IDF關鍵詞提取
課時132LDA建模
課時133基于貝葉斯算法進行新聞分類
章節19: Python時間序列分析
課時134章節簡介
課時135Pandas生成時間序列
課時136Pandas數據重采樣
課時137Pandas滑動窗口
課時138數據平穩性與差分法
課時139ARIMA模型
課時140相關函數評估方法
課時141建立ARIMA模型
課時142參數選擇
課時143股票預測案例
課時144使用tsfresh庫進行分類任務
課時145維基百科詞條EDA
章節20: 使用Gensim庫構造中文維基百度數據詞向量模型
課時146使用Gensim庫構造詞向量
課時147維基百科中文數據處理
課時148Gensim構造word2vec模型
課時149測試模型相似度結果
章節21: 機器學習項目實戰-貸款申請最大化利潤
課時151數據預處理
課時152獲得最大利潤的條件與做法
課時153預測結果并解決樣本不均衡問題
章節22: 機器學習項目實戰-用戶流失預警
課時154數據背景介紹
課時155數據預處理
課時156嘗試多種分類器效果
課時157結果衡量指標的意義
課時158應用閾值得出結果
章節23: 探索性數據分析-足球賽事數據集
課時159內容簡介
課時160數據背景介紹
課時161數據讀取與預處理
課時162數據切分模塊
課時163缺失值可視化分析
課時164特征可視化展示
課時165多特征之間關系分析
課時166報表可視化分析
課時167紅牌和膚色的關系
章節24: 探索性數據分析-農糧組織數據集
課時168數據背景簡介
課時169數據切片分析
課時170單變量分析
課時171峰度與偏度
課時172數據對數變換
課時173數據分析維度
課時174變量關系可視化展示
章節25: 機器學習項目實戰-HTTP日志聚類分析!
課時175建立特征工程
課時176特征數據預處理
課時177應用聚類算法得出異常IP點