日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

點擊這里在線咨詢客服

網站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > IT業界 >正文

隨機森林算法是如何在內部工作的這篇文章是關于什么的隨機森林包數據內部到底發生了什么步驟1-BootstrApping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并創建子

發布時間：2023-07-03 12:06:38 作者：網友整理

圖解隨機森林算法

這篇文章是關于什么的

在本文中，我們將了解隨機森林算法是如何在內部工作的。為了真正理解它，了解一下決策樹分類器可能會有幫助。但這并不完全是必需的。

注意：我們不涉及建模中涉及的預處理或特征工程步驟，只查看當我們使用sklearn的RandomForestClassifier包調用.fit()和.transform()方法時，算法中會發生什么。

隨機森林

隨機森林是一種基于樹的算法。它是多種不同種類的隨機樹的集合。模型的最終值是每棵樹產生的所有預測/估計的平均值。

包

我們將以sklearn的RandomForestClassifier為基礎

sklearn.ensemble.RandomForestClassifier

數據

為了說明這一點，我們將使用下面的訓練數據。

圖解隨機森林算法

注：年齡、血糖水平、體重、性別、吸煙，... f98、f99都是自變量或特征。

糖尿病(Diabetic)是我們必須預測的y變量/因變量。

內部到底發生了什么

有了這些基本信息，讓我們開始并理解我們將這個訓練集傳遞給算法會發生什么…

步驟1-BootstrApping

圖解隨機森林算法

一旦我們將訓練數據提供給RandomForestClassifier模型，它（該算法）會隨機選擇一組行。這個過程稱為Bootstrapping。對于我們的示例，假設它選擇m個記錄。

圖解隨機森林算法

注意- 要選擇的行數可由用戶在超參數- max_samples中提供）

注意- 一行可能被多次選中

步驟2-為子樹選擇特征

圖解隨機森林算法

現在，RF隨機選擇一個子集的特征/列。為了簡單起見，我們選擇了3個隨機特征。

注意，在你的超參數max_features中你可以控制這個數字，例如下面的代碼

import sklearn.ensemble.RandomForestClassifier
my_rf = RandomForestClassifier(max_features=8)

步驟3-選擇根節點

圖解隨機森林算法

一旦選擇了3個隨機特征，算法將對m個記錄（從步驟1開始）進行決策樹的拆分，并快速計算度量值。

這個度量可以是gini，也可以是熵。

criterion = 'gini' #( or 'entropy' . default= 'gini’ )

選取基尼/熵值最小的隨機特征作為根節點。

記錄在此節點的最佳拆分點進行拆分。

步驟4-選擇子節點

圖解隨機森林算法

該算法執行與步驟2和步驟4相同的過程，并選擇另一組3個隨機特征。（3是我們指定的數字-你可以選擇你喜歡的-或者讓算法來選擇最佳數字）

圖解隨機森林算法

它根據條件（gini/熵），選擇哪個特征將進入下一個節點/子節點，然后在這里進一步分割。

步驟5-進一步拆分并創建子節點

圖解隨機森林算法

繼續選擇特征（列）以選擇其他子節點

此過程繼續（步驟2、4）選擇隨機特征并拆分節點，直到出現以下任一情況

a）已用完要拆分的行數
b）拆分后的基尼/熵沒有減少

圖解隨機森林算法

現在你有了第一個“迷你決策樹”。

圖解隨機森林算法

使用隨機選擇的行（記錄）和列（特征）創建的第一個迷你決策樹

第6步-創建更多迷你決策樹

算法返回到你的數據并執行步驟1-5以創建第二個“迷你樹”

圖解隨機森林算法

這是我們使用另一組隨機選擇的行和列創建的第二個迷你樹

第7步-樹成林

一旦達到默認值100棵樹（現在有100棵迷你決策樹），模型就完成了fit()過程。

圖解隨機森林算法

注意你可以指定要在超參數中生成的樹的數量（n_estimators）

import sklearn.ensemble.RandomForestClassifier
my_rf = RandomForestClassifier(n_estimators=300)

圖解隨機森林算法

現在你有一個由隨機創建的迷你樹組成的森林（因此得名Random Forest）

第7步-推理

現在讓我們預測一個看不見的數據集（測試數據集）中的值

為了推斷（通常稱為預測/評分）測試數據，該算法將記錄傳遞到每個迷你樹中。

圖解隨機森林算法

記錄中的值根據每個節點表示的變量遍歷迷你樹，最終到達一個葉節點。基于該記錄結束的葉節點的值（在訓練期間決定的），該迷你樹被分配一個預測輸出。

圖解隨機森林算法

類似地，相同的記錄經過所有的100個小決策樹，并且每100個樹都有一個預測輸出。這個記錄的最終預測值是通過對這100棵小樹的簡單投票來計算的。

圖解隨機森林算法

現在我們有了對單個記錄的預測。

該算法按照相同的過程迭代測試集的所有記錄，并計算總體精度！

圖解隨機森林算法

迭代獲得測試集每一行的預測的過程，以達到最終的精度。

參考文獻

[1] sklearn’s documentation for RandomForestClassifier ( version : 3.2.4.3.1)

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

分享到：

標簽：算法隨機森林

網友整理

注冊時間：

網站：5 個小程序：0 個文章：12 篇

51998
網站
12
小程序
1030137
文章
747
會員

趕快注冊賬號，推廣您的網站吧！

文章分類

熱門網站

各百科-專業百科問答知識名網站 m.geelcn.com
免費軟件,綠色軟件園,手機軟件下載,熱門游戲下載中心-中當網 m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國際體育資訊_全球體育賽事-中名網 www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網 www.feelcn.com/shenghuo/shipinanquan/
中合網 www.heelcn.com
中當網 www.deelcn.com
魔扣網站維護代運營 www.ylptlb.cn/tg
中合網-健康養生知識科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數獨大挑戰

數獨大挑戰2018-06-03

數獨一種數學游戲，玩家需要根據9

答題星

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫，初中，高中，大學四六

運動步數有氧達人

運動步數有氧達人2018-06-03

記錄運動步數，積累氧氣值。還可偷

每日養生app

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定

熱門文章