機器學習基礎,了解混淆矩陣的所有方面

在本文中，我們將重點了解混淆矩陣和使用混淆矩陣（I類錯誤，II類錯誤和準確度）計算的指標。在分類算法的情況下使用此方法來確定/評估模型的性能。

我們從建立數據集開始，同時建立任何統計或ML模型。將該數據集分為兩部分：培訓和測試。保留測試數據集，并使用訓練數據集訓練模型。一旦模型準備好進行預測，我們就嘗試對測試數據集進行預測。一旦將結果分割成類似于上圖所示的矩陣，就可以看到我們的模型能夠預測正確的數量以及其預測錯誤的數量。

我們使用測試數據集中的數字填充上圖中所示的4個單元格（例如，具有1000個觀察值）。

· TP（真陽性）：在測試數據集中該列的實際標簽為"是"，而我們的邏輯回歸模型也預測為"是"。（500觀察）

· TN（真陰性）：在測試數據集中該列的實際標簽為"否"，而我們的邏輯回歸模型也預測為"否"。（200觀察）

· FP（假陽性）：在測試數據集中該列的實際標簽為"否"，但我們的邏輯回歸模型預測為"是"。（100觀察）

· FN（假陰性）：在測試數據集中該列的實際標簽為"是"，但我們的邏輯回歸模型預測為"否"。（200觀察）

這4個單元格構成了"混淆矩陣"，就像矩陣一樣，它可以通過清晰地描繪模型的預測能力來減輕對模型優劣的所有混淆。

混淆矩陣是一個表，通常用于描述分類模型（或"分類器"）對一組已知真實值的測試數據的性能。

關于混淆矩陣可以理解的其他指標

類型I錯誤

類型1錯誤也稱為誤報，當分類模型錯誤地為最初的錯誤觀察結果預測真實結果時發生。

例如：假設我們的物流模型正在處理垃圾郵件而非垃圾郵件電子郵件用例。如果我們的模型將原本很重要的電子郵件標記為垃圾郵件，那么這就是我們的模型I型錯誤的示例。在這個特殊的問題陳述中，我們很敏感地盡可能地減少Type I錯誤，因為進入垃圾郵件的重要電子郵件可能會造成嚴重后果。

3. II型錯誤

II型錯誤也稱為假陰性，當分類模型錯誤地為原始真實觀察結果預測錯誤結果時，就會發生II型錯誤。

例如：假設我們的邏輯模型正在處理一個用例，它必須預測一個人是否患有癌癥。如果我們的模型將患有癌癥的人標記為健康人并將其分類錯誤，則這就是我們的模型發生的II型錯誤的例子。在這個特殊的問題陳述中，我們對盡可能減少II型錯誤非常敏感，因為在這種情況下，如果假陰性繼續影響患者，則假陰性可能導致死亡。

4.準確性

現在，以上討論的三個指標都是通用指標，與您擁有的培訓和測試數據的種類以及為問題陳述所部署的分類算法的種類無關。

我們現在正著手討論非常適合特定類型數據的指標。

讓我們從這里開始談論準確性，這是最適合平衡數據集的指標。請參考下圖，該圖源于本文。

> Source: Link

如您所見，平衡數據集是一個由訓練數據平均代表1和0，是和否，正負的數據集。另一方面，如果兩個類別標簽的比率出現偏差，則我們的模型將偏向一個類別。

假設我們有一個平衡的數據集，讓我們學習什么是準確性。

精度是測量結果與真實值的接近程度。它告訴我們分類模型能夠多么準確地預測問題陳述中給出的類別標簽。

例如：假設我們的分類模型正在嘗試預測客戶流失情況。在上圖中，在總共700個實際損耗的客戶（TP + FN）中，該模型正確地能夠正確分類500個損耗的客戶（TP）。同樣，在300個保留客戶（FP + TN）中，該模型正確地能夠正確分類200個保留客戶（TN）。

準確度=（TP + TN）/總客戶

在上述情況下，我們看到該模型在1000個客戶的測試數據集上的準確性為70％。

現在，我們了解到精度是僅應用于平衡數據集的指標。為什么會這樣？讓我們看一個例子來理解這一點。

在此示例中，該模型是在不平衡數據集上訓練的，甚至測試數據集也是不平衡的。準確度指標的得分為72％，這可能使我們覺得我們的模型在分類方面做得很好。但是，仔細觀察，此模型在預測否定類標簽方面做得很糟糕。它僅預測了100個陰性標記觀察結果中的20個正確結果。因此，如果數據集不平衡，則不應該使用"準確性"度量標準。

這篇文章專注于完整地理解混亂矩陣。

如果您想了解有關可用于評估分類模型的其他指標的更多信息，例如召回率，精度，AUC-ROC等，則可以參考我下面有關該主題的詳盡文章。

分類ML模型的十大模型評估指標

非常規地解釋，這將作為評估分類機器學習模型的詳盡清單。

請繼續關注此空間，以獲取有關數據科學，機器學習和統計的更多信息！

快樂學習：）

(本文翻譯自Juhi Ramzai的文章《Confusion Matrix- Not so confusing anymore!》，參考：
https://towardsdatascience.com/confusion-matrix-not-so-confusing-anymore-3b7a934d623c)