機器學習模型性能的十個指標-魔扣目錄

盡管大模型非常強大，但是解決實踐的問題也可以不全部依賴于大模型。一個不太確切的類比，解釋現實中的物理現象，未必要用到量子力學。有些相對簡單的問題，或許一個統計分布就足夠了。對機器學習而言，也不用言必深度學習與神經網絡，關鍵在于明確問題的邊界。

那么在使用ML解決相對簡單問題的時候，如何評估一個機器學習模型的性能呢？這里給出了10個相對常用的評價指標，希望對產研同學有所幫助。

1. 準確率

準確率是機器學習領域中的一個基礎評價指標，通常用于快速地了解模型的性能。通過簡單地計算模型正確預測的實例數量與數據集中總實例數量的比例，準確率提供了一個直觀的方式來衡量模型的準確性。

機器學習模型性能的十個指標圖片

然而，準確率作為一個評價指標，在處理不平衡數據集時可能會顯得力不從心。不平衡數據集是指某一類別的實例數量明顯超過其他類別的數據集。在這種情況下，模型可能會傾向于預測數量較多的類別，從而導致準確率的虛高。

此外，準確率無法提供關于假陽性和假陰性的信息。假陽性是指模型錯誤地將負類實例預測為正類實例的情況，而假陰性則是指模型錯誤地將正類實例預測為負類實例的情況。在評估模型性能時，區分假陽性和假陰性是非常重要的，因為它們對模型的性能有著不同的影響。

綜上所述，雖然準確率是一個簡單易懂的評價指標，但在處理不平衡數據集時，我們需要更加謹慎地解釋準確率的結果。

2. 精確度

精確度是一個重要的評價指標，它專注于衡量模型對正樣本的預測準確性。與準確率不同，精確度計算的是模型預測為正樣本的實例中，實際為正樣本的比例。換句話說，精確度回答了一個問題：“當模型預測一個實例為正樣本時，這個預測有多少概率是準確的？”一個高精確度的模型意味著，當它預測一個實例為正樣本時，這個實例很有可能確實是正樣本。

機器學習模型性能的十個指標圖片

在某些應用中，如醫療診斷或欺詐檢測，模型的精確度尤為重要。在這些場景中，假陽性（即錯誤地將負樣本預測為正樣本）的后果可能是非常嚴重的。例如，在醫療診斷中，一個假陽性的診斷可能導致不必要的治療或檢查，給患者帶來不必要的心理和生理壓力。在欺詐檢測中，假陽性可能會導致無辜的用戶被錯誤地標記為欺詐行為者，從而影響用戶體驗和公司的聲譽。

因此，在這些應用中，確保模型具有高的精確度至關重要。只有通過提高精確度，我們才能降低假陽性的風險，從而減少誤判帶來的負面影響。

3. 召回率

召回率是一個重要的評價指標，用于衡量模型對所有實際正樣本的正確預測能力。具體來說，召回率計算的是模型預測為真陽性的實例與實際正樣本總數的比率。這個指標回答了一個問題：“在所有實際為正樣本的實例中，模型正確預測了多少？”

與精確度不同，召回率關注的是模型對實際正樣本的查全能力。即使模型對某個正樣本的預測概率較低，只要該樣本實際上是正樣本，并且被模型正確預測為正樣本，那么這個預測就會計入召回率的計算中。因此，召回率更關注模型是否能夠找到盡可能多的正樣本，而不僅僅是預測概率較高的那些。

機器學習模型性能的十個指標圖片

在某些應用場景中，召回率的重要性尤為突出。比如在疾病檢測中，如果模型遺漏了實際患病的患者，可能會導致病情的延誤和惡化，給患者帶來嚴重后果。又比如在客戶的流失預測中，如果模型沒有正確識別出可能流失的客戶，企業可能會失去采取挽留措施的機會，從而損失重要客戶。

因此，在這些場景中，召回率成為了一個至關重要的指標。一個具有高召回率的模型能夠更好地找到實際的正樣本，減少遺漏的風險，從而避免可能產生的嚴重后果。

4. F1 評分

F1評分是一個綜合性的評價指標，旨在在準確率和召回率之間尋求平衡。它實際上是準確率和召回率的調和平均值，將這兩個指標合并為一個單一的分數，從而提供了一種同時考慮假陽性和假陰性的評估方式。

機器學習模型性能的十個指標圖片

在許多實際應用中，我們往往需要在準確率和召回率之間做出權衡。準確率關注模型預測的正確性，而召回率則關注模型是否能夠找到所有實際的正樣本。然而，過分強調其中一個指標往往會損害另一個指標的性能。例如，為了提高召回率，模型可能會增加對正樣本的預測，但這同時也可能增加假陽性的數量，從而降低準確率。

F1評分正是為了解決這一問題而設計的。它綜合考慮了準確率和召回率，避免了我們為了優化一個指標而犧牲另一個指標的情況。通過計算準確率和召回率的調和平均值，F1評分在兩者之間取得了一個平衡點，使得我們能夠在不偏袒任何一方的情況下評估模型的性能。

因此，當你需要一個指標來綜合考慮準確率和召回率，并且不希望偏袒其中一個指標時，F1評分是一個非常有用的工具。它提供了一個單一的分數，簡化了模型性能的評估過程，并且幫助我們更好地理解模型在實際應用中的表現。

5. ROC-AUC

ROC-AUC是一種在二進制分類問題中廣泛使用的性能度量方法。它衡量的是ROC曲線下的面積，而ROC曲線則描繪了在不同閾值下，真陽性率（也稱為敏感度或召回率）與假陽性率之間的關系。

機器學習模型性能的十個指標圖片

ROC曲線提供了一種直觀的方式來觀察模型在各種閾值設置下的性能。通過改變閾值，我們可以調整模型的真陽性率和假陽性率，從而獲得不同的分類結果。ROC曲線越靠近左上角，表明模型在區分正負樣本方面的性能越好。

而AUC（曲線下的面積）則提供了一個量化的指標來評估模型的辨別能力。AUC值介于0和1之間，越接近1表示模型的辨別能力越強。一個高的AUC分數意味著模型能夠很好地區分正樣本和負樣本，即模型對于正樣本的預測概率高于負樣本的預測概率。

因此，當我們想要評估模型在區分類別方面的能力時，ROC-AUC是一個非常有用的度量指標。相比其他指標，ROC-AUC具有一些獨特的優勢。它不受閾值選擇的影響，可以綜合考慮模型在各種閾值下的性能。此外，ROC-AUC還對于類別不平衡問題相對穩健，即使在正負樣本數量不均衡的情況下，仍然能夠給出有意義的評估結果。

ROC-AUC是一種非常有價值的性能度量方法，尤其適用于二進制分類問題。通過觀察和比較不同模型的ROC-AUC得分，我們可以更加全面地了解模型的性能，并選擇出具有更好辨別能力的模型。

6. PR-AUC

PR-AUC（精度-召回曲線下的面積）是一種性能度量方法，與ROC-AUC類似，但關注點略有不同。PR-AUC測量的是精度-召回曲線下的面積，該曲線描繪了在不同閾值下精確性與召回率之間的關系。

機器學習模型性能的十個指標圖片

與ROC-AUC相比，PR-AUC更注重精確性和召回率之間的權衡。精確性衡量的是模型預測為正樣本的實例中實際為正樣本的比例，而召回率衡量的是在所有實際為正樣本的實例中，模型正確預測為正樣本的比例。在不平衡的數據集中，或者當假陽性比假陰性更受關注時，精確性和召回率之間的權衡尤為重要。

在不平衡的數據集中，一個類別的樣本數量可能遠遠超過另一個類別的樣本數量。這種情況下，ROC-AUC可能無法準確反映模型的性能，因為它主要關注真陽性率和假陽性率之間的關系，而不直接考慮類別的不平衡性。相比之下，PR-AUC通過精確性和召回率的權衡來更全面地評估模型的性能，在不平衡數據集上更能體現模型的效果。

此外，當假陽性比假陰性更受關注時，PR-AUC也是一個更合適的度量指標。因為在某些應用場景中，錯誤地將負樣本預測為正樣本（假陽性）可能會帶來更大的損失或負面影響。例如，在醫療診斷中，錯誤地將健康人診斷為患病者可能會導致不必要的治療和焦慮。在這種情況下，我們更希望模型具有高的精確性，以減少假陽性的數量。

綜上所述，PR-AUC是一種適用于不平衡數據集或關注假陽性的場景的性能度量方法。它可以幫助我們更好地了解模型在精確性和召回率之間的權衡，并選擇合適的模型以滿足實際需求。

7. FPR/TNR

假陽性率（FPR）是一個重要指標，用于衡量模型在所有實際陰性樣本中錯誤地預測為正樣本的比例。它是特異性的補充指標，與真陰性率（TNR）相對應。當我們想要評估模型避免誤報的能力時，FPR成為一個關鍵要素。誤報可能會導致不必要的擔憂或資源浪費，因此，了解模型的FPR對于確定其在實際應用中的可靠性至關重要。通過降低FPR，我們可以提高模型的精確性和準確性，從而確保僅在實際存在正樣本時發出陽性預測。

機器學習模型性能的十個指標圖片

另一方面，真陰性率（TNR），也被稱為特異性，是一種衡量模型正確識別陰性樣本的指標。它計算的是模型預測為真陰性的實例占實際總陰性的比例。在評估模型時，我們往往關注模型對于正樣本的識別能力，但同樣重要的是模型在識別負樣本方面的表現。高TNR意味著模型能夠準確地識別出陰性樣本，即在實際為負樣本的實例中，模型預測為負樣本的比例較高。這對于避免誤判和提高模型的整體性能至關重要。

8. 馬修斯相關系數（MCC）

MCC（Matthews 相關系數）是一個在二元分類問題中使用的度量值，它為我們提供了一種綜合考慮了真陽性、真陰性、假陽性和假陰性關系的評估方式。與其他的度量方法相比，MCC的優點在于它是一個范圍在-1到1之間的單一值，其中-1表示模型的預測與實際結果完全不一致，1表示模型的預測與實際結果完全一致。

機器學習模型性能的十個指標圖片

更為重要的是，MCC提供了一個平衡度量二元分類質量的方式。在二元分類問題中，我們通常會關注模型對于正樣本和負樣本的識別能力，而MCC則同時考慮了這兩個方面。它不僅關注模型正確預測正樣本的能力（即真陽性），還關注模型正確預測負樣本的能力（即真陰性）。同時，MCC也將假陽性和假陰性納入考量，從而更全面地評估模型的性能。

在實際應用中，MCC特別適用于處理不平衡數據集的情況。因為在不平衡數據集中，一個類別的樣本數量遠大于另一個類別，這往往會導致模型偏向于預測數量較多的類別。然而，MCC能夠平衡地考慮所有四個指標（真陽性、真陰性、假陽性和假陰性），因此對于不平衡數據集，它通常能提供一個更為準確和全面的性能評估。

總的來說，MCC是一種強大且全面的二元分類性能度量工具。它不僅綜合考慮了所有可能的預測結果，還提供了一個直觀的、范圍明確的數值來度量預測與實際結果的一致性。無論是在平衡還是不平衡的數據集上，MCC都是一個有用的度量指標，能夠幫助我們更深入地理解模型的性能。

9. 交叉熵損失

交叉熵損失是一種在分類問題中常用的性能度量指標，尤其適用于模型的輸出為概率值的情況。該損失函數用于量化模型預測的概率分布與實際標簽分布之間的差異。

機器學習模型性能的十個指標圖片

在分類問題中，模型的目標通常是預測樣本屬于不同類別的概率。交叉熵損失正是用于評估模型預測概率與實際二進制結果之間的一致性。它通過對預測概率進行對數運算，并與實際標簽進行比較，得出損失值。因此，交叉熵損失也被稱為對數損失。

交叉熵損失的優勢在于它能夠很好地衡量模型對于概率分布的預測準確性。當模型的預測概率分布與實際標簽分布相近時，交叉熵損失的值較低；反之，當預測概率分布與實際標簽分布差異較大時，交叉熵損失的值較高。因此，較低的交叉熵損失值意味著模型的預測更加準確，即模型具有更好的校準性能。

在實際應用中，我們通常追求更低的交叉熵損失值，因為這代表著模型對于分類問題的預測更加準確和可靠。通過優化交叉熵損失，我們可以提升模型的性能，并使其在實際應用中具備更好的泛化能力。因此，交叉熵損失是評估分類模型性能的重要指標之一，它能夠幫助我們進一步了解模型的預測準確性以及是否需要進一步優化模型的參數和結構。

10. 科恩卡帕系數

科恩卡帕系數是一種用于測量模型預測與實際標簽之間一致性的統計工具，它尤其適用于分類任務的評估。與其他度量方法相比，它不僅計算模型預測與實際標簽之間的簡單一致性，還對可能偶然發生的一致性進行了校正，因此提供了一個更為準確和可靠的評估結果。

在實際應用中，特別是當涉及多個評分者對同一組樣本進行分類評分時，科恩卡帕系數非常有用。在這種情況下，我們不僅需要關注模型預測與實際標簽的一致性，還需要考慮不同評分者之間的一致性。因為如果評分者之間存在顯著的不一致性，那么模型性能的評估結果可能會受到評分者主觀性的影響，從而導致評估結果的不準確。

通過使用科恩卡帕系數，可以校正這種可能偶然發生的一致性，從而更準確地評估模型性能。具體來說，它計算了一個介于-1和1之間的值，其中1表示完全一致性，-1表示完全不一致性，而0表示隨機一致性。因此，一個較高的KAppa值意味著模型預測與實際標簽之間的一致性超過了偶然期望的一致性，這表明模型具有較好的性能。

機器學習模型性能的十個指標圖片

科恩卡帕系數可以幫助我們更準確地評估分類任務中模型預測與實際標簽之間的一致性，同時校正可能偶然發生的一致性。在涉及多個評分者的場景中，它尤其重要，因為它能夠提供一個更為客觀和準確的評估結果。

小結

機器學習模型評價的指標有很多，本文給出了其中一些主要的指標：

準確率（Accuracy）：正確預測的樣本數占總樣本數的比例。
精確率（Precision）：正真（True Positive，TP）樣本占所有預測為正（TP和FP）樣本的比例，體現了模型對正樣本的識別能力。
召回率（Recall）：正真（True Positive，TP）樣本占所有真實為正（TP和FN）樣本的比例，體現了模型發現正樣本的能力。
F1值：精確率和召回率的調和平均值，同時考慮了精確率和召回率。
ROC-AUC：ROC曲線下的面積，ROC曲線是真正率（True Positive Rate，TPR）與假正率（False Positive Rate，FPR）的函數。AUC越大，模型的分類性能越好。
PR-AUC：精度-召回曲線下的面積，它專注于精確性和召回率之間的權衡，更適合不平衡的數據集。
FPR/TNR：FPR衡量模型誤報能力，TNR衡量模型正確識別負樣本的能力。
交叉熵損失：用于評估模型預測概率與實際標簽之間的差異。較低的值表示更好的模型校準和準確性。
馬修斯相關系數（MCC）：一個綜合考慮了真陽性、真陰性、假陽性和假陰性關系的度量值，提供了二元分類質量的平衡度量。
科恩卡帕系數（cohen's kappa): 評估分類任務模型性能的重要工具，能準確測量預測與標簽的一致性，并校正偶然一致性，尤其在多個評分者場景中更具優勢。

以上各個指標各有特點，適用于不同的問題場景。在實際應用中，可能需要結合多個指標來全面評價模型的性能。