譯者 | 布加迪
審校 | 重樓
您是否需要確定自己的數(shù)據(jù)集存在性別或種族方面的偏誤?是否需要確保所使用的機器學習模型沒有偏誤,即使數(shù)據(jù)有偏誤?如果您對上述問題的回答是肯定的,那么這篇文章就適合您閱讀。
偏誤簡介
偏誤是指有意識或無意識地傾向于某一特定群體,通常排斥其他人群。對于屬于某些種族、民族、性別、能力和宗教群體的人來說,偏誤會導致歧視,并在機會和成功方面造成系統(tǒng)性障礙。在有偏誤的世界中生成的數(shù)據(jù)本身就是有偏誤的。創(chuàng)建和部署機器學習模型總是伴隨著顯著的偏誤風險。因此,機器學習解決方案環(huán)境應該提供人類可用的解釋以檢測和糾正偏誤。
問責制和可訪問性在處理偏誤方面至關重要。需要問責制確保任何注意到偏誤的人都能采取行動。生產(chǎn)環(huán)境中機器學習系統(tǒng)的可訪問性便于及時處理偏誤。審計日志可以部分解決問責制。通過自動化和易于使用的UI/UX降低機器學習的進入門檻有助于提高可訪問性。
本文將解釋如何通過針對數(shù)據(jù)和機器學習模型的系統(tǒng)來檢測和處理與數(shù)據(jù)相關的偏誤和與模型相關的偏誤。按照定義,與數(shù)據(jù)相關的偏誤是數(shù)據(jù)集中已經(jīng)存在的偏誤。比如在客戶流失預測用例中,90%的數(shù)據(jù)集可能含有白人客戶,導致數(shù)據(jù)集存在種族偏誤。按照定義,與模型相關的偏誤指模型內(nèi)生成的偏誤。在這種情況下,由于白人占人口的90%,旨在盡量減小誤差的模型可以更好地預測白人的流失,從而導致模型出現(xiàn)種族偏誤。若使用這種模型采取行動以防止客戶流失,會導致非白人群體得不到充足的服務。
數(shù)據(jù)偏誤的檢測
當數(shù)據(jù)集的一些變量值比其他變量值更頻繁地出現(xiàn)時,就會出現(xiàn)第一種、也是最常見的數(shù)據(jù)相關偏誤(代表偏誤)。比如在臨床試驗中,90%的參與者可能是男性。
通過重新采樣數(shù)據(jù)以平等地代表不同的群體,可以部分地處理代表偏誤。然而,當代表性不足的群體的信息和細節(jié)較少時,機器學習模型對這個群體的學習可能會較少。
當存在與目標特征高度相關的變量時,也會出現(xiàn)與數(shù)據(jù)相關的偏誤。為了根據(jù)某些敏感特征檢測偏誤,可以計算出特征相關性(即每列相對目標特征的相關性)。用戶可以忽略可能導致偏誤的高度相關的敏感特征,比如性別或年齡。請注意,線性相關測量可能不適用于同時含有離散特征和連續(xù)特征(即非線性相關性)的數(shù)據(jù)集。使用歸一化互信息有助于解決這個問題。
即使去除了敏感的相關特征,也可能存在與那些敏感特征相關的其他特征。比如說,郵政編碼可能與種族高度相關。即使從模型構(gòu)建中去除種族,保留郵政編碼仍然可能導致有偏誤的模型。根據(jù)變量之間的相關性對變量進行聚類或分組可能有助于檢測和去除這類相關特征。檢測復雜數(shù)據(jù)偏誤的另一種方法是為每個敏感特征創(chuàng)建機器學習模型。應該忽略機器學習模型中對這些敏感特征的預測貢獻最大的特征。
機器學習模型偏誤的檢測
對于與模型相關的偏誤,要同時考慮機器學習模型的輸入和模型的輸出預測。當數(shù)據(jù)集不平衡時,敏感特征可能與目標特征過于相關而導致偏誤。一些機器學習平臺在構(gòu)建模型時分配自動類權(quán)重,以強調(diào)未充分代表的類。
機器學習模型解釋也有助于檢測和預防與模型相關的偏誤。存在局部或全局特征的重要性,比如SHAP或LIME,提供了關于每個特征的值如何影響模型結(jié)果的信息。比如說,如果年齡增加導致信用評分預測降低,那么模型具有與年齡相關的偏誤。然而,很難確定偏誤在模型中的確切位置。可以使用易于解釋的代理模型解釋,比如線性模型或決策樹。代理模型近似并解釋用于決策制定的底層機器學習模型。它們允許更細粒度地檢測偏誤。決策樹代理模型包含模型預測的自動生成的微分段,每個類似一個規(guī)則(比如說,如果代理類型是老年人,性別是男性,那么該客戶就會流失)。
檢測到機器模型上的偏誤(或任何其他問題)后,行動的容易程度和速度決定了解決集訓的速度有多快。創(chuàng)建并共享數(shù)據(jù)和模型解釋可以幫助用戶更快地采取行動。
結(jié)語
你可以系統(tǒng)地檢測和預防數(shù)據(jù)和機器學習模型中的偏誤。比如通過雇用來自不同背景的用戶,并為他們提供人工智能,不僅有助于更好地檢測和預防偏誤,還有助于糾正偏誤檢測系統(tǒng)或機器學習模型失敗或被人做手腳的情況。
原文標題:How To Handle Data And machine Learning Bias In Production,作者:Zehra Cataltepe