作者:吳陳旺、王希廷、連德富
為了深入了解大模型的科學原理并確保其安全,可解釋變得日益重要。解釋大模型帶來了很多獨特挑戰:(1)大模型參數特別多,怎么盡可能確保解釋速度?(2)大模型涉及的樣本特別多,如何讓用戶盡可能少看一些樣本的解釋也能了解大模型的全貌?這兩個問題都指向了對大模型解釋效率的要求,而我們希望通過新的范式,為構建大模型高效解釋之路提供一個思路。
我們的高效新范式是通過從因果角度重新審視模型來獲得的。我們首先從因果的視角重新審視知名可解釋方法(比如 LIME、Shapley Value 等),發現他們的解釋得分對應于因果推理中的因果效應(treatment effect),明確構建了這些方法和因果的聯系。這不僅讓我們可以統一對比這些方法的優缺點,還可以分析他們的因果圖,發現其中導致不夠高效的原因:(1)他們的解釋需要特別多次對大模型的擾動才能獲得,解釋速度慢;(2)他們的解釋不具備泛化性:對相似的樣本,其解釋可能劇烈變化,導致用戶無法通過看少量樣本解釋得到本質的、對其他樣本也適用的本質原因。
基于這個發現,我們提出了新的因果圖,并遵循重要的因果原則,提出了因果啟發的模型解釋框架(Causality Inspired Framework for Model Interpretation, CIMI)來設計解釋器的訓練目標和理想屬性。實驗結果表明,CIMI 提供了更忠誠和可泛化的解釋,同時具有更高的采樣效率,使其特別適合更大的預訓練模型。
通過閱讀本文你可以了解到:
現有知名可解釋方法和因果之間的聯系是什么?如何從統一的因果視角去對比它們的優缺點?
更好、更高效的因果圖是什么?對應的可解釋方法是什么?
本文同時也還有不少需要改進之處,比如我們目前都分析的是分類模型而不是文本生成模型;我們主要在常規大小的預訓練模型上驗證了解釋效率,對于很大規模模型的測試還在進一步實驗中;我們的框架盡管通用,但是具體采用方法目前需要模型最后一層 embedding,對于不公開 embedding 的模型如何高效分析還不明確。這些問題希望在后續和大家探討中共同解決。
論文地址:
https://dl.acm.org/doi/pdf/10.1145/3580305.3599240
開源地址:
https://Github.com/Daftstone/CIMI
研究背景
深度學習在醫療保障、金融預測分析、故障檢測等諸多領域發揮著關鍵作用。然而,深度模型大多是人類無法理解的黑盒,這種不透明性可能產生嚴重后果,尤其在高風險決策中。例如,基于深度學習的污染模型聲稱高污染空氣對人類健康沒有威脅 [1]。不完美的模型并非毫無意義,如果可以解釋模型做出特定決策的原因,就可能有效地降低和避免模型錯誤的風險。另外,公開透明的模型也有助于發現模型中潛在的錯誤(比如,推理邏輯與領域知識不符),從而進一步改進模型 [2]。因此,可解釋人工智能(eXplAInable Artificial Intelligence, XAI)的研究受到了越來越多的關注。
圖 1. 深度學習模型的不透明性。
可解釋學習中一個基本問題是:解釋是否揭示了模型行為的重要根本原因,還是僅僅是虛假的相關性?無法區分相關性和因果關系會導致決策者做出錯誤的解釋。在人機交互方面的研究 [3] 進一步突出了因果關系的重要性,其中廣泛的用戶研究表明,在可解釋人工智能中,因果關系增加了用戶信任,并有助于評估解釋的質量。這一結果呼應了認知科學中的主要理論,即人類使用因果關系來構建對世界的心理模型 [4]。
另外,可解釋人工智能遵循基本的因果性假設,為因果研究提供了理想的環境,而這些假設通常在其他情況下是難以驗證的。例如,在可解釋研究中,我們可以輕易地獲得一組變量(比如,一個句子的所有單詞的組合),這些變量構成了模型預測的所有可能原因的完整集合,這確保滿足了因果充分性假設 [5]。此外,黑盒模型可以輕松進行干預,這允許直接執行關鍵的 do 操作(do-operator)。例如,因果研究的環境通常是一次性的,一個人吃過藥了就無法讓他不吃藥,如果需要建模吃藥和康復的因果關系,就需要仔細對混雜因素建模,并使用后門或者前門調整等技術將因果估計轉化為統計估計,并僅基于觀測數據計算該統計估計。而在可解釋中,干預變得尤為簡單。這是因為要解釋的模型所處的環境非常清楚,允許直接對任何特征進行 do 操作并查看模型預測的變化,并且這一操作可以重復操作。
因果視角的關鍵問題
由于因果在可解釋研究中的重要性和適用性,已經引起了越來越多的關注。多種解釋方法,如 LIME [6],Shapley Value [7] 以及 CXPlain [8],利用干預 (例如對輸入數據擾動) 等因果分析技術提供更忠誠的黑盒模型解釋。盡管如此,仍然缺乏一個正式統一的因果視角,并且一些關鍵研究問題仍然具有挑戰性,例如:
RQ1. 現有解釋方法和因果的關系:現有的解釋方法能否在一個因果框架內進行構建?如果可以的話,所采用的因果模型是什么,并且它們之間有什么區別?
RQ2. 因果推理在可解釋中的挑戰:在利用因果推理進行模型解釋方面,主要的挑戰是什么?通過解決這些挑戰,我們可能會獲得哪些好處?
RQ3. 如何利用因果推理改進可解釋方法:如何改進因果模型以解決這些挑戰?
在該工作中,我們旨在通過研究這些問題來彌合因果推理與可解釋性之間的差距。
從因果角度重新審視可解釋(RQ1)
通過從因果的角度重新審視現有的方法,我們可以證明許多經典的基于擾動的可解釋方法,如 LIME、Shapley Value 以及 CXPlain,實際上計算的是(平均)因果效應。因果效應構成了這些特征的解釋得分,旨在揭示模型預測中每個特征被納入解釋的程度。
另外,他們的因果圖與圖 2(左)相對應。其中,對 E 的治療(treatment)對應于對一個或一組特定特征的擾動。C 是上下文特征,表示在改變 E 后保持不變的特征。
圖 2. 左:現有方法的因果圖,其中解釋 E 和上下文 C 都是影響模型預測 的因素;右:從統一的因果視角對現有可解釋方法的比較。
盡管這三種方法都可以使用圖 2(左)中的因果圖進行總結,但它們也會存在些許差異,如圖 2(右)所示。我們將展示該統一的視角如何輕松地比較每個方法的優缺點:
因果推理應用于可解釋的挑戰(RQ2)
根據上一節的觀察結果,我們能夠總結將因果推理應用于模型解釋的核心挑戰。雖然解釋方法很容易計算個體因果效應,比如,當一個輸入特征改變時,模型的預測結果發生了多大的變化,但核心挑戰是如何有效地發現可以從大量特征和數據點推廣到不同實例的突出共同原因。要解決這個問題,需要保證解釋是:
- 因果充分:解釋包含了所有預測模型行為的信息,并且非解釋不包含影響模型決策的因子。
- 可泛化的:對于相似的實例(只有潛在非解釋的變化),解釋應該保持不變。
- 這些性質是非常重要的,特別是當黑盒模型變得越來越大,并且有更多的數據點需要解釋時,這些突出的共同原因可以泛化到許多數據點上,這樣我們可以節省用戶的認知工作。同時,這也有助于增強用戶的信任。以圖 3 的病理檢測器為例,如果在同一患者的不同斷面層檢測到完全不同的關鍵區域,這將是非常令人不安的。
圖 3:解釋增強用戶信任的例子:病理檢測器。
圖 4:(左). 現有方法的因果圖,其中解釋不是模型預測的唯一原因;(中). 候選因果圖,其中解釋對模型預測是因果充分的,但不是泛化的;(右). 我們的選擇,其中解釋是泛化且是的唯一原因。可觀測變量用藍色陰影表示。
利用因果改進可解釋(RQ3)
基于上一節的討論,我們希望根據選擇的因果圖提升解釋質量(因果充分和可泛化)。但由于兩個重要的因果變量 E 和 U 是不可觀察的,直接在圖 4 (右) 的因果圖中重構因果機制是不切實際的。考慮到因果變量需要遵循明確的原則,我們使用以下兩個因果推理中的重要原則來設計因果變量應滿足的基本屬性:
基于選擇的因果圖以及這兩個因果原則,我們設計了一個因果啟發的模型解釋框架,CIMI。CIMI 包含三個模塊:因果充分模塊、因果干預模塊以及因果先驗模塊,以確保提取的解釋滿足這兩個原則所需的基本屬性。
圖 5. 左:因果充分示意圖;中:因果干預示意圖;右:解釋器的結構設計。
實驗分析
我們選擇了 BERT 和 RoBERTa 作為待解釋的黑盒模型,在 Clickbait、Hate、Yelp 以及 IMDB 數據集來評估生成解釋的質量。具體的統計數據如圖 6 所示。
圖 6. 實驗設置。
我們將對解釋的忠誠性、泛化性、采樣效率以及可用性進行評估。
1. 忠誠性評估:我們使用三個忠誠度指標來評估生成解釋的因果充分性,分別為 DFFOT(決策翻轉的分詞比例)、COMP(必要性)、SUFF(充分性)。這些指標的細節以及我們的實驗結果如圖 7 所示。可以看出提出的方法在各種數據集上是有競爭力的。特別地,隨著數據集的復雜度越來越高(CLickbaitIMDB),相較于基線方法的提升效果更加明顯。例如,在 Clickbait 上,和最好的基線方法比較,關于 DFFOT 的性能提升為 4.2%,而在 IMDB 上,相應的性能提升為 54.3%。這種良好的性質突出了我們的算法具有更好的可擴展性。
圖 7. 解釋的忠誠性評估。
2. 泛化性評估:我們使用 AvgSen(平均敏感度)來評估生成解釋的泛化性。不可否認,對于 AvgSen 來說,解釋中包含的一些重要的 token(解釋)可能會被替換,但概率很低,尤其是在分詞數量較多的 Yelp 和 IMDB 中。實驗結果如圖 8 所示。可以看到,在四個數據集中,擾動前后的 Top-10 重要分詞中至少有 8 個是一致的,這對于基線方法是難以做到的。這表明提出的方法具有捕獲不變泛化特征的能力,這種泛化能力有助于避免對相似實例的重復解釋的耗時成本,同時這種穩定的解釋也有助于增強人們的信任。
圖 8. 解釋的泛化性評估。
3. 采樣效率(即解釋速度)評估:圖 9 展示了在相同采樣次數(模型前向傳播次數)下,各種基于擾動方法的性能比較。首先,CXPlain 的單特征擾動的解釋機制使每個樣本 x 的擾動次數最多為 |x| 次,因此在小數據集上表現出了較高的效率。其次,所提出方法在四個數據集中都顯示出顯著的競爭力,特別是在 Hate 上,只需要 3 個采樣次數就可以超過具有 100 個采樣次數的基線。這得益于神經網絡在因果原則約束下的泛化能力,從大量的數據點中總結出推廣到不同的實例的解釋,最終提高效率。在大模型高速發展的時代,由于模型越來越大,要解釋的數據點也越來越多,這種高效的采樣對于解釋方法顯得越來越重要。
圖 9. 解釋方法的采樣效率評估。
4. 可用性評估:解釋除了讓我們更好地理解模型,還有幫助調試模型。有噪聲的數據收集可能會導致模型在訓練過程中學習到錯誤的相關性。為此,本節分析了各種解釋方法在刪除捷徑特征(shortcut)的能力。我們使用 20 newsgroups 的一個子集分類 “基督教” 和 “無神論”。選擇該數據集的原因是訓練集中有很多捷徑特征,但測試集是干凈的。例如,在訓練集中出現單詞 “posting” 的實例中,99% 的實例都屬于 “無神論” 的類別。
為了測試解釋方法是否可以幫助檢測捷徑特征,我們首先在有噪聲的訓練集上訓練 BERT 模型。然后,我們獲得不同方法的解釋,如果解釋中的分詞沒有出現在干凈的測試集中,則將其視為潛在的捷徑特征。然后,在刪除捷徑特征后重新訓練分類模型。評估各種解釋方法識別捷徑特征的指標是移除潛在捷徑特征后重訓練模型的性能 (更好的分類性能意味著找到的捷徑特征更準確)。結果如圖 10 所示。首先,LIME 和提出的方法都能有效去除捷徑,提高模型性能。其次,CIMI 對模型性能的改進更加明顯,這表明其檢測的捷徑特征更為準確。
圖 10. 解釋方法的可用性評估。
總結
本文從因果推理的角度重新解讀了一些經典的可解釋方法,發現他們的解釋得分對應于因果推理中的因果效應。通過在這個統一的因果視角分析它們的利弊,揭示了利用因果推理進行解釋的主要挑戰:因果充分性和泛化性。最后,基于合適的因果圖和重要的因果原則,設計了神經解釋器的訓練目標和理想屬性,并提出了一種高效的解決方案 CIMI。通過廣泛的實驗,證明了所提方法在解釋的因果充分性、泛化性以及采樣效率方面的優越性,并探索了解釋方法幫助模型調試的潛力。
參考文獻
[1] Michael McGough. 2018. How bad is Sacramento’s air, exactly? google results Appear at odds with reality, some say. Sacramento Bee 7 (2018).
[2] G Xu, TD Duong, Q Li, S Liu, and X Wang. 2020. Causality Learning: A New Perspective for Interpretable machine Learning. IEEE Intelligent Informatics Bulletin (2020).
[3] Jonathan G Richens, Ciarán M Lee, and Saurabh Johri. 2020. Improving the accuracy of medical diagnosis with causal machine learning. Nature communications 11, 1 (2020), 3923.
[4] Steven Sloman. 2005. Causal models: How people think about the world and its alternatives. Oxford University Press.
[5] Brady Neal. 2020. Introduction to causal inference from a machine learning perspective. Course Lecture Notes (draft) (2020).
[6] Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. 2016. "Why should i tRust you?" Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 1135–1144.
[7] Scott M Lundberg and Su-In Lee. 2017. A unified approach to interpreting model predictions. Advances in neural information processing systems 30 (2017).
[8] Yuzuru Okajima and Kunihiko Sadamasa. 2019. Deep neural.NETworks constrained by decision rules. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 2496–2505.
[9] Clive WJ Granger. 1969. Investigating causal relations by econometric models and cross-spectral methods. Econometrica: journal of the Econometric Society (1969), 424–438.
[10] Jonas Peters, Dominik Janzing, and Bernhard Schölkopf. 2017. Elements of causal inference: foundations and learning algorithms. The MIT Press.
[11] Philippe Brouillard, Sébastien Lachapelle, Alexandre Lacoste, Simon LacosteJulien, and Alexandre Drouin. 2020. Differentiable causal discovery from interventional data. Advances in Neural Information Processing Systems 33 (2020), 21865–21877.