本文最初發表于 Towards Data Science 博客,經原作者 Andre Ye 授權,InfoQ 中文站翻譯并分享。
卷積神經網絡(Convolutional Nerual Network,CNN)構成了圖像識別的基礎,這無疑是深度學習最重要的應用之一。然而“不幸”的是,有關深度學習的許多研究都是在數據集的“完美世界”約束下進行的——追求幾個百分點的正確率。因此,盡管我們開發的架構在理論測試中效果非常好,但在現實世界中卻不一定如此了。
對人眼來說,對抗性樣本或輸入與普通圖像難以區分,但卻能完全騙過各種圖像識別架構。對抗性輸入的部署顯然會帶來許多令人不安的危險影響,特別是當人工智能被賦予更多自主決策的權力時,尤為如此。
因此,理解和解決應用于深度學習的系統產生對抗性輸入——倫理黑客的方法是非常重要的。
由 Goodfellow 等人提出的一種簡單的方法,用于系統生成對抗性輸入,稱為“快速梯度符號法”(fast gradient signed method)。
考慮如下:
- 輸入向量 x(此為輸入信息所在的位置,但可以將其視為一維列表)。
- 對抗性輸入 x-hat(與 x 相同的形狀,但值有所改變)。
- 一個 perbutation 向量 η(“eta”,以產生對抗性輸入向量)。
為了執行逐個元素的乘法和求和(例如[1,2,3] [1,2,3] = 1+4+9 = 14),我們將第一個向量的轉置乘以第二個向量。這就是所謂的“加權總和”。
在這方面,我們必須實現兩個目標,以產生對抗性輸入:
- 我們希望最大化原始輸入向量的加權與擾動(改變)的加權和之間的差值。這會改變模型的激活狀態,并使模型的決策過程中斷。
- 我們希望使對抗性向量 η 的每個單獨值盡可能小,這樣整個圖像在人眼來看沒有改變。
Goodfellow 等人提出的解決方案是雙管齊下的,而且相當聰明,原因有幾個。
η 設置為符號 (w),其中 sign 函數對于負值返回 -1,正值返回 1(0 表示 0)。如果權重為負,則將其乘以 -1 以得到正和;如果權重為正,則乘以 1 而結果無變化。
例如,如果權重向量為[3,-5,7],η 將為[1,-1,1]。加權和為3+5+7=15。請注意,執行這個操作本質上是將負值轉換為正值,而使正值保持不變(abs()函數)。這意味著每個數字都是盡可能大的,如果權重在區間內,那么就是最大可能的加權和[-1, 1]。
考慮下面的一些“圖像”。盡管它們以二維形式表示的,但可以將它們視作一維向量。
最終總和為 10,與原始輸出 -7 相差很大。當然,這將會使網絡的預測更加糟糕。
這樣做可以達到進行較大更改的目的,但一點也不謹慎。畢竟,我們的圖像在我們進行干擾的時候,發生了明顯的改變:
請記住,我們之前將最終總和表示為W(x) + w(η),其中w()是加權綜合,η是 perbutation 向量,實際上是w(x+η)的展開。我們想要稍微改變每個像素的值,雖然總效應必須最大化,但η的每個元素都必須足夠小,以至于不能被注意到。
在對抗性輸入的實際產生中,像素數j被定義為x的jth 值加上η的第j個值。首先引入的表示法使用了一種簡單的方式來證明η的目的,即大幅增加總和,而不一定是單個像素值。
η 的每個元素都相當大:+1 或 -1,這對適當縮放的數據有很大的影響。為了解決這個問題,我們將每個 η 元素乘以一個帶符號的 ?,其中 ? 是傳感器檢測到的最小數值單位(或更?。τ?8 位顏色,該數字將為 256,因此 ?=1/255。
因為 ? 是“不可檢測”的(或者幾乎不可檢測),所以它在視覺上對圖像應該沒有什么不同。但是,每一個變化都是按照 sign 函數構建的,這樣加權和的變化是最大的。
因此,我們將 -? 或 +? 添加到輸入向量的每個元素上,這是一個足夠小的變化,以至于它不可檢測,但使用 sign 函數構造,從而使變化最大化。
許多小組件加起來可能會變得非常大,特別是如果它們是一種智能的方式構造的話。
讓我們考慮一下在上一個例子中 ?=0.2 時這種情況的影響。我們可以得到 3 個單位的差額(總和為 -4)。
這是相當可觀的,特別是考慮到 perbutation 向量對原始輸入向量的微小變化。
讓我們考慮一下在上一個例子中 ?=0.2 時這種情況的影響。我們可以得到 3 個單位的差額(總和為 -4)。
如果權重向量具有 n 個維數,并且元素的平均絕對值為 m,則激活值將增長為 ?nm。在高維圖像中(如 256×256×3),n 的值為 196608。m 和 ? 可以非常小,但仍會對輸出產生重大影響。
這種方法非常快,因為它只通過 +? 或 -? 來改變輸入:但是它這樣做的方式如此有效,以至于完全愚弄了神經網絡。
在上圖中,0.007 的 ? 對應于 googleNet 轉換為實數之后的 8 位圖像編碼的最小為的大小。來源: Goodfellow 等人。
Goodfellow 等人在應用 FGSM 時發現了有趣的結果:
- ?=0.25 時,淺層 SoftMax 分類器的錯誤率為 99.9%,MNIST 上的平均置信度為 79.3%。
- ?=0.1 時,對預處理的 CIFAR-10 的錯誤預測,CNN 的錯誤率為 87.15%,平均置信度為 96.6%。
顯然,這些對抗性的輸入會導致嚴重的錯誤率,但也許更令人擔憂的是高置信度。這些網絡不僅做出了錯誤的預測,還對自己錯誤的輸出“充滿了信心”。這顯然是有問題的:想象一下,教一個猶豫不決回答 2×4=6 的學生和一個自豪地宣布答案的學生之間的區別。
這些對抗性的輸入 / 樣本可以解釋為高維點積的一個特性:當需要在其中分配和的像素數量較多時,加權和可以更大,而對每個單獨像素的改變也會更小。
事實上,對抗性樣本是網絡過于線性的結果。畢竟,這樣的變化(比如說)對一個由 sigmoid 函數組成的網絡的影響微乎其微,因為在大多數地方,perbutation 的影響都是遞減的。具有諷刺意味的是,正是這種特性——死亡梯度(dying gradients)ReLU 和其他容易受到對抗性輸入影響的無界函數的興起。
本文中提出的其他要點包括:
- 最重要的是 perbutation 的方向,而不是空間中的某個特定點。這并不是說,模型在多維空間中存在“弱點”的情況;相反,在對抗性輸入的構建中,perbutation 的方向才是最關鍵的。
- 因為方向是最重要的,所以對抗性結構可以泛化。由于尋找對抗性輸入并不局限于探索模型的預測空間,因此,可以在集中不同類型和結構的模型上推廣構造方法。
- 對抗性訓練可以導致正則化,甚至比 Dropout 還要多。訓練網絡識別對抗性輸入是一種有效的正則化形式,也許比 Dropout 更有效。對抗性訓練的正則化效果不能通過減少權重或簡單地增加權重來復制。
- 易于優化的模型很容易受到擾動。如果找到最佳梯度很簡單,那么計算一個有效的對抗性輸入同樣也會很簡單。
- 線性模型、訓練以模擬輸入分布的模型以及集合對抗性輸入均不能抵抗對抗性輸入。RBF 網絡具有抵抗性。具有隱藏層的架構可以通過訓練來識別對抗性輸入,從而獲得不同程度的成功。
走出數據集的限制性和完美條件的世界,進入不那么有序的現實世界變得越來越重要。通過發現有效的策略來欺騙我們的圖像識別模型,我們就可以在它們被用于更惡意的目的之前對其進行屏蔽。
推薦閱讀
- 《解釋和利用對抗性樣本》(Explaining and Harnessing Adversarial Examples),Goodfellow 等人。
該論文以比本文更嚴謹的數學方法禁燒了 FGSM,并對實驗結果進行了深入分析,討論了 FGSM 的盧綸解釋和啟示。 - 《建立抵抗對抗性攻擊的深度學習模型》(Towards Deep Learning Models Resistant to Adversarial Attacks),Madry 等人。在 FGSM 的研究工作的基礎上,開發了一種更為復雜的對抗性樣本生成方法。
- 《 TensorFlow 教程:FGSM 的對抗性樣本》(TensorFlow Tutorial: Adversarial Example with FGSM)。在 TensorFlow 中實現 FGSM 的代碼教程。
作者介紹:
Andre Ye,Critiq 聯合創始人。機器學習、計算機科學與數學愛好者。
原文鏈接:
https://towardsdatascience.com/how-to-systematically-fool-an-image-recognition-neural-network-7b2ac157375d