760 阿裏雲技術社區[雲棲]

論文導讀：對抗樣本與學習

https://yq.aliyun.com/cloud

作者介紹：

Adrian Colyer：morning paper編輯、Accel Partners投資合夥人、SpringSource首席技術官、VMware技術總監。

領英：https://www.linkedin.com/in/adriancolyer/

Twitter：https://twitter.com/adriancolyer

能夠

Deep neural networks are easily fooled, Nguyen et al, 2015

Practical black-box attacks against deep learning systems using adversarial examples, Papernot et al, 2016

Adversarial examples in the physical world, Goodfellow et al, 2017

Explaining and harnessing adversarial examples, Goodfellow et al, 2015

Distillation as a defense to adversarial perturbations against deep neural networks, Papernot et al., 2016

Vulnerability of deep reinforcement learning to policy induction attacks, Behzadan & Munir, 2017

Adversarial attacks on neural network policies, Huang et al. 2017

“100” ”

深層神經網絡容易被愚弄

95d9ebf27ec3703dee960ac4f235731c5900e50b

0

59a1bb018fec23c27ac66f45c1c22cb372665a71

4

從人的角度來看到的DNN

EA

4b885d8992f4022cd27e47c5c6cbcd4eda8f91bb

MNIST-9

7ea66f4765bfb265b150996656e6c2c0392af35c

下麵使用間接編碼突變創建的：

faa1cd303b3c379de09f505273b5b264cf26e665

CPNN

7142c970ce5e593d666316d78b11b7e7b055f36a

DNN

DNN

9674746990d41335a798e9715072d85b6e6ebcbf

59.7

99.3

DNNSVM）。

對MNIST的測試精度達到92.17％的亞馬遜分類器可能被96.19％的對抗樣本所欺騙；在MNIST上獲得了92％的測試準確性的Google分類器，可能被88.94％的對抗樣本所欺騙。基於梯度掩蔽的防禦對抗替換攻擊而言不是有效。

到目前為止，所有以前的工作中對手可以將數據直接提供給機器學習的分類器。對於在物理世界中運行的係統來說，並不總是這樣。本文表明，即使在物理世界場景中，機器學習係統也容易受到對抗樣本的影響。

作者打印清晰圖片和對抗圖像，並拍攝打印的圖像，將這些照片裁剪後送入分類器。該過程通過手動攝影進行，並且不需要仔細控製照明等引入多餘變量，具有根據微妙變化破壞對抗擾動的潛力。

總體來說，結果表明對抗樣本的一小部分仍然被錯誤分類：照相變換證明了物理對抗的可能性。因此，通過產生足夠的對抗圖像，對手可能會產生比自然輸入更多的錯誤分類。

解釋和利用對抗樣本

Goodfellow結果表明基於現代機器學習技術的分類器，即使在測試集上獲得出色性能的分類器也沒有真正學習確定正確輸出標簽的特征。考慮在高維線性分類器中，每個單獨的輸入特征被歸一化。對於任何一個輸入，小的改變將不會改變分類器的總體預測。但對輸入進行許多次無窮小的改變，會導致輸出有大的變化。

可以通過調整相應權重的符號變化來最大限度地發揮許多小變化對其的影響。這也是一種產生對抗圖像的快速方式。

對抗樣本一個有趣的方麵是一個模型生成的示例通常會被其他模型錯誤分類。

解釋表明，由於其線性設計出易於訓練的模型和使用非線性效應來抵抗對抗擾動的模型之間造成了根本的緊張。從長遠來看，可以通過設計更強大的優化方法來成功地訓練更多的非線性模型以逃避這種折中。

對於MNIST數據集訓練的DNN，防禦性蒸餾將對抗樣本的成功率從95.89％降低到0.45％！針對CIFAR數據集而言，成功率由87.89％降至5.11％。事實上，防禦性蒸餾可以降低DNN對輸入擾動的靈敏度。

下麵介紹防禦性蒸餾如何工作以及其原理。考慮一般的對抗框架，首先搞清楚工作方向是圍繞給定的輸入樣本，然後使用這些信息選擇輸入維度之間的擾動。

DNN對對抗樣本的“魯棒性”與給定樣本鄰域相一致地分類輸入相關。

為了實現這種平滑，蒸餾防禦首先按照正常的方式訓練分類網絡，然後用從第一個模型學到的概率向量訓練另外一個完全相同架構的新模型。

以這種方式訓練網絡，有助於更好的泛化。

下圖展示蒸餾溫度如何影響模型對抗樣本的防禦能力。直觀上，溫度越高防禦越好。

蒸餾對分級精度影響不大，甚至有可能會提升。

文章表明，甚至連防禦性蒸餾也不足以減輕對抗，並證明了防禦性蒸餾是無效的。

深層強化學習對政策誘導攻擊的脆弱性

這篇文章和下一篇文章告訴我們，深度強化學習網絡（比如DQNs）也容易受到對抗攻擊。

“黑盒攻擊”技術來訓練與目標選擇的策略相匹配的替代

下一步是找到一種將這種學習對抗政策轉移到目標網絡的方法。這是在開發周期中完成的：

“是否可能產生肯定的:

必須回答的第二個問題是，這些對抗樣本是否可以轉移。答案是肯定的：

由於所有已知的對策表明是不充分的，因此目前抵抗對抗樣本的最新水平不能提供具體的防範來防備這樣的開發。

首先通過使用白盒攻擊展示了這點，還表明在一係列深度強化學習算法（DQN、TRPO和A3C）中對抗也會成功。然後作者使用黑匣子攻擊演示了轉移能力，“物理世界中的對抗樣本”中學到的經驗。作者指出，即使在黑盒子情況下，計算效率高的對抗樣本很容易迷惑這樣的政策，可以將這些對抗擾動應用於現實世界中的對象，例如在道路表麵的增加特製漆以迷惑自動駕駛汽車的車道追蹤策略。

When DNNs go wrong – adversarial examples and what we can learn from them

最後更新：2017-04-11 17:31:02

上一篇： angularJS 獨立作用域

下一篇： FactoryBean的使用

相關內容

熱門內容

最新內容