论文笔记——EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES(解释和利用对抗样本)
本文參考了三篇筆記,幫助很大:
《Explaining and Harnessing Adversarial Examples》閱讀筆記
[論文筆記](méi)Explaining & Harnessing Adversarial Examples
EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES筆記
abstract
一些機(jī)器學(xué)習(xí)方法,包括神經(jīng)網(wǎng)絡(luò)都會(huì)被對(duì)抗樣本(輸入含有小的但是故意破壞的擾動(dòng))誤導(dǎo)。這種對(duì)抗樣本的輸入會(huì)讓神經(jīng)網(wǎng)絡(luò)得出一個(gè)置信度高并且錯(cuò)誤的答案。早期的工作嘗試用非線(xiàn)性特征和過(guò)擬合去解釋它,我們卻認(rèn)為神經(jīng)網(wǎng)絡(luò)對(duì)于對(duì)抗樣本的弱點(diǎn)主要體現(xiàn)在它的線(xiàn)性特征,基于這個(gè)假設(shè),我們提出了簡(jiǎn)單快速的生成對(duì)抗樣本的方法即快速梯度符號(hào)法(Fast Gradient Sign Method),通過(guò)產(chǎn)生對(duì)抗樣本,降低了測(cè)試集的錯(cuò)誤率(MNIST maxout network)
1 Introduction
Szegedy等人在2014年發(fā)現(xiàn)了對(duì)抗樣本,在許多情況下,在訓(xùn)練數(shù)據(jù)的不同子集上訓(xùn)練的具有不同架構(gòu)的各種各樣的模型也會(huì)錯(cuò)誤的分類(lèi)相同的對(duì)抗樣本(數(shù)據(jù)分布中得到的正確分類(lèi)的例子只有輕微區(qū)別)。這表明,對(duì)抗樣本暴露了我們訓(xùn)練算法中的基本盲點(diǎn)。
這些對(duì)抗樣本的原因是一個(gè)謎,推測(cè)的解釋表明,這是由于深度神經(jīng)網(wǎng)絡(luò)的極端非線(xiàn)性(Nonlinear),或許可能與純監(jiān)督學(xué)習(xí)的模型平均不足和正則化不足相結(jié)合。作者證明了這些推測(cè)性的假設(shè)是不必要的。高維空間(high-dimensional)中的線(xiàn)性行為足以引產(chǎn)生對(duì)抗樣本。本文我們能夠設(shè)計(jì)出一種快速生成對(duì)抗樣本的方法,從而使對(duì)抗訓(xùn)練變得切實(shí)可行。對(duì)抗訓(xùn)練提供了傳統(tǒng)正則化策略((dropout, pre-training, model averaging等不能顯著降低模型對(duì)對(duì)抗樣本的脆弱性)以外的另一種正則化方法。
我們的解釋表明,在設(shè)計(jì)由于線(xiàn)性而易于訓(xùn)練的模型和設(shè)計(jì)使用非線(xiàn)性效應(yīng)來(lái)應(yīng)對(duì)對(duì)抗樣本的模型之間存在著一種基本的張力。從長(zhǎng)遠(yuǎn)來(lái)看,通過(guò)設(shè)計(jì)更強(qiáng)大的優(yōu)化方法來(lái)成功地訓(xùn)練更多的非線(xiàn)性模型,有可能避免這種權(quán)衡。
2. Relate Work
Szegedy等人展示了神經(jīng)網(wǎng)絡(luò)和相關(guān)模型的各種有趣特性。與本文最相關(guān)的內(nèi)容包括:
- Box-constrained L-BFGS可以可靠地找到敵對(duì)的例子;
- 很多數(shù)據(jù)集上對(duì)抗樣本與基本樣本差異較少;
- 淺softmax回歸模型也容易受到敵對(duì)實(shí)例的攻擊;
- 在對(duì)抗樣本上進(jìn)行訓(xùn)練可以使模型正規(guī)化——但是,這在當(dāng)時(shí)并不實(shí)際,因?yàn)樾枰趦?nèi)部循環(huán)中進(jìn)行昂貴的約束優(yōu)化。
這些結(jié)果表明,即使是那些基于現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)并在測(cè)試集上獲得優(yōu)異性能的分類(lèi)器,也沒(méi)有學(xué)習(xí)到真正的底層概念,這些概念決定了正確的輸出標(biāo)簽。相反,這些算法建立了一個(gè)Potemkin village以很好地處理自然發(fā)生的數(shù)據(jù),但當(dāng)訪(fǎng)問(wèn)點(diǎn)在數(shù)據(jù)分布中不具有高概率時(shí),就會(huì)暴露為假數(shù)據(jù)。這尤其令人失望,因?yàn)橛?jì)算機(jī)視覺(jué)中一個(gè)流行的方法是使用卷積網(wǎng)絡(luò)特征作為歐幾里得距離近似感知距離的空間,如果感知距離非常小的圖像對(duì)應(yīng)于網(wǎng)絡(luò)代表中完全不同的類(lèi),那么這種相似性顯然是有缺陷的。
這些結(jié)果經(jīng)常被解釋為一個(gè)缺陷,特別是在深度網(wǎng)絡(luò),即使線(xiàn)性分類(lèi)器有同樣的問(wèn)題。我們把對(duì)這一缺陷的了解看作是一次修復(fù)它的機(jī)會(huì)。事實(shí)上,Gu和Rigazio(2014)以及Chalupka等人(2014)已經(jīng)開(kāi)始了設(shè)計(jì)抵御敵對(duì)干擾的模型的第一步,盡管還沒(méi)有模型在保持干凈輸入的精確狀態(tài)的同時(shí)成功地做到了這一點(diǎn).
3. THE LINEAR EXPLANATION OF ADVERSARIAL EXAMPLES
這說(shuō)明了當(dāng)一個(gè)簡(jiǎn)單的線(xiàn)性模型的輸入具有足夠的維數(shù)時(shí),它也會(huì)有對(duì)抗樣本。先前對(duì)對(duì)抗樣本的解釋引用了神經(jīng)網(wǎng)絡(luò)的假設(shè)屬性,比如高度非線(xiàn)性的性質(zhì)。我們基于線(xiàn)性的假設(shè)更簡(jiǎn)單,也可以解釋為什么softmax回歸容易受到對(duì)抗樣本。
4 LINEAR PERTURBATION OF NON-LINEAR MODELS
作者利用對(duì)抗樣本的線(xiàn)性解釋提出了一個(gè)快速產(chǎn)生對(duì)抗樣本的方式,也即Fast Gradient Sign Method(FGSM) 方法,這種方法的核心思想是沿著梯度的反方向添加擾動(dòng)從而拉大對(duì)抗樣本與原始樣本的距離,因?yàn)樽髡逩oodfellow認(rèn)為在構(gòu)造對(duì)抗樣例時(shí),我們更應(yīng)該關(guān)心的是擾動(dòng)的方向而不是擾動(dòng)的數(shù)目。
對(duì)抗樣本的線(xiàn)性觀(guān)點(diǎn)提供了一種快速生成它們的方法。我們假設(shè)神經(jīng)網(wǎng)絡(luò)是過(guò)于線(xiàn)性以至于不能抵抗線(xiàn)性對(duì)抗干擾。LSTMs,ReLUs,maxout network為了更方便優(yōu)化,都有意地以非常線(xiàn)性的形式。即使是像采用Sigmoid激活的網(wǎng)絡(luò),為了同樣的目的,經(jīng)過(guò)精心調(diào)整,以一個(gè)更加線(xiàn)性的機(jī)制使模型大部分的時(shí)間花在非飽和區(qū)域。而這些線(xiàn)性行為所帶來(lái)的對(duì)抗樣本的脆弱性也將摧毀神經(jīng)網(wǎng)絡(luò)。
通過(guò)添加一個(gè)難以察覺(jué)的小向量,它的元素等于損失函數(shù)相對(duì)于輸入的梯度的元素的符號(hào),我們可以改變GoogLeNet對(duì)圖像的分類(lèi)。
使用反向傳播可以有效地計(jì)算所需的梯度。
實(shí)驗(yàn)結(jié)果省略。。。。。。實(shí)驗(yàn)表明,FGSM這種簡(jiǎn)單的算法確實(shí)可以產(chǎn)生誤分類(lèi)的對(duì)抗樣本,從而證明了作者假設(shè)的對(duì)抗樣本的產(chǎn)生原因是由于模型的線(xiàn)性特性。同時(shí),這種算法也可作為一種加速對(duì)抗訓(xùn)練的方法。作者還發(fā)現(xiàn)輸入x在梯度方向上旋轉(zhuǎn)一個(gè)小角度也會(huì)可靠地產(chǎn)生對(duì)抗樣本。
5 ADVERSARIAL TRAINING OF LINEAR MODELS VERSUS WEIGHT
這里作者舉出了一個(gè)例子,對(duì)于線(xiàn)性模型攻擊。
考慮在最簡(jiǎn)單的邏輯回歸(Logistics Regression)模型上應(yīng)用FGSM方法,從而理解在一個(gè)簡(jiǎn)單的設(shè)置中如何生成對(duì)抗樣本。
對(duì)于邏輯回歸模型,在原始MNIST數(shù)據(jù)集上,區(qū)分3和7的錯(cuò)誤率為1.6%,如圖?所示;當(dāng)應(yīng)用快速梯度符號(hào)法添加對(duì)抗擾動(dòng)之后,邏輯回歸模型在這些對(duì)抗樣本上的錯(cuò)誤率為99%。
這有點(diǎn)類(lèi)似于L1正則化。但是L1是在訓(xùn)練過(guò)程中減少模型的激活,而不加在損失上,這意味著如果模型學(xué)習(xí)到有足夠可信度進(jìn)行預(yù)測(cè),使損失函數(shù)飽和,那么這種懲罰最終會(huì)開(kāi)始消失。但是在不擬合的情況下這并不能保證會(huì)發(fā)生,同時(shí)對(duì)抗訓(xùn)練只會(huì)使不擬合的情況惡化,因此,我們可以把L1重量的衰減看作比對(duì)抗性訓(xùn)練更“最糟糕的情況”,因?yàn)樵诒WC良好的情況下它不能失效。
如果我們從邏輯回歸轉(zhuǎn)到多類(lèi)softmax回歸,L1權(quán)重衰減將變得更加悲觀(guān),因?yàn)樗鼘oftmax的每個(gè)輸出視為獨(dú)立的擾動(dòng),而實(shí)際上通常不可能找到與所有類(lèi)的權(quán)重向量一致的單一假設(shè)。在有多個(gè)隱藏單位的深層網(wǎng)絡(luò)中,權(quán)重衰減會(huì)高估擾動(dòng)所能造成的傷害。因?yàn)橹亓克p會(huì)高估的對(duì)抗傷害程度,有必要使用比與我們的特征的精確性有關(guān)干擾系數(shù)更小的L1權(quán)重衰減系數(shù)。在MNIST上訓(xùn)練maxout網(wǎng)絡(luò)時(shí),我們用.25的干擾系數(shù)取得了較好的效果。在第一層應(yīng)用L1權(quán)值衰減時(shí),我們發(fā)現(xiàn)即使系數(shù)為.0025也過(guò)大,導(dǎo)致模型在訓(xùn)練集上的誤差超過(guò)5%。較小的權(quán)值衰減系數(shù)允許成功訓(xùn)練,但沒(méi)有達(dá)到正則化的好處。
6 ADVERSARIAL TRAINING OF DEEP NETWORKS
作者首先認(rèn)為對(duì)深層網(wǎng)絡(luò)容易受到對(duì)抗樣本的攻擊的批評(píng)在某種程度上是被誤導(dǎo)的,因?yàn)榕c淺線(xiàn)性模型不同,深層網(wǎng)絡(luò)至少能夠表示抵抗敵對(duì)性干擾的函數(shù)。然后又提及了這個(gè)通用逼近定理(universal approximator theorem)保證了具有至少一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)(只要它的隱含層允許有足夠的神經(jīng)元單位)可以以任意精度表示任何函數(shù)。通用逼近器定理并沒(méi)有說(shuō)明訓(xùn)練算法是否能夠發(fā)現(xiàn)具有所有期望性質(zhì)的函數(shù)。顯然,標(biāo)準(zhǔn)的監(jiān)督訓(xùn)練并沒(méi)有規(guī)定所選的函數(shù)能夠抵抗對(duì)抗樣本,這必須以某種方式被編碼到訓(xùn)練過(guò)程中。
通過(guò)混合訓(xùn)練對(duì)抗的和干凈的樣本,神經(jīng)網(wǎng)絡(luò)可以正則化。對(duì)抗性實(shí)例的訓(xùn)練與其他數(shù)據(jù)增強(qiáng)方案有所不同;通常,使用轉(zhuǎn)換(例如預(yù)期在測(cè)試集中實(shí)際發(fā)生的轉(zhuǎn)換)來(lái)增加數(shù)據(jù)。這種形式的數(shù)據(jù)擴(kuò)充使用不太可能自然發(fā)生的輸入,但暴露了模型概念化其決策功能的方式上的缺陷。在那個(gè)時(shí)候,這個(gè)過(guò)程從來(lái)沒(méi)有被證明在一個(gè)最先進(jìn)的基準(zhǔn)測(cè)試中可以提高超過(guò)dropout。然而,這在一定程度上是因?yàn)楹茈y用昂貴的基于L-BFGS的對(duì)抗實(shí)例進(jìn)行廣泛的實(shí)驗(yàn)。
發(fā)現(xiàn)基于快速梯度符號(hào)方法的對(duì)抗性目標(biāo)函數(shù)訓(xùn)練是一種有效的正則化器:
用這種方法訓(xùn)練一個(gè)正則化的帶dropout的maxout網(wǎng)絡(luò),可以將不進(jìn)行對(duì)抗性訓(xùn)練的錯(cuò)誤率從0.94%降低到進(jìn)行對(duì)抗性訓(xùn)練的錯(cuò)誤率為0.84%。這個(gè)提升的過(guò)于少,作者注意到在訓(xùn)練集的對(duì)抗子樣本錯(cuò)誤率沒(méi)有達(dá)到零,作出了兩點(diǎn)改進(jìn):
- 將神經(jīng)元數(shù)目從240個(gè)變成了1600個(gè)。
- 同時(shí)使用early stopping在對(duì)抗樣本到測(cè)試集上。
作者在這個(gè)兩個(gè)改進(jìn)的標(biāo)準(zhǔn)下來(lái)選擇訓(xùn)練的迭代數(shù),然后對(duì)所有60000個(gè)樣本進(jìn)行再訓(xùn)練。五個(gè)不同的訓(xùn)練使用不同的隨機(jī)數(shù)生成器的種子用于選擇minibatches訓(xùn)練樣本,初始化權(quán)重模型,并生成dropout masks導(dǎo)致四個(gè)試驗(yàn)都有0.77%的錯(cuò)誤率和一個(gè)試驗(yàn)0.83%的錯(cuò)誤率。0.782%的平均值是MNIST排列不變版本報(bào)告的最佳結(jié)果,盡管在統(tǒng)計(jì)上與使用dropout微調(diào)DBMs 獲得的0.79%的結(jié)果沒(méi)有區(qū)別。
之后作者做了一個(gè)實(shí)驗(yàn),沒(méi)太看懂什么意思。。。。
用原來(lái)的模型生成的對(duì)抗樣本作用在原來(lái)的模型上,錯(cuò)誤率是89.4%,但是作用在使用對(duì)抗樣本訓(xùn)練的模型上,錯(cuò)誤率是17.9%。用對(duì)抗樣本訓(xùn)練的模型去生成對(duì)抗樣本,作用在原來(lái)的模型上,錯(cuò)誤率是40.9%,作用在用對(duì)抗樣本訓(xùn)練的模型上,錯(cuò)誤率是19.6。
但是對(duì)抗訓(xùn)練的模型對(duì)對(duì)抗樣本錯(cuò)誤的分類(lèi)時(shí),它的預(yù)測(cè)仍然是高度自信的。我們還發(fā)現(xiàn),學(xué)習(xí)模型的權(quán)值發(fā)生了顯著的變化,而對(duì)抗訓(xùn)練模型的權(quán)值顯著地更具局部性和可解釋性。
這個(gè)就是直觀(guān)的用對(duì)抗樣本訓(xùn)練的圖,還是比較明顯能看出來(lái),用對(duì)抗樣本訓(xùn)練的更干凈了。
事實(shí)上,在許多情況下,噪聲實(shí)際上會(huì)導(dǎo)致一個(gè)較低的目標(biāo)函數(shù)值。我們可以把對(duì)抗性訓(xùn)練看作是在一組有噪聲的輸入中進(jìn)行艱難的例子挖掘,以便通過(guò)只考慮那些強(qiáng)烈抵制分類(lèi)的有噪聲的點(diǎn)來(lái)更有效地訓(xùn)練。
由于sign function導(dǎo)數(shù)處處為零或無(wú)定義,基于快速梯度符號(hào)法對(duì)敵對(duì)目標(biāo)函數(shù)的梯度下降不允許模型預(yù)測(cè)對(duì)手對(duì)參數(shù)變化的反應(yīng)。
作者又考慮了是擾動(dòng)輸入或隱藏層,或者兩者都擾動(dòng)更好,作者發(fā)現(xiàn):
在飽和模型(如Rust模型)上,對(duì)輸入的擾動(dòng)與對(duì)隱藏層的擾動(dòng)執(zhí)行得相當(dāng)。基于旋轉(zhuǎn)隱藏層的擾動(dòng)解決了無(wú)界激活增長(zhǎng)的問(wèn)題,使相加的擾動(dòng)相對(duì)較小。作者能夠成功地用隱含層的旋轉(zhuǎn)擾動(dòng)訓(xùn)練最大輸出網(wǎng)絡(luò)。然而,這并沒(méi)有產(chǎn)生幾乎強(qiáng)大的正則化效果的添加擾動(dòng)的輸入層。我們對(duì)對(duì)抗性訓(xùn)練的看法是,只有當(dāng)模型有能力學(xué)會(huì)抵制對(duì)抗性的例子時(shí),它才顯然是有用的,當(dāng)然只有通用逼近定理適用時(shí),才會(huì)出現(xiàn)這種情況。由于神經(jīng)網(wǎng)絡(luò)的最后一層,即linear-sigmoid或linear-softmax層,并不是最終隱含層函數(shù)的通用逼近器,這表明當(dāng)對(duì)最終隱藏層應(yīng)用對(duì)抗性擾動(dòng)時(shí),很可能會(huì)遇到不匹配的問(wèn)題。使用隱含層的擾動(dòng)訓(xùn)練的最佳結(jié)果從未涉及到最后隱含層的擾動(dòng)。
7 DIFFERENT KINDS OF MODEL CAPACITY
對(duì)抗樣本是違反直覺(jué)的可能是因?yàn)槲覀冊(cè)诟呔S空間的直覺(jué)非常差(畢竟我們?cè)谌S空間),但是作者舉出來(lái)一個(gè)RBF神經(jīng)網(wǎng)絡(luò)的例子,RBF對(duì)于對(duì)抗樣本的攻擊很不敏感,他本身預(yù)測(cè)的置信度就非常低,所以作者認(rèn)為它會(huì)對(duì)自己不理解的點(diǎn)減少置信度來(lái)提高準(zhǔn)確率。
RBP網(wǎng)絡(luò):
對(duì)于一個(gè)沒(méi)有隱含層的淺層RBF神經(jīng)網(wǎng)絡(luò),使用快速梯度符號(hào)法構(gòu)造對(duì)抗樣例,設(shè)置干擾系數(shù)=.25 ,在MNIST數(shù)據(jù)集上,其錯(cuò)誤率為55.4%,但是對(duì)于分錯(cuò)的樣本,其置信度非常低,只有1.2%。也就是說(shuō),RBF神經(jīng)網(wǎng)絡(luò)對(duì)對(duì)抗擾動(dòng)不敏感,因?yàn)楫?dāng)它們被“愚弄”時(shí),其對(duì)應(yīng)的置信度也很低。
8 WHY DO ADVERSARIAL EXAMPLES GENERALIZE?
對(duì)抗性示例的一個(gè)有趣的方面是,為一個(gè)模型生成的示例經(jīng)常被其他模型分類(lèi)錯(cuò)誤,即使它們有不同的架構(gòu)或者是在不相交的訓(xùn)練集上訓(xùn)練的時(shí)候也是如此。此外,當(dāng)這些不同的模型對(duì)一個(gè)敵對(duì)的例子進(jìn)行錯(cuò)誤的分類(lèi)時(shí),它們通常會(huì)在其類(lèi)別上達(dá)成一致。基于極端非線(xiàn)性和過(guò)擬合的解釋不能很好地解釋這種行為——為什么多個(gè)具有過(guò)過(guò)容量的極端非線(xiàn)性模型始終如一地用相同的方式標(biāo)記分布外的點(diǎn)?
在線(xiàn)性的觀(guān)點(diǎn)下,對(duì)抗樣本出現(xiàn)在廣闊的子空間中。方向只需要有正的點(diǎn)積與成本函數(shù)的梯度,并且干擾系數(shù)只要足夠大就行了。圖4展示了這種現(xiàn)象。
通過(guò)追蹤干擾系數(shù)的不同值,可以看到,對(duì)幾乎任何足夠大的干擾系數(shù)值,只要朝著正確的方向前進(jìn)都可靠地出現(xiàn)對(duì)抗樣本。大多數(shù)Rn都是由對(duì)抗樣本和無(wú)用的類(lèi)樣本組成(參見(jiàn)附錄)。這個(gè)圖片是一個(gè)原始的的訓(xùn)練maxout網(wǎng)絡(luò)生成的。
9 ALTERNATIVE HYPOTHESES
這一部分,作者通過(guò)實(shí)驗(yàn)及分析,反駁了其他兩種對(duì)抗樣本存在的備選假設(shè)。
- 假設(shè)1:生成訓(xùn)練可以在訓(xùn)練過(guò)程中提供更多的限制,或者是的模型學(xué)習(xí)如何分辨"real"或者"fake"的數(shù)據(jù),并且對(duì)"real"的數(shù)據(jù)更加自信。
文章表明,某些生成訓(xùn)練并不能達(dá)到假設(shè)的效果,但是不否認(rèn)可能有其他形式的生成模型可以抵御攻擊,但是確定的是生成訓(xùn)練的本身并不足夠。
- 假設(shè)2:對(duì)抗樣本存在于單個(gè)奇怪的模型(models with strange quirks),因此多個(gè)模型的平均可以使得模型防御性更好。
文章通過(guò)實(shí)驗(yàn)說(shuō)明,模型融合(ensembles)對(duì)于對(duì)抗樣本的防御能力非常有限。
10 SUMMARY AND DISCUSSION
- 對(duì)抗樣本可以被解釋成高維點(diǎn)乘的一種性質(zhì),他們是模型過(guò)于線(xiàn)性的結(jié)果。
- 對(duì)抗樣本具有對(duì)不同模型都有效的特性,這個(gè)特性是可解釋的。
- 擾動(dòng)的方向十分重要。
- 沒(méi)明白意思。
- 我們介紹了一族快速生成對(duì)抗樣本的方法。
- 通過(guò)對(duì)抗樣本訓(xùn)練可以正則化,甚至比dorpout的好。
- 我們進(jìn)行了實(shí)驗(yàn)不能用其他方法更簡(jiǎn)單的更少的高效正則化(包括L1)達(dá)到這個(gè)效果。
- 模型容易被優(yōu)化就容易被擾動(dòng)。
- 線(xiàn)性模型抵抗對(duì)抗樣本能力差,只有大量隱藏層的網(wǎng)絡(luò)才應(yīng)該被訓(xùn)練成抵抗對(duì)抗樣本的網(wǎng)絡(luò)。
- RBF神經(jīng)網(wǎng)絡(luò)對(duì)對(duì)抗樣本有抵抗力。
- 輸入加噪音并不難抵抗對(duì)抗樣本。
- Ensembles不能抵抗對(duì)抗樣本。
基于梯度的優(yōu)化是現(xiàn)代人工智能的核心。使用一個(gè)設(shè)計(jì)得足夠線(xiàn)性的網(wǎng)絡(luò)——無(wú)論是ReLU網(wǎng)絡(luò)還是maxout網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò),還是精心配置的不過(guò)度飽和的s型網(wǎng)絡(luò)——我們能夠適應(yīng)我們關(guān)心的大多數(shù)問(wèn)題,相反例子的存在表明,能夠解釋訓(xùn)練數(shù)據(jù),甚至能夠正確標(biāo)注測(cè)試數(shù)據(jù),并不意味著我們的模型真正理解了我們要求它們執(zhí)行的任務(wù)。相反,他們的線(xiàn)性反應(yīng)在數(shù)據(jù)分布中沒(méi)有出現(xiàn)的點(diǎn)上過(guò)于自信,而這些自信的預(yù)測(cè)通常是高度不正確的。這項(xiàng)工作表明,我們可以通過(guò)明確地識(shí)別問(wèn)題點(diǎn)并在每個(gè)問(wèn)題點(diǎn)上修正模型來(lái)部分地修正這個(gè)問(wèn)題。然而,我們也可以得出這樣的結(jié)論:我們所使用的模范家庭在本質(zhì)上是有缺陷的。優(yōu)化的易用性是以模型容易被誤導(dǎo)為代價(jià)的。這激發(fā)了優(yōu)化程序的開(kāi)發(fā),這些程序能夠訓(xùn)練那些行為在局部更穩(wěn)定的模型。
總結(jié):
優(yōu)點(diǎn):這篇論文中,Goodfellow否定了Szegedy關(guān)于為什么神經(jīng)網(wǎng)絡(luò)易受到對(duì)抗樣例攻擊的解釋,他認(rèn)為神經(jīng)網(wǎng)絡(luò)在高維空間中線(xiàn)性性質(zhì)才是導(dǎo)致對(duì)抗樣例存在的真正原因。基于這種解釋,Goodfellow提出了一種快速生成對(duì)抗樣例的方法,即快速梯度符號(hào)法(FGSM),這種方法的核心思想是沿著梯度的反方向添加擾動(dòng)從而拉大對(duì)抗樣例于原始樣本的距離,因?yàn)镚oodfellow認(rèn)為在構(gòu)造對(duì)抗樣例時(shí),我們更應(yīng)該關(guān)心的是擾動(dòng)的方向而不是擾動(dòng)的數(shù)目。Goodfellow認(rèn)為對(duì)抗樣例之所以有泛化性的原因是因?yàn)樘砑拥臄_動(dòng)與模型的權(quán)重向量高度一致,而且不同的模型在被訓(xùn)練執(zhí)行相同的任務(wù)時(shí),從訓(xùn)練數(shù)據(jù)中學(xué)到的東西相似。在這篇文章中,Goodfellow提出了對(duì)抗訓(xùn)練的思想,他認(rèn)為對(duì)抗訓(xùn)練會(huì)導(dǎo)致訓(xùn)練過(guò)程中的正則化,而且其效果甚至超過(guò)了dropout 。
不足:這篇文章中提出的快速梯度符號(hào)法存在明顯的缺點(diǎn),首先,這是一種不定向的攻擊,只能讓模型出錯(cuò)而無(wú)法做到定向攻擊。而且這種攻擊的魯棒性不強(qiáng),添加的擾動(dòng)容易在圖片的預(yù)處理階段被過(guò)濾掉。盡管Googdfellow提出的對(duì)抗訓(xùn)練方式可以提高模型的泛化能力,從而在一定程度上防御對(duì)抗樣例攻擊,但這種防御方法只針對(duì)一步對(duì)抗樣例攻擊有效,攻擊者仍可以針對(duì)新的網(wǎng)絡(luò)構(gòu)造其他的對(duì)抗樣例。
總結(jié)
以上是生活随笔為你收集整理的论文笔记——EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES(解释和利用对抗样本)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 什么是TOR 官方文档
- 下一篇: AI 趋势