ICML 2020 | 第四范式基于AutoML的深度网络记忆性自动化挖掘
概述
樣本選擇方法是噪聲標簽魯棒學習的常用方法。然而,如何正確地控制選擇過程,使深度網絡能夠從記憶效應中獲益是一大難題。本次工作中,受自動機器學習(AutoML)的成功啟發,我們將此問題建模為一個函數逼近問題。
?
具體來說,我們基于記憶效應的一般模式設計了一個特定領域的搜索空間,并提出了一種新的牛頓算法來有效地解決雙層優化問題,并進一步對算法進行了理論分析,保證了算法對臨界點的良好逼近。實驗結果表明,該方法優于現有的噪聲標簽學習方法,并且比現有的 AutoML 算法有更高的效率。
論文作者:Quanming Yao [1], Hansi Yang?[2], Bo Han, Gang Niu,?James Kwok?
論文地址:https://arxiv.org/abs/1911.02377
代碼地址:https://github.com/AutoML-4Paradigm/S2E
招聘啟事:http://www.cse.ust.hk/~qyaoaa/pages/job-ad.pdf
研究組介紹:http://www.cse.ust.hk/~qyaoaa/pages/group.html
背景
深度網絡在圖像處理、語音識別、語言建模和推薦系統等多項任務中取得了巨大的成功,很大程度上在于擁有大量高質量的可用數據,但這在現實場景中很難實現。相反,許多大型數據集是通過眾包平臺收集或互聯網抓取得來,獲得的標簽很嘈雜。
由于深度網絡具有較大的學習能力,最終會過度匹配噪聲標簽,導致泛化性能較差。因此,抗噪的機器學習方法逐漸受到關注,并在醫療圖像分類、人臉識別、目標檢測等許多領域均得到應用(實例請參見代碼地址)。
?
為了減少噪聲標簽的負面影響,抗噪機器學習領域提出了許多方法,它們可以分為三大類。第一種方法基于對標簽轉換矩陣進行估算,然而,這可能導致含有噪聲和無法處理的大量標簽。第二種類型基于正則化方法,然而由于深度網絡通常是過參數化,在足夠的訓練時間下,仍然可以完全記憶含噪聲的數據。
?
第三種方法是本文的重點,它基于在每個迭代中選擇(或加權)可能干凈的樣本進行訓練,通過降低訓練數據的噪聲,可以獲得更好的性能。代表性的方法包括 MentorNet 和 Co-teaching?[3](去噪原理如下圖所示)。
具體地說,MentorNet 使用一個額外的網絡來選擇干凈的樣本來培訓一個 StudentNet。Co-teaching 通過在培訓期間同時維護兩個具有相同架構的網絡來改進 MentorNet,并且每個網絡都使用來自另一個網絡的小損失樣本進行更新。
?
▲?Figure1.為何能用大損失衡量標簽可能被污染的示意圖
在樣本選擇中,一個核心問題是在每次迭代中選擇多少個小損失樣本。雖然丟棄大量樣本可以避免使用噪聲標簽進行訓練,但丟棄過多樣本會導致準確度降低。Co-teaching 使用后發現,深度網絡通常在過度擬合噪聲樣本之前學習簡單的模式,這種記憶效應廣泛存在于各種深度網絡中。
因此,在訓練的早期階段,由于網絡無法記憶噪聲數據,Co-teaching 會減少很少的樣本。隨著訓練的進行,網絡開始記憶噪聲數據。
?
這種情況在 Co-teaching 中是可以避免的,方法是根據預先確定的時間表逐漸減少更多的樣本。從經驗上講,這顯著提高了網絡在噪聲標簽上的泛化性能。然而,尚不清楚其人工設計的時間表是否“最優”。此外,該調度與數據無關,但對所有數據集都是相同的。手動為每個數據集找到一個好的時間表顯然非常耗時而且不可行。
本次工作的方法
受 AutoML 成功啟發,本文提出利用 AutoML 自動開發記憶效應。我們首先將制定學習描述為一個雙層優化問題,類似于神經架構搜索(NAS)。基于深度網絡共享學習曲線行為,設計了調度的搜索空間。這個空間是富于表現力的,但只有少量的超參數。
?
然而,由于樣本選擇是一個離散算子,計算梯度非常困難。為了避免這一問題并進行有效的搜索,我們建議使用隨機松弛和牛頓方法從模型和優化目標中獲取信息。
從經驗上看,該方法優于現有的方法,并且可以比其他的樣本選擇方法選擇更高比例的干凈樣本。實驗表明,本次工作選擇的搜索空間是合適的,且提出的搜索算法比其余的 AutoML 搜索算法更快。
3.1 動機圖示:普世的記憶性
當在有噪聲的數據集上訓練深度網絡時,網絡會出現所謂“記憶性”現象:在訓練的初始階段,網絡會學到一些簡單的模式,在驗證集上的準確率隨之上升;而隨著訓練過程繼續進行,網絡會逐漸“記憶”噪聲樣本,導致驗證集上的準確率因過擬合而下降。上述現象在不同網絡、數據集、噪聲水平和優化器設置下均能觀察到,具有普適性:
?
受此啟發,MentorNet 和 Co-teaching 提出了如下的抗噪訓練方法:隨著訓練過程進行逐漸去掉每批中的大損失樣本,因為當模型在驗證集上準確率提升后,這些樣本更有可能是噪聲樣本,而非模型錯分的樣本。
然而,已有工作均需要人工確定大損失樣本移除比例的具體時間表,無法適用于多樣的噪聲數據集。因此,我們計劃將 AutoML 引入抗噪機器學習領域,自動地選擇大損失樣本移除比例的時間表。
?
盡管不同噪聲數據集上的最佳時間表可能不同,但一般來說,一個較好的時間表應與驗證集上準確率趨勢剛好相反:當驗證集上準確率提升時,網絡具有更好的判別能力,此時大損失的樣本更有可能是噪聲樣本,所以應當移除更多的大損失樣本,反之亦然。而上圖顯示網絡在驗證集上的準確率會先上升,再下降,因此一個較好的時間表應具有先下降,再上升的趨勢。
基于上述推理,本文將時間表的搜索范圍限制為一組具有“先下降,再上升”趨勢函數的線性組合,相關函數及其示意圖如下:
3.2 公式化AutoML目標
記網絡權重為 w,使用的時間表為 R,我們的優化問題可以建模為如下的雙層優化問題:
其中 分別表示在訓練(帶噪)/ 驗證(無噪)集上的損失,F 為所有可能的時間表組成的集合。
然而,由于無法計算目標對 R 的導數,直接求解這個問題是十分困難的。為解決這一困難,本文提出對 R 進行隨機松弛操作,在 R 上附加一個概率分布,并將優化目標由尋找一個較好的時間表轉變為尋找一個更有可能抽取到較好時間表的概率分布,即優化在此概率分布下,用抽取到的時間表 R 訓練網絡在驗證集上表現的期望,如下式所示:
其中 x 為控制時間表 R 的參數,f(x)為使用這一時間表 R(x)在驗證集上的表現, 為隨機松弛的概率分布。
3.3 快速Newton優化算法
已有使用隨機松弛的 AutoML 算法均基于梯度下降或自然梯度下降,無法利用優化目標的高階信息,具有收斂速度較慢、訓練過程不穩定等問題。由此本文提出將 Newton 優化算法應用到隨機松弛上,導出了上述隨機松弛問題 Hessian 矩陣的一般形式,如下:
算法流程見下圖(細節請參見論文)。
?
本文同時從理論上證明了,在梯度和 Hessian 矩陣可能出現一定偏差的情形下,同樣可以保證優化過程收斂到穩定點(詳見論文 Theorem 1)。
實驗
4.1 基準標簽噪聲數據
該實驗中,使用了三個流行的基準數據集:MNIST、CIFAR-10 和 CIFAR-100。接下來,添加了兩種類型的標簽噪聲:
1. 對稱翻轉,它以相同的概率將標簽翻轉到其他不正確的標簽上;
2. 成對翻轉,即翻轉一對相似的標簽,并使用相同的網絡架構。
?
我們將 S2E 與以下最先進的方法進行比較:Decoupling、F-correction、MentoNet、Co-teaching、Co-teaching+、Reweight。
作為一個簡單的基線,我們還與直接在全噪聲數據集上訓練的標準深度網絡進行比較。所有實驗重復五次,取平均結果。下圖顯示了測試精度的收斂性。可以看出,S2E 明顯優于其他方法,并且更加穩定。
?
?
下圖比較了 S2E 和 Mentonnet、Co-teaching 和 Co-teaching+ 的樣本選擇方法。
?
可以看出,由 S2E 學習的 R(·)是特定于數據集的,而其他方法總是使用相同的 R(·)。此外,在噪聲較大的數據上學習的 R(·)較小。因為較高的噪聲水平意味著每個小批量中的干凈樣品(R(·)更小)。此外,R(·)下降的大損失樣本比例大于潛在噪聲水平。
由此看出,大損失樣本通常具有較大的梯度,如果標簽錯誤,可能會對模型產生重大影響。由于大損失樣本不一定會因為模型的不完美而產生噪聲,所以會丟棄更多的樣本。另一方面,簡單地丟棄更多的樣本會導致精度降低。
?
下圖比較了 S2E 和其他比較方法的標簽精度(即,選擇后每個小批次中干凈樣品的比率)。可以看出,S2E 的標簽精度一直是最高的。這表明,S2E 使用的訓練樣本更干凈,從而產生更好的性能。
4.2 對比實驗
在這個實驗中,我們依舊使用 MNIST、CIFAR-10 和 CIFAR-100 數據集來研究不同的搜索空間設計。將 S2E 的搜索空間與Co-teaching 在指定空間比較,并與 Single 的單個基函數跨越的空間進行比較。在這里,我們展示了四個基函數的最佳性能;為了公平比較,本實驗采用隨機搜索。重復 50 次,取平均結果。
?
?
上圖顯示了不同搜索空間變量所獲得的所有時期的最佳測試精度。Co-teaching 和 Single 的性能優于兩種一般函數逼近法(RBF 和 MLP)。
?
上圖顯示了在 CIFAR-10 數據集上由 MLP(其性能優于 RBF)獲得的 R(·)(MNIST 和 CIFAR-100 的結果相似)。可以看出,這些形狀通常遵循此前的假設,為支持這一假設提供了進一步的經驗證據。S2E 所獲得的性能仍然是最好的(即使這里只使用隨機搜索)。這證明了所提出的搜索空間的表達性和緊湊性。
4.3 搜索算法
S2E 使用隨機松弛和牛頓法作為搜索算法。在此,我們將研究其他基于梯度搜索算法的使用,包括梯度下降(Gradient Descent)、自然梯度下降(Natural Gradient Descent)、以及隨機搜索、貝葉斯優化(Bayesian Optimization)、hyperband 等無導數搜索算法。實驗在 CIFAR-10 上進行。
上圖顯示了測試精度 w.r.t. 這類調用的數量。可以看出,與其他算法相比,使用 Hessian 矩陣的 S2E 是最有效的。
總結
本次工作利用深度網絡的記憶效應,利用 AutoML 來解決帶噪聲標簽的學習問題。首先根據學習曲線的觀察值設計一個有表現力但緊湊的搜索空間,通過一種基于隨機松弛和牛頓法的高效搜索算法,克服了計算梯度的困難,并允許將模型和優化目標的信息結合起來。
經試驗表明,該方法的性能優于現有的方法,并且可以比其他的樣本選擇方法選擇出更高比例的干凈樣本。
參考注釋
[1] 姚權銘博士為第四范式資深研究員
[2] 楊瀚思為清華大學本科生,現為第四范式機器學習研究組實習生
[3] Co-teaching是本組2018年發表于NeurIPS的工作,為當年10大高引論文之一
總結
以上是生活随笔為你收集整理的ICML 2020 | 第四范式基于AutoML的深度网络记忆性自动化挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL百万级/千万级数据存储解决方案
- 下一篇: 第四范式入选Forrester中国机器学