未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets,让Mask策略也能应用于基于ViT的孪生网络,进行自监督学习!
圖靈獎Yann LeCun團隊提出Masked Siamese ConvNets,讓Mask策略也能應用于基于ViT的孿生網(wǎng)絡(luò),進行自監(jiān)督學習!
【寫在前面】
自監(jiān)督學習在各種視覺基準上表現(xiàn)出優(yōu)于監(jiān)督方法的性能。孿生網(wǎng)絡(luò)(siamese networks)鼓勵嵌入不受扭曲影響,是最成功的自監(jiān)督視覺表示學習方法之一。在所有的增強方法中,掩蔽是最通用和最直接的方法,它有可能應用于各種輸入,并且需要最少的領(lǐng)域知識。然而,掩蔽的孿生網(wǎng)絡(luò)需要特殊的歸納偏置,并且實際上只能與 Vision Transformers 一起工作。這項工作實驗性地研究了帶有 ConvNets 的掩蔽孿生網(wǎng)絡(luò)背后的問題。作者提出了幾種設(shè)計來逐步克服這些問題。本文的方法在low-shot圖像分類上具有競爭力,并且在目標檢測基準上優(yōu)于以前的方法。
1. 論文和代碼地址
Masked Siamese ConvNets
論文地址:https://arxiv.org/abs/2206.07700[1]
代碼地址:未開源
2. Motivation
自監(jiān)督學習旨在從可擴展的未標記數(shù)據(jù)中學習有用的表示,而不依賴于人工注釋。它已在自然語言處理、語音識別和其他領(lǐng)域取得成功。自監(jiān)督視覺表示學習也成為一個活躍的研究領(lǐng)域。
孿生網(wǎng)絡(luò)(siamese network)是許多自監(jiān)督學習方法中的一種有前途的方法,并且在許多方面都優(yōu)于有監(jiān)督的同類網(wǎng)絡(luò)視覺基準。它鼓勵編碼器對人為設(shè)計的增強保持不變,只捕獲基本特征。實際上,孿生網(wǎng)絡(luò)方法依賴于特定領(lǐng)域的增強,例如裁剪、顏色抖動和高斯模糊,它們不適用于新領(lǐng)域。因此,希望找到一種需要最少領(lǐng)域知識的通用增強方法。
在各種增強中,掩蔽(mask)輸入仍然是最簡單和最有效的方法之一,已被證明對 NLP和語音有用。然而,直到最近視覺Transformer (ViTs)的成功,視覺模型才能利用掩蔽作為一般增強。當與 ViT 結(jié)合使用時,帶有掩碼的自監(jiān)督學習已展示出更具可擴展性的特性。不幸的是,帶有掩蔽的孿生網(wǎng)絡(luò)不能很好地與大多數(shù)現(xiàn)成的架構(gòu)一起工作,例如 ConvNets。
這項工作使用 ConvNets 確定了掩蔽孿生網(wǎng)絡(luò)背后的潛在問題。作者認為,掩蔽輸入會產(chǎn)生寄生邊緣,扭曲局部和全局特征之間的平衡,并且訓練信號更少。作者提出了幾種設(shè)計來逐步克服這些問題。如上圖所示,實驗表明,具有 ConvNets 主干的連體網(wǎng)絡(luò)可以從這些設(shè)計的掩碼輸入中受益。
本文貢獻如下:
1)作者確定了掩蔽孿生網(wǎng)絡(luò)在 ConvNets 主干上表現(xiàn)不佳的根本問題。
2)作者提出了幾種實驗設(shè)計,并逐漸克服了帶有 ConvNets 的掩蔽孿生網(wǎng)絡(luò)的問題。
3)作者提出了 Masked Siamese ConvNets (MSCN),它在low-shot圖像分類基準上具有競爭力,并且在目標檢測基準上優(yōu)于以前的方法。
3. 帶有 ConvNets 的 Masked Siamese 網(wǎng)絡(luò)中的問題
帶有mask輸入的孿生網(wǎng)絡(luò)已經(jīng)在 ViT上展示了的競爭性能。用現(xiàn)成的 ConvNet替換 ViT 會導致性能明顯下降。這里首先確定一些潛在的問題:
Masking Introduces Parasitic Edges
卷積核以其邊緣檢測行為而聞名。應用mask會在圖像中產(chǎn)生大量寄生邊緣。邊緣檢測內(nèi)核生成的特征圖被嚴重扭曲,因此這些核在訓練期間被抑制。更重要的是,這些寄生邊緣將保留在輸出特征圖中并影響所有隱藏層。相反,ViT 避開了這個問題,因為mask通常被設(shè)計為匹配patch邊界。
在上圖中,作者可視化了編碼器的第一個卷積層核,這些核使用標準增強或掩碼輸入進行了預訓練。由于寄生邊緣,許多內(nèi)核崩潰為瑣碎的空白特征。
Balance between Local and Global Features
隨機調(diào)整大小的裁剪是孿生網(wǎng)絡(luò)最關(guān)鍵的增強。通過改變裁剪的規(guī)模,孿生網(wǎng)絡(luò)找到了短程和長程相關(guān)性的精確組合,稱為局部/紋理特征和全局/語義特征。裁剪可以被認為是mask的一種特殊情況,但是隨機mask會根據(jù)mask網(wǎng)格大小以不同的比率扭曲局部和全局特征。在 ViT 中,mask網(wǎng)格大小是固定的,并設(shè)置為與patch大小相匹配。因此,空間掩蔽設(shè)計對 ViT 的這種平衡幾乎沒有影響。然而,具有尺度不變性歸納偏置的卷積網(wǎng)絡(luò)可能會受益于仔細的空間掩蔽設(shè)計。
Less Learning Signal
掩碼輸入僅包含部分信息,這導致學習信號較少。實際上,掩蔽方法通常需要更長的訓練時間或使用multicrops。例如,掩碼自動編碼器受益于長達 1600 個 epoch 的更長訓練。 Masked siamese networks通過使用 3 個額外的 multicrops,將 ImageNet-1K 的準確率提高了 20% 以上。這也導致 ConvNets 的計算效率降低,因為它們不能跳過像 ViTs 這樣的未屏蔽區(qū)域。
4. Designing Masked Siamese ConvNets
在本節(jié)中,作者提出了幾種實驗設(shè)計來克服上一節(jié)中討論的問題,并展示了最終掩蔽策略的軌跡。作者使用帶有 ResNet-50 骨干網(wǎng)的 SimCLR 作為baseline。對于本節(jié)的實驗,作者使用 LARS 優(yōu)化器在 ImageNet-1K訓練集上對每個模型進行 100 個 epoch 的預訓練,batch大小為 4096。所有結(jié)果都是 ImageNet-1K 驗證集上的linear probe精度。
4.1 Preliminaries
孿生網(wǎng)絡(luò)的目標是學習輸入圖像的表示,以便它們可以用于下游任務(wù)。大多數(shù)方法從從相同的輸入 x 隨機創(chuàng)建兩個crop 和 開始,然后crop應用兩組隨機增強變換 和。然后孿生網(wǎng)絡(luò)訓練一個編碼器,使得。這在孿生網(wǎng)絡(luò)中被稱為正項。
在這項工作中,正項和增強是我本文主要關(guān)注點。正確設(shè)計的對于學習良好的表示至關(guān)重要,因為沒有它的孿生網(wǎng)絡(luò)不能保證中的所有特征都對下游任務(wù)有用。考慮給定任務(wù)的useful特征 和 trivial特征 ,兩者都滿足負項。如果和 ,那么孿生網(wǎng)絡(luò)可以從使用增強中受益。由于 g 會導致更高的正項,那么編碼器更有可能通過訓練收斂到 f 而不是 g。因此,通過向預訓練pipeline添加數(shù)據(jù)增強來從表示中刪除trivial特征。
此外,傳統(tǒng)模式識別在圖像分類或?qū)ο髾z測方面具有手工特征的次優(yōu)性能表明,這些任務(wù)的有用特征不具有數(shù)學或概念上的簡單性。因此,當設(shè)計增強時,作者正在尋找數(shù)學或概念上的簡單特征,并提出增強以防止網(wǎng)絡(luò)收斂到這些特征。
4.2 Designing Principle
標準增強可防止基于簡單輸入統(tǒng)計的表面特征。但是,使用掩蔽輸入,表面特征可能會利用掩蔽區(qū)域并超過有用的區(qū)域。將掩碼表示為,將掩碼區(qū)域的填充值表示為。這個掩蔽圖像可以寫成 。因此,得出了本文的掩蔽設(shè)計原則。對于一個useful特征 和一個 trivial特征,作者要求和滿足:
4.3 Spatial Dimension
作者首先關(guān)注空間維度來研究如何在孿生網(wǎng)絡(luò)中最好地利用掩蔽。首先在同一個隨機裁剪上應用兩個隨機網(wǎng)格掩碼(網(wǎng)格大小 32),掩蔽率固定為 30%,沒有其他增強。為了克服由任意網(wǎng)格掩碼邊界引入的寄生邊緣問題,作者在應用掩碼之前應用高通濾波器。如上圖所示,使用高通濾波器,寄生邊緣變得不可見。此外,輸入圖像中的特殊值 0 表示空信息,而不是正常的像素值。使用高通濾波器,模型精度提高到 30.2%。
平衡輸入中的短程和長程特征以學習有用的表示是至關(guān)重要的。除了隨機網(wǎng)格掩碼(grid mask)外,作者還應用了焦點掩碼(focal mask)。如上圖所示,焦點蒙版可以看作是隨機裁剪,無需調(diào)整大小。作者應用 20% 的焦點掩碼和 80% 的網(wǎng)格掩碼。作者隨機組合了隨機網(wǎng)格掩碼和焦點掩碼樣本。這將模型精度提高到31.0%。
最后,作者將空間掩蔽設(shè)計與標準隨機調(diào)整大小裁剪相結(jié)合。允許兩個分支使用不同的裁剪視圖。這種組合方法達到了 40.0% 的準確率。注意,在沒有mask的情況下,使用僅裁剪增強的模型只能獲得 33.5% 的準確率
4.4 Channel Dimension
然后作者關(guān)注在通道維度上設(shè)計掩碼。首先,作者發(fā)現(xiàn)向mask區(qū)域添加噪聲是有益的。如上圖所示,這可以防止網(wǎng)絡(luò)利用整體顏色直方圖,并且等效于在mask區(qū)域上應用顏色抖動。向mask區(qū)域添加噪聲可將準確度從 40.0% 提高到 48.2% 接下來,作者隨機應用一個通道獨立的掩碼。除了標準的空間mask,作者在三個顏色通道上應用相同的mask,作者生成三個隨機mask并將它們分別應用于每個顏色通道。作者發(fā)現(xiàn)以 70% 的概率應用通道獨立掩碼是最佳的。如上圖所示,這將準確度提高到 53.6%。
最后,作者將通道m(xù)ask設(shè)計與標準增強相結(jié)合。通過在應用蒙版之前對兩個分支應用顏色抖動和灰度,該模型達到了 63.0% 的準確率。接下來,在兩個分支上隨機應用高斯模糊將準確率提高到 65.1%。
4.5 Macro Designs
作者發(fā)現(xiàn)增加兩個網(wǎng)絡(luò)之間的不對稱性可以提高準確性。通過改變兩個分支之間的概率,模型精度提高到 65.6%。
掩蔽孿生網(wǎng)絡(luò)在每次迭代中接收的信息較少。作者生成多個mask輸入并在不對稱對上應用聯(lián)合嵌入損失。這種多mask設(shè)計將準確度提高到 67.4%。最終設(shè)計比不應用mask好 1.0%,比使用標準增強加上隨機mask好 5.2%。
4.6 Design Summary
按照本文的設(shè)計原則,作者逐步改進了掩蔽策略。將整體設(shè)計總結(jié)如下:
應用標準增強:RandomResizedCrop、HorizontalFlip、ColorJitter、Grayscale、GaussianBlur;
應用高通濾波器;
應用mask(空間維度:焦點掩碼和隨機網(wǎng)格掩碼 通道維度:通道獨立掩碼和空間掩碼),并將隨機噪聲添加到mask區(qū)域;
增加不同分支之間的不對稱性;
應用多重mask。
整體 Masked Siamese ConvNets (MSCN) 架構(gòu)如上圖所示。MSCN 利用任意骨干架構(gòu)和各種聯(lián)合嵌入損失函數(shù)。
4.實驗
作者首先使用linear probe和半監(jiān)督分類評估 ImageNet-1K 數(shù)據(jù)集上的表示。在上表中,作者將 MSCN 與baseline進行比較,可以看出,本文方法相比于其他方法有明顯的提升。
作者在上表中比較了mask對 ConvNet 和 ViT 的影響。具有 ConvNet 主干的 MSCN 與具有 ViT 主干的 MSN 表現(xiàn)出相似的表現(xiàn)。
作者在上表中報告了 iNaturalist 2018數(shù)據(jù)集和 Places-205數(shù)據(jù)集上的遷移圖像分類結(jié)果。
在表中,作者報告了 VOC07+12 和 COCO 數(shù)據(jù)集上的目標檢測和實例分割性能。
在上表中,作者探索了最佳掩蔽率。0.15 的小掩蔽率對于 ResNet-50 主干網(wǎng)絡(luò)是最佳的。作者還觀察到,使用本文的掩蔽策略,對于高達 0.50 的掩蔽率,精度相對穩(wěn)定。
在上表中,作者展示了學習表示可以從更好的掩碼網(wǎng)格大小中受益。
在本文的mask策略中,作者應用標準增強來生成多個視圖,然后在這些視圖上隨機應用mask。一種替代方法是在同一增強視圖上應用隨機掩碼。上表顯示,在同一視圖上應用掩碼會導致顯著更差的表示。
5. 總結(jié)
這項工作提出了一種使用 ConvNets 向?qū)\生網(wǎng)絡(luò)添加掩蔽增強的方法。作者首先介紹使用掩蔽作為增強引入的問題。然后仔細研究如何通過改變掩蔽策略來逐步提高下游任務(wù)的性能以解決或緩解問題。本文的方法在low-shot圖像分類基準上具有競爭力,并且在目標檢測基準上優(yōu)于以前的方法。
已建立深度學習公眾號——FightingCV,歡迎大家關(guān)注!!!
ICCV、CVPR、NeurIPS、ICML論文解析匯總:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading
面向小白的Attention、重參數(shù)、MLP、卷積核心代碼學習:https://github.com/xmu-xiaoma666/External-Attention-pytorch
參考資料
[1]https://arxiv.org/abs/2206.07700: https://arxiv.org/abs/2206.07700
本文由 mdnice 多平臺發(fā)布
總結(jié)
以上是生活随笔為你收集整理的未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets,让Mask策略也能应用于基于ViT的孪生网络,进行自监督学习!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Datawhale-数据分析-泰坦尼克-
- 下一篇: 杭电ACM 1000题