超越ImageNet预训练,Meta AI提出SplitMask,小数据集也能自监督预训练
?作者?|?陳萍
來源?|?機(jī)器之心
大規(guī)模數(shù)據(jù)集對(duì)自監(jiān)督預(yù)訓(xùn)練是必要的嗎?Meta AI 認(rèn)為,小數(shù)據(jù)集也能自監(jiān)督預(yù)訓(xùn)練,效果還不錯(cuò)。
目前,計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)被大量參數(shù)化:它們通常有數(shù)千萬或數(shù)億個(gè)參數(shù),這是它們成功利用大型圖像集合 (如 ImageNet) 的關(guān)鍵。然而,這些高容量模型往往會(huì)在小型(包含數(shù)十萬張圖像)甚至中型數(shù)據(jù)集上過度擬合。因此,有研究者指出在 2014 年:學(xué)習(xí) CNN 的過程相當(dāng)于估計(jì)模型數(shù)百萬個(gè)參數(shù),這需要大量的帶標(biāo)注的數(shù)據(jù)。?
?當(dāng)今應(yīng)對(duì)數(shù)據(jù)匱乏問題的主流學(xué)習(xí)范式是,即先在大型數(shù)據(jù)集(如 Imagenet )上對(duì)模型進(jìn)行預(yù)訓(xùn)練,之后基于特定的任務(wù)以較少的數(shù)據(jù)集微調(diào)模型。這一訓(xùn)練過程通常優(yōu)于從頭開始訓(xùn)練(例如,從頭隨機(jī)初始化參數(shù))。
這種學(xué)習(xí)范式在許多任務(wù)中取得了 SOTA 性能,例如檢測、分割、動(dòng)作識(shí)別等。盡管這種方法取得了成功,但我們很難將這種大規(guī)模標(biāo)簽數(shù)據(jù)集提供的好處與預(yù)訓(xùn)練范式的局限性區(qū)分開來。除此以外,在一個(gè)數(shù)據(jù)集上預(yù)訓(xùn)練模型并在另一個(gè)數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)會(huì)引入差異。
來自 Meta AI 等機(jī)構(gòu)的研究者,考慮了一個(gè)僅利用目標(biāo)任務(wù)數(shù)據(jù)的自監(jiān)督預(yù)訓(xùn)練場景。所用數(shù)據(jù)集包括如 Stanford Cars、Sketch 或 COCO,它們的數(shù)量級(jí)小于 Imagenet。
該研究表明,本文介紹的去噪自編碼器(如 BEiT 或其變體),對(duì)預(yù)訓(xùn)練數(shù)據(jù)的類型和大小更具有魯棒性。與來自 ImageNet 預(yù)訓(xùn)練相比,該研究獲得了具有競爭力的性能。在 COCO 上,當(dāng)僅使用 COCO 圖像進(jìn)行預(yù)訓(xùn)練時(shí),在檢測和實(shí)例分割任務(wù)上,性能超過了監(jiān)督 ImageNet 預(yù)訓(xùn)練。
論文地址:
https://arxiv.org/pdf/2112.10740.pdf
論文介紹
本文研究了圖像的數(shù)量及其性質(zhì)如何影響自監(jiān)督模型的質(zhì)量。在這個(gè)初步分析中,該研究將 BEiT 和 SplitMask(在第 4 節(jié)中的變體)分別作為去噪自編碼器和聯(lián)合嵌入方法 DINO(Facebook 發(fā)布的非監(jiān)督學(xué)習(xí)) 的代表。
?SplitMask 是一種基于視覺 transformer 的去噪自動(dòng)編碼器變體,方法概述如圖 4 所示:
SplitMask 架構(gòu)
SplitMask?
SplitMask 基于三個(gè)步驟完成:分解(split)、修復(fù)(inpaint)和匹配。與標(biāo)準(zhǔn)視覺 transformer 一樣,圖像首先被分解為 16×16 的 patch,之后 patch 又被分成兩個(gè)不相交的子集 A 和 B。接下來,研究者使用子集 A 的 patch 表示和淺層解碼器,來修復(fù)子集 B 的 patch,反之亦然。最后,通過對(duì)每個(gè)分支對(duì)應(yīng)的解碼器輸出的 patch 表示進(jìn)行平均池化,得到全局圖像描述符。之后研究者嘗試將從子集 A 獲得的圖像全局描述符與從子集 B 獲得的圖像全局描述符相匹配。?
編碼器 - 解碼器架構(gòu)
SplitMask 實(shí)現(xiàn) pipeline 依賴于編碼器 - 解碼器架構(gòu)。模型的編碼器是一個(gè)標(biāo)準(zhǔn)的視覺 transformer,具有絕對(duì)位置嵌入。與 BEiT 方法相反,該編碼器不處理掩碼 token(masked tokens)表示,而只處理觀察到的 token 。因此,圖像被劃分為線性嵌入 patch,并將位置嵌入添加到這些表示中。這些表示分為兩個(gè)子集 A 和 B,由標(biāo)準(zhǔn) transformer 層獨(dú)立處理。
全局對(duì)比損失
除了在 patch 級(jí)別計(jì)算 MIM 損失之外,該研究還在圖像級(jí)別使用對(duì)比損失。為此,該研究對(duì)解碼器的所有輸出表示應(yīng)用平均池化操作。每個(gè)圖像獲得兩個(gè)表示 x_a 和 x_b,對(duì)應(yīng)于觀察到的 patch 子集 A 和 B。InfoNCE 損失 [59] 應(yīng)用于這些表示:
實(shí)驗(yàn)
首先,實(shí)驗(yàn)研究了計(jì)算機(jī)視覺模型在各種數(shù)據(jù)集上的預(yù)訓(xùn)練和微調(diào),詳見表 3,表中列出了數(shù)據(jù)集名稱、訓(xùn)練和測試數(shù)據(jù)分布等信息。
預(yù)測任務(wù)
首先,該研究使用 Mask R-CNN pipeline [8] 在 COCO 目標(biāo)檢測和實(shí)例分割數(shù)據(jù)集上對(duì) SplitMask 進(jìn)行評(píng)估,表 4 為評(píng)估結(jié)果。
由結(jié)果可得,在相同的 BEiT 模型上,單獨(dú)在 COCO 數(shù)據(jù)集上預(yù)訓(xùn)練的模型與在 ImageNet 上預(yù)訓(xùn)練模型相比,前者下游任務(wù)性能更好。例如,當(dāng)使用基于 ViT 的主干時(shí),在 COCO 上而不是 ImageNet 上進(jìn)行預(yù)訓(xùn)練會(huì)可使 box AP 提升 +0.4。
表 6 為數(shù)字分類數(shù)據(jù)集實(shí)證評(píng)估結(jié)果:
表 7 展示了 SplitMask 方法使用 ViT-S 和 ViT-B 主干以及 300 個(gè) epoch 的預(yù)訓(xùn)練與其他最近的基于 Transformer 的自監(jiān)督學(xué)習(xí)方法相比的性能:
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
總結(jié)
以上是生活随笔為你收集整理的超越ImageNet预训练,Meta AI提出SplitMask,小数据集也能自监督预训练的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开鸡排店要投资多少钱 小本创业的可以作为
- 下一篇: 直播预告 | AAAI 2022论文解读