當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重读经典：《Momentum Contrast for Unsupervised Visual Representation Learning》

發(fā)布時間：2023/12/10 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了重读经典：《Momentum Contrast for Unsupervised Visual Representation Learning》小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

MoCo 論文逐段精讀【論文精讀】

這次論文精讀李沐博士繼續(xù)邀請了亞馬遜計算機視覺專家朱毅博士來精讀 Momentum Contrast（MoCo)，強烈推薦大家去看本次的論文精讀視頻。朱毅博士和上次一樣講解地非常詳細，幾乎是逐詞逐句地講解，在講解時把 MoCo 相關(guān)領(lǐng)域的研究也都介紹了，聽完之后收獲滿滿。

MoCo 獲得了 CVPR2020 最佳論文提名，是視覺領(lǐng)域使用對比學習的一個里程碑工作。對比學習目前也是機器學習領(lǐng)域最炙手可熱的一個研究方向，由于其簡單、有用、強大，以一己之力盤活了從2017年開始就卷的非常厲害的計算機視覺領(lǐng)域。MoCo 是一個無監(jiān)督表征學習的工作，其不僅在分類任務(wù)，在檢測、分割和人體關(guān)鍵點檢測任務(wù)上都逼近或超越了有監(jiān)督學習模型；MoCo 的出現(xiàn)證明我們可能并不需要大量標注好的數(shù)據(jù)去預(yù)訓(xùn)練。下圖中 Yann LeCun 將機器學習比作一塊蛋糕，強化學習是蛋糕上的櫻桃、有監(jiān)督學習是蛋糕上的奶油、無監(jiān)督學習才是那塊大蛋糕，才是問題的本質(zhì)，目前很多的大模型都是通過自監(jiān)督學習得到的。

MoCo 論文鏈接：https://arxiv.org/abs/1911.05722

0. 對比學習介紹

在開始精讀論文之前，朱毅博士首先介紹了什么是對比學習。如下圖所示，有三張圖片，圖1、2為同一個人不同的表情，圖3為dog，在訓(xùn)練時不會為這三種圖片去標注。將三種圖片輸入到模型中，模型會得到三張圖片各自特征。由于圖1、2為同一個人、對比學習就是讓特征 $f_1、f_2$ 比較接近，而特征 $f_3$ 與另外兩個特征在特征空間相距較遠，這就是對比學習需要達到的目的。

雖然在對比學習中并不需要為圖片進行標注，但是仍然需要知道哪些圖片是相似的，哪些圖片是不相似的，在計算機視覺中通常使用代理任務(wù)來完成。舉一個具體的例子 instance discrimination，假設(shè)有 $n$ 張圖片，選取一張圖片 $x_i$ ，經(jīng)過裁剪和數(shù)據(jù)增強后得到兩張新的圖片 $x_i^1$ 和 $x_i^2$ ，則這兩張圖片和原來的圖片就是相似的，也被稱為正樣本，其余圖片即 $\neq i$ ，則為負樣本。對比學習的靈活之處就在于正負樣本的劃分，例如同一張圖片不同視角可看作為正樣本，視頻中同一段視頻任意兩幀可以看為正樣本，RGB和深度圖也可看作為正樣本等等。正是由于其靈活性，對比學習的應(yīng)用才如此之廣。

1. 標題、摘要、引言、結(jié)論

先是論文標題，論文標題的意思是：使用動量對比去做無監(jiān)督視覺表征學習，MoCo 就來自于論文前兩個單詞前兩個字幕。簡單介紹什么是動量，動量在數(shù)學上就是加權(quán)移動平均。例如 $yt=m×yt?1+(1?m)×xty_t=m \times y_{t-1}+(1-m) \times x_t$ ， $y_{t-1}$ 為上一時刻的輸出， $x_t$ 為當前輸入， $m$ 為動量參數(shù)；當 $m$ 很大時， $y_t$ 就取決于上一時刻輸出，其更新就很緩慢；當 $m$ 很小時， $y_t$ 就取決于當前時刻輸入。

作者團隊來自于 FAIR，就不過多介紹了，五個人谷歌學術(shù)引用數(shù)達到了50萬+。

下面是論文摘要，摘要寫的很簡潔，總共只有7句話。

第1句話直接介紹主題，我們提出了 MoCo 用于無監(jiān)督視覺表征學習。第2句話意思是我們把對比學習看作是字典查詢，我們建立了一個動態(tài)字典，使用到了對列和移動平均編碼器。
第3句話意思是使用隊列和移動平均編碼器，我們可以建立一個很大且一致的字典，有助于對比無監(jiān)督學習。
第4-6句話是模型效果，MoCo 在 ImageNet 分類上取得了很有競爭力的結(jié)果，其中 linear protocol 的意思是說將主干網(wǎng)凍結(jié)，只訓(xùn)練分類頭。更重要的，將 MoCo 學到的特征遷移到下流任務(wù)時，在7個檢測和分割任務(wù)上，MoCo 都超過它的有監(jiān)督預(yù)訓(xùn)練對手，counterpart 的意思是有監(jiān)督和無監(jiān)督訓(xùn)練都使用同一個網(wǎng)絡(luò)，例如ResNet-50。
最后一句話的意思是，在許多視覺任務(wù)上，無監(jiān)督和有監(jiān)督特征學習之間的鴻溝被大幅度的填上了。

下面是論文引言部分，總共有6段。

第1段說無監(jiān)督學習在自然語言處理任務(wù)中取得了很大的成功，但是在計算機視覺中，仍然是有監(jiān)督預(yù)訓(xùn)練占統(tǒng)治定位。原因可能是各自信號空間的不同。語言任務(wù)有著離散的信號空間（單詞、詞根、詞綴等）；但是計算機視覺，原始信號往往是連續(xù)、高維的，在構(gòu)建字典時會有很多問題。
第2段說最近的無監(jiān)督學習研究都使用了對比學習。這些方法可以看作是構(gòu)建動態(tài)字典。使用編碼器網(wǎng)絡(luò)將圖像或圖像塊表示成 key。無監(jiān)督學習訓(xùn)練編碼器時是這樣進行字典查詢：一個編碼后的 query 應(yīng)該和它匹配的 key 相似，而和其它 key 不相似。這樣一個學習就變成了最小化對比損失的問題。
第3段說我們想構(gòu)建這樣的一個字典：（1）大（2）在訓(xùn)練時保持一致。大的字典可以讓我們采樣到想要的連續(xù)、高維視覺空間；字典中的 key 應(yīng)該盡可能使用相同或相似的編碼器來表示，這樣它們和 quary 的比較才能一致。如何讓字典又大又一致，作者在后面會詳細介紹。

第4段說我們提出了 MoCo 模型，如下圖所示，通過比較 query 和 key 地相似性來訓(xùn)練編碼器。我們用隊列來存儲字典數(shù)據(jù)，當前時刻數(shù)據(jù)編碼后新的特征入隊，最老的數(shù)據(jù)特征出隊，這樣字典大小和mini-batch大小就解耦了，就能保證構(gòu)建一個大的字典；同時使用動量去更新編碼器參數(shù)，能保證字典中的特征盡可能地一致。使用數(shù)學公式表達的話就是： $θk=mθk?1+(1?m)θq\theta_k=m \theta_{k-1}+(1-m) \theta_q$ 。

第5段介紹了代理任務(wù)，作者使用個體判別作為代理任務(wù)，即同一張圖片不同視角的 query 和 key 看作是相似的。在 ImageNet 數(shù)據(jù)線性分類問題上 MoCo 顯示出了很有競爭力的結(jié)果。第6段作者說無監(jiān)督學習最主要的目的是將預(yù)訓(xùn)練好的特征遷移到下游任務(wù)中。在7個檢測和分割任務(wù)上，MoCO 都有著很好的效果。無論是百萬張圖片還是10億張圖片，MoCO 都工作地很好。意味著無監(jiān)督學習和有監(jiān)督學習之間的差距越來越小了，在許多應(yīng)用中逐漸可以替代有監(jiān)督預(yù)訓(xùn)練模型。

下面是結(jié)論和討論部分，結(jié)論就1句話，我們的無監(jiān)督學習方法在許多計算機視覺數(shù)據(jù)和任務(wù)上都有著很好的結(jié)果。MoCO 從百萬數(shù)據(jù)到十億數(shù)據(jù)性能提升是有的，但是很小，可能是這些大規(guī)模數(shù)據(jù)未充分利用，希望有更高級的代理任務(wù)來提高模型性能；有可能將 MoCo 調(diào)整到像 masked auto-encoding 這樣的代理任務(wù)上（最近作者就提出了大火的 MAE）。最后作者希望 MoCo 能在其它對比學習研究中有幫助。

2. 相關(guān)工作

下面是論文相關(guān)工作部分，無監(jiān)督學習通常包含兩方面：代理任務(wù)和損失函數(shù)。代理任務(wù)通常不是大家實際感興趣的任務(wù) (如檢測、分類、分割)，而是為了學習一個好的數(shù)據(jù)特征表示；損失函數(shù)可以和代理任務(wù)分開研究，MoCo 關(guān)注的就是損失函數(shù)研究。

損失函數(shù)是為了衡量模型的預(yù)測輸出和固定目標之間的差異，如通過 L1、L2 損失重構(gòu)像素或通過交叉熵對輸入進行分類。對比學習的損失測量的是樣本對在特征空間的相似性，在訓(xùn)練過程中，目標通常是不固定的。對抗學習的損失衡量的是概率分布的差異，經(jīng)常用在無監(jiān)督數(shù)據(jù)生成。

各種各樣的代理任務(wù)被提出來，如重構(gòu)整張圖、重構(gòu)某個 patch、給圖片繪上顏色。不同的代理任務(wù)可以和對比學習損失函數(shù)結(jié)合使用，如 CPC、CMC。

3. MoCo方法、實驗

下面是論文方法部分，對比學習以及最新它的一些最新進展，都可以看作成是訓(xùn)練一個編碼器，從而去做一個字典查詢的任務(wù)。假設(shè)有一個編碼好的查詢 q，以及一系列已經(jīng)編碼好的樣本，也就是 { $k_0、k_1、k_2\}$ 等，這些可以看作是字典中的 key。

這里存在一個假設(shè)：在字典中只有一個 key是跟 query 匹配的，兩個互為正樣本對，這個 key 叫做 key positive（ $k_{+}$ ）。定義好了正樣本和負樣本，接下來就需要一個對比學習的目標函數(shù)，這個對比學習的目標函數(shù)最好能滿足以下要求：（1）當 q 和唯一的正樣本 $k_{+}$ 相似的時候，它的loss 值應(yīng)該比較低；（2）當 q 和其他所有的 key 都不相似的時候，這個loss的值也應(yīng)該比較低。通過點積計算相似性，我們使用 InfoNCE 當作對比學習損失函數(shù)，形式為：
$Lq=?log?exp?(q?k+/τ)∑i=0Kexp?(q?ki/τ)\mathcal{L}_{q}=-\log \frac{\exp \left(q \cdot k_{+} / \tau\right)}{\sum_{i=0}^{K} \exp \left(q \cdot k_{i} / \tau\right)}$

公式中的 $τ\tau$ 是一個溫度超參數(shù)，是一個標量，如果忽略掉它，就會發(fā)現(xiàn)，其實這個 InfoNCE 損失就是交叉熵損失，唯一的區(qū)別就在于在交叉熵損失中k指代的是數(shù)據(jù)集里類別的多少，但是在對比學習的 InfoNCE 損失中， $k$ 指的是負樣本的數(shù)量。

通常來說，查詢 q 是一個輸入 $x^{q}$ 通過一個編碼器 $f_q$ 得到的，同理所有的 $k$ 的表示也都是輸入 $x^{k}$ 通過一個編碼器 $f_{k}$ 得到，輸入和模型具體的實現(xiàn)是由具體的代理任務(wù)決定。既可以是圖片，也可以是圖片塊，或者是含有上下文的一系列的圖片塊；對于模型，q 的編碼器和 key 的編碼器既可以是一樣的、也可以是部分共享的，還可以是不一樣的。

下面介紹動量對比學習，對比學習是一種在高維的連續(xù)的輸入信號上去構(gòu)建字典的一種方式。高維和連續(xù)指的是圖片，字典是動態(tài)的，之所以是動態(tài)的是因為這個字典中的 key 都是隨機選取的，而且 key 的編碼器在訓(xùn)練的過程中也是在不停的變化。如果想學一個好的特征，這個字典就必須擁有兩個特性（大，大的字典能夠包含很多語義豐富的負樣本，從而有助于學到更有判別性的特征；一致性主要是為了模型的訓(xùn)練方便）基于以上動機，作者就提出了動量對比學習。

首先就是把一個字典用隊列的形式表現(xiàn)出來。隊列其實就是一種數(shù)據(jù)結(jié)構(gòu)，一般被稱作是一個fifo（先進先出）的數(shù)據(jù)結(jié)構(gòu)。作者在這里是用一個隊列去代表一個字典，也就是說整個隊列就是一個字典，里面的元素就是放進去的 key。在模型訓(xùn)練的過程中，每一個 mini-batch 就會有新的一批 key 被送進來，同時也會有一批老的 key 移出去，所以用隊列的好處是可以重復(fù)使用那些已經(jīng)編碼好的 key，而這些 key 是從之前的那些 mini-batch 中得到的。這樣使用了隊列之后，就可以把字典的大小和mini-batch的大小徹底剝離開了，就可以在模型的訓(xùn)練過程中使用一個比較標準的mini-batch size，一般是128或者是256，但是字典的大小可以變得非常大，它的大小非常靈活，而且可以當作一個超參數(shù)一樣單獨設(shè)置。同時在算對比學習目標函數(shù)的時候只是取一個近似，而不是在整個數(shù)據(jù)集上算loss，使用隊列的數(shù)據(jù)結(jié)構(gòu)，可以讓維護這個字典的計算開銷非常小。
用隊列的形式可以使這個字典變得很大，但是也因為使用了非常大的字典，也就是非常長的隊列，導(dǎo)致沒辦法給隊列中所有的元素進行梯度回傳，也就是說，key 的編碼器無法通過反向傳播的方式去更新它的參數(shù)。如果想更新這個 key 的編碼器，其實有一個非常簡單的方法：就是每個訓(xùn)練迭代結(jié)束后，將更新好的 $f_q$ 編碼器參數(shù)直接復(fù)制過來給 $f_k$ 編碼器就可以了。這個想法簡單確實是簡單，但是作者緊接著說這種方式的結(jié)果并不好，原因是一個快速改變的編碼器降低了這個隊列中所有 key 的特征的一致性。因此作者提出了動量更新的方法，如果將 key 編碼器參數(shù)設(shè)為 $θ_k$ ，q 編碼器的參數(shù)設(shè)為 $θ_q$ ，那 $θ_k$ 就是以下面公式進行更新：
$θk←mθk+(1?m)θq\theta_{\mathrm{k}} \leftarrow m \theta_{\mathrm{k}}+(1-m) \theta_{\mathrm{q}}$ 上式中 $m$ 是動量參數(shù)，它是一個0到1之間的數(shù)。q 的編碼器，是通過梯度反向回傳來更新模型參數(shù)， $θk\theta_{k}$ 除了剛開始是用 $θ_q$ 初始化以外，后面的更新大部分主要是靠自己。如果動量參數(shù) $m$ 設(shè)的很大，那么 $θ_k$ 更新就非常緩慢，所以作者接下來說，因為使用了這種動量更新的方式，雖然在隊列里的 key 都是由不同的編碼器產(chǎn)生得到的，但是因為這些編碼器之間的區(qū)別極小，所以產(chǎn)生的 key 的一致性都很強。

下面作者還介紹了 MoCo 和之前研究的對比。之前的對比學習研究都可以看作是字典查找，但是它們都或多或少受限于字典的大小和字典的一致性問題，這里作者將之前的方法總結(jié)了一下，歸納成了兩種結(jié)構(gòu)。第一種就是比較直接的端到端學習，如下圖所示編碼器可以通過梯度回傳來更新模型參數(shù)。由于模型的正負樣本都是從同一個 mini-batch 里來的，也就是 $x^{q}$ 和 $x^{k}$ 都是從同一個 batch 中來的，它做一次前向傳播就能得到所有樣本的特征，而且這些樣本是高度一致的，因為都是來自一個編碼器。聽起來確實很美好，編碼器能用反向回傳學習，特征也高度一致了，但是它的局限性就在于字典的大小，因為在端到端的學習框架中，字典的大小和 mini-batch size 的大小是等價的，如果想要一個很大的字典，里面有成千上萬個 key 的話，也就意味著 mini-batch size 的大小必須也是成千上萬的，這個難度就比較高了。端到端學習的優(yōu)點在于編碼器是可以實時更新的，所以導(dǎo)致它字典里的那些 key 的一致性是非常高的，但是它的缺點在于因為它的字典大小（就是batch-size的大小），導(dǎo)致這個字典不能設(shè)置的過大，否則硬件內(nèi)存吃不消。
在 memory bank 中其實就只有一個編碼器，query 的編碼器是可以通過梯度回傳來進行更新學習。但是對于字典中的 key 是沒有一個單獨的編碼器，memory bank 把整個數(shù)據(jù)集的特征都存到了一起，對于 ImageNet 來說，memory bank 中就有128萬個特征（看上去好像很大，但是每一個特征只有128維，所以即使整個 memory bank 中有128萬個 key ，最后也只需要600M的空間就能把所有的這些key存下來了）。一旦有了這個 memory bank，在每次模型做訓(xùn)練的時候，只需要從 memory bank 中隨機抽樣很多的 key 出來當作字典就可以了。這里也有一個問題：因為這里的特征都是在不同時刻的編碼器得到的，而且這些編碼器都是通過梯度回傳來進行快速更新的，這也就意味著這里得到的特征都缺乏一致性。
顯然，無論是端到端的學習還是 memory bank 的方法，都和作者說的一樣，受限于字典大小和特征一致性這兩方面中的至少一個，所以為了解決之前這兩種做法的局限性，作者就提出了 MoCo。MoCo 采用隊列的形式去實現(xiàn)字典，從而使得它不像端到端的學習一樣受限于 batch-size 的大小，同時為了提高字典中特征的一致性，MoCo使用了動量編碼器。

到這里，其實 MoCo 的主要貢獻舊已經(jīng)講完了，但是如果對對比學習不是很熟的人來說可能還是不太理解 MoCo 的前向過程到底是什么樣子的，可惜的是這篇論文并沒有提供一個很直觀、形象的模型總覽圖，取而代之的是偽代碼，寫得相當簡潔明了，理解和復(fù)現(xiàn)都比較容易。

下面是論文實驗部分，作者分別在 ImageNet-1K 和 Instagram-1B 數(shù)據(jù)集上進行了模型訓(xùn)練，使用的主干網(wǎng)是 ResNet-50。首先是線行分類結(jié)果的展示，在完成了無監(jiān)督學習的預(yù)訓(xùn)練之后，將模型的 backbone 凍住，只將它作為一個特征提取器，然后在上面訓(xùn)練一個全連接層去充當分類器，是在 ImageNet 驗證集上測試，top-1 分類準確率。

如左圖所示，三種對比學習方法結(jié)果對比：黑色的線表示的是端到端的學習，它的結(jié)果只有三個點，因為受限于顯卡內(nèi)存，藍色的線表示的是 memory bank 的形式，它可以用很大的字典，所以它可以隨著字典增大一直訓(xùn)練，但是它的效果整體上要比端到端學習和 MoCo 的結(jié)果都要差一截。作者說這可能是因為特征的不一致性導(dǎo)致的。橙色的線表示 MoCo，MoCo 確實可以有很大的字典，之所以停在65536這個數(shù)字，從圖中可以看到，從16384到65536性能也已經(jīng)比較飽和了，所以再大也可能不會帶來更多的性能提升了。如果拿 MoCo 和端到端學習的方法做比較，可以發(fā)現(xiàn)它們的曲線在剛開始的時候的重合度還是比較高的，但是作者說，因為沒有實驗的支撐，不知道黑線是否能繼續(xù)按照現(xiàn)有的趨勢繼續(xù)增長下去，有可能結(jié)果會更高，也有可能結(jié)果會更低，但是因為做不了實驗，所以無從得知。
如下圖表格所示，動量使用一個相對較大的值（0.999或者0.9999）的時候性能是最好的，差不多都是59，這就說明了一個變化非常緩慢的編碼器是對對比學習有好處的，因為它能夠提供一個一致性的特征。但是當把動量逐漸變小，變到0.99或者是0.9的時候，性能的下降就比較明顯了，尤其是當直接去掉動量，直接將 query 的編碼器拿過來當 key 編碼器用的時候，就會發(fā)現(xiàn)不光是性能下降的問題，整個模型甚至都不能收斂。
右下圖是和其它分類方法的比較，首先可以發(fā)現(xiàn)，對比學習的效果還是不錯的，因為準確率要比沒有使用對比學習得到得結(jié)果要好。作者還強調(diào)：在無監(jiān)督學習中，模型的大小還是非常關(guān)鍵的（模型越大，一般效果就會越好），所以只是比較最后的準確率，而不去關(guān)注模型大小的話，就不太公平了，從圖中可以看到 MoCo 既能在小模型上得到最好的效果，也能在大模型的比較中得到最好的結(jié)果。

無監(jiān)督學習最重要的目標是學習到可遷移的特征，作者用視覺領(lǐng)域中最常見、應(yīng)用最廣的檢測任務(wù)來做無監(jiān)督的MoCo 預(yù)訓(xùn)練模型和 ImageNet 的有監(jiān)督預(yù)訓(xùn)練模型之間的比較。表2種第一行使用的是隨機初始化的模型再做微調(diào)，所以它是一個基線網(wǎng)絡(luò)，分數(shù)比較低；第二行使用的是有監(jiān)督ImageNet 的預(yù)訓(xùn)練的模型做初始化然后再做微調(diào)，也就是一個比較強的基線結(jié)果；最后兩行分別是 MoCo 在 ImageNet-1M上和在 Instagram-1 上做無監(jiān)督預(yù)訓(xùn)練當作模型的初始化，然后再做微調(diào)。可以看到大多數(shù)結(jié)果顯示 MoCo在 ImageNet-1M 上的預(yù)訓(xùn)練就已經(jīng)超過了有監(jiān)督的預(yù)訓(xùn)練模型。當換成更大的數(shù)據(jù)集的時候還會有進一步的提升。

接下來作者又再次比較了三種對比學習的檢測結(jié)果，從表3可以看到 MoCo 和前面兩種方式比起來確實是好了很多，而且最主要的是之前的兩種方法都沒有超越有監(jiān)督預(yù)訓(xùn)練模型的結(jié)果，只有MoCo是真的超越了。

作者又在 COCO 數(shù)據(jù)上進行了對比。除了在設(shè)置a里面 MoCo 的模型稍顯遜色，在剩下的三個設(shè)置下，MoCo 預(yù)訓(xùn)練的模型都比 ImageNet 有監(jiān)督預(yù)訓(xùn)練模型得到的效果要好。

最后簡單總結(jié)下，MoCo 在很多的視覺任務(wù)上，已經(jīng)大幅度的把無監(jiān)督和有監(jiān)督之間的坑給填上了。MoCo 在Instagram 數(shù)據(jù)集中是要比 ImageNet 訓(xùn)練出來的模型要好的，而且是在所有任務(wù)上普遍表現(xiàn)的都很好，這說明了MoCo 的可擴展性很好，也就是說如果有更多的數(shù)據(jù)，MoCo 有可能就能學到更好的模型，這和 NLP中得到的結(jié)論是一樣的，這也符合了無監(jiān)督學習的終極目標。

MoCo 這篇論文以及它高效的實現(xiàn)，能讓大多數(shù)人有機會用普通的GPU就能跑對比學習的實驗、做研究。因為MoCo 在各個視覺任務(wù)上取得了更好的性能，也激發(fā)了很多后續(xù)分析性的工作，去研究 MoCo 學出來的特征到底和有監(jiān)督學出來的特征有什么不同，還能從別的什么方向去提高對比學習。

總結(jié)

以上是生活随笔為你收集整理的重读经典：《Momentum Contrast for Unsupervised Visual Representation Learning》的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： jucheck.exe是什么进程 ju
下一篇： Hive安装与配置