日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】谷歌最新提出无需卷积、注意力 ,纯MLP构成的视觉架构!网友:MLP is All You Need ?...

發(fā)布時(shí)間:2025/3/12 pytorch 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【深度学习】谷歌最新提出无需卷积、注意力 ,纯MLP构成的视觉架构!网友:MLP is All You Need ?... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

當(dāng)前,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于自注意力的網(wǎng)絡(luò)(如近來大火的 ViT)是計(jì)算機(jī)視覺領(lǐng)域的主流選擇,但研究人員沒有停止探索視覺網(wǎng)絡(luò)架構(gòu)的腳步。近日,來自谷歌大腦的研究團(tuán)隊(duì)(原 ViT 團(tuán)隊(duì))提出了一種舍棄卷積和自注意力且完全使用多層感知機(jī)(MLP)的視覺網(wǎng)絡(luò)架構(gòu),在設(shè)計(jì)上非常簡單,并且在 ImageNet 數(shù)據(jù)集上實(shí)現(xiàn)了媲美 CNN 和 ViT 的性能表現(xiàn)。

計(jì)算機(jī)視覺的發(fā)展史證明,規(guī)模更大的數(shù)據(jù)集加上更強(qiáng)的計(jì)算能力往往能夠促成范式轉(zhuǎn)變。雖然卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的標(biāo)準(zhǔn),但最近一段時(shí)間,基于自注意力層的替代方法 Vision Transformer(ViT)實(shí)現(xiàn)新的 SOTA 性能。從技術(shù)上講,ViT 模型延續(xù)了長久以來去除模型中手工構(gòu)建特征和歸納偏置的趨勢,并進(jìn)一步依賴基于原始數(shù)據(jù)的學(xué)習(xí)。

近日,原 ViT 團(tuán)隊(duì)提出了一種不使用卷積或自注意力的 MLP-Mixer 架構(gòu)(簡稱 Mixer),這是一種頗具競爭力并且在概念和技術(shù)上都非常簡單的替代方案。

Mixer 架構(gòu)完全基于在空間位置或特征通道重復(fù)利用的多層感知機(jī)(MLP),并且僅依賴于基礎(chǔ)矩陣乘法運(yùn)算、數(shù)據(jù)布局變換(如 reshape 和 transposition)和非線性層。

  • 論文地址:https://arxiv.org/pdf/2105.01601.pdf

  • 項(xiàng)目地址:https://github.com/google-research/vision_transformer/tree/linen

結(jié)果表明,雖然 Mixer 架構(gòu)很簡單,但取得了極具競爭力的結(jié)果。當(dāng)在大型數(shù)據(jù)集(約 1 億張圖像)上進(jìn)行預(yù)訓(xùn)練時(shí),該架構(gòu)在準(zhǔn)確率 / 成本權(quán)衡方面能夠媲美 CNN 和 ViT,實(shí)現(xiàn)了接近 SOTA 的性能,在 ImageNet 數(shù)據(jù)集上取得了 87.94% 的 top1 準(zhǔn)確率。

對于該研究提出的 Mixer 架構(gòu),特斯拉 AI 高級總監(jiān) Andrej Karpathy 認(rèn)為:「很好!1×1 卷積通常利用深度卷積實(shí)現(xiàn)堆疊或交替,但在這里,通道或空間混合得到簡化或者實(shí)現(xiàn)完全對稱。」?

另一用戶表示:「CV 領(lǐng)域網(wǎng)絡(luò)架構(gòu)的演變從 MLP 到 CNN 到 Transformer 再回到 MLP,真是太有意思了。」

不過,谷歌 DeepMind 首席科學(xué)家 Oriol Vinyals 也提出了質(zhì)疑,他認(rèn)為:「per-patch 全連接,那不就是卷積嗎」

那就先來看一下MLP-Mixer這個(gè)新框架吧,它不使用卷積或自注意力機(jī)制。相反,Mixer體系架構(gòu)完全基于在空間位置或特征通道上重復(fù)應(yīng)用的多層感知器(MLP),它只依賴基礎(chǔ)的矩陣乘法操作、數(shù)據(jù)排布變換(比如reshape、transposition)以及非線性層。

下圖展示了MLP-Mixer的整體結(jié)構(gòu):

首先,它的輸入是一系列圖像塊的線性投影(其形狀為patches x channels),其次,Mixer使用兩種類型的MLP層:

1、通道混合MLP(channel-mixing MLPs ):用于不同通道之間進(jìn)行通信,允許對每個(gè)token獨(dú)立操作,即采用每一行作為輸入。

2、token混合MLP(The token-mixing MLPs ):用于不同空間位置(token)之間的通信;允許在每個(gè)通道上獨(dú)立操作,即采用每一列作為輸入。

以上兩種類型的MLP層交替執(zhí)行以實(shí)現(xiàn)兩個(gè)輸入維度的交互。

在極端情況下,MLP-Mixer架構(gòu)可以看作一個(gè)特殊的CNN,它使用1×1通道混合的卷積,全感受域的單通道深度卷積以及token混合的參數(shù)共享。典型的CNN不是混合器的特例,卷積也比MLPs中的普通矩陣乘法更復(fù)雜(它需要額外的成本來減少矩陣乘法或?qū)iT實(shí)現(xiàn))不過,盡管它很簡單,MLP-Mixer還是取得了很不錯(cuò)的結(jié)果。

當(dāng)對大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時(shí)(大約100萬張圖片),它達(dá)到了之前CNNs和Transformers在ImageNet上的最佳性能:87.94%的 top-1 驗(yàn)證準(zhǔn)確率。當(dāng)對1-10萬張圖片大小的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時(shí),結(jié)合現(xiàn)代正則化技術(shù)( regularization techniques),Mixer同樣取得了強(qiáng)大的性能。

1

Mixer ?混合器架構(gòu)

一般來講,當(dāng)今深度視覺體系結(jié)構(gòu)采用三種方式進(jìn)行特征混合:

(i)在給定的空間位置;

(ii)不同的空間位置之間;

(iii)將上述兩種方式組合。

在CNNs中,(ii)是采用N× N進(jìn)行卷積和池化,其中N>1;(i)采用1×1卷積;較大的核則同時(shí)執(zhí)行(i)和(ii)。通常更深層次的神經(jīng)元有更大的感受野。

在Transformer和其他注意力架構(gòu)中,自注意力層允許同時(shí)執(zhí)行(i)和(ii),而MLP只執(zhí)行(i)。Mixer架構(gòu)背后的思想是:通過MLP實(shí)現(xiàn)每個(gè)通道混合操作(i)和 token混合操作(ii)的顯著分離。

在上圖體系架構(gòu)中,Mixer將序列長度為S的非重疊的圖像塊作為輸入,每個(gè)圖像塊都投影到所需的隱層維度C,并產(chǎn)生一個(gè)二維實(shí)值輸入X∈ RS×C。如果原始圖像的分辨率為(H x W),每個(gè)圖像塊的分辨率為(P x P),那么圖像塊的數(shù)量則為S=HW/P2。所有的塊都采用相同的投影矩陣進(jìn)行線性投影。

Mixer由等尺寸的多層組成,每層有兩個(gè)MLP塊。第一個(gè)是token mixing MLP塊:它作用于X的列,從RS映射到R S,可在所有列中共享。第二個(gè)是Channel-mixing MLP塊:它作用于X的行,從Rc映射到 R C,可在所有行中共享。每個(gè)MLP塊包含兩個(gè)全連接層和一個(gè)獨(dú)立于輸入的非線性層。其基本方程如下:

圖中,Ds Dc分別代表token-mixing與channel-mixing MLP中隱層寬度。由于Ds的選擇獨(dú)立于輸入圖像塊的數(shù)量,因此,網(wǎng)絡(luò)的計(jì)算復(fù)雜度與輸入塊的數(shù)量成線性關(guān)系;此外,Dc獨(dú)立于塊尺寸,整體計(jì)算量與圖像的像素?cái)?shù)成線性關(guān)系,這類似于CNN。

如上文所說,相同的通道混合MLP(或令牌混合MLP)應(yīng)用于X的每一行和列,在每一層內(nèi)綁定通道混合MLP的參數(shù)都是一種自然選擇,它提供了位置不變性,這是卷積的一個(gè)顯著特征。

不過,跨通道綁定參數(shù)的情況在CNN中并不常見。例如CNN中可分離卷積,將不同的卷積核獨(dú)立應(yīng)用于每個(gè)通道。而Mixer中的token 混合MLP可以對所有通道共享相同的核(即獲得完全感受野)。通常來講,當(dāng)增加隱層維數(shù)C或序列長度S時(shí),這種參數(shù)綁定可以避免體系架構(gòu)增長過快,并且節(jié)省內(nèi)存。令人沒想到的是,這種綁定機(jī)制并沒有影響性能。

Mixer中的每個(gè)層(除了初始塊投影層)接收相同大小的輸入。這種“各向同性”設(shè)計(jì)最類似于使用固定寬度的Transformer和RNN。這與大多數(shù)CNN不同,CNN具有金字塔結(jié)構(gòu):越深的層具有更低的分辨率,更多的通道。需要注意的是,以上是典型的設(shè)計(jì),除此之外也存在其他組合,例如各向同性網(wǎng)狀結(jié)構(gòu)和金字塔狀VIT。除了MLP層之外,Mixer還使用了其他標(biāo)準(zhǔn)的體系結(jié)構(gòu)組件:Skip 連接和層規(guī)范化。

此外,與ViTs不同,Mixer不使用位置嵌入,因?yàn)閠oken混合mlp對輸入token的順序敏感,因此可以學(xué)習(xí)表示位置。最后,Mixer使用一個(gè)標(biāo)準(zhǔn)的分類head和一個(gè)線性分類器。

2

更多實(shí)驗(yàn)結(jié)果和代碼

該研究用實(shí)驗(yàn)對 MLP-Mixer 模型的性能進(jìn)行了評估。其中,模型在中大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,采用一系列中小型下游分類任務(wù),并對以下三個(gè)問題進(jìn)行重點(diǎn)研究:

  • 在下游任務(wù)上的準(zhǔn)確率;

  • 預(yù)訓(xùn)練的總計(jì)算成本,這對于在上游數(shù)據(jù)集上從頭開始訓(xùn)練模型非常重要;

  • 推斷時(shí)的吞吐量,這在實(shí)際應(yīng)用中非常重要。

該研究的實(shí)驗(yàn)?zāi)康牟皇钦故?SOTA 結(jié)果,而在于表明:一個(gè)簡單的基于 MLP 的模型就可以取得與當(dāng)前最佳的 CNN、基于注意力的模型相媲美的性能。

下表 1 列出了 Mixer 模型的各種配置以對標(biāo)一些最新的 SOTA CNN 和基于注意力的模型:

下表 2 給出了最大 Mixer 模型與 SOTA 模型的性能對比結(jié)果:

當(dāng)在 ImageNet-21k 上進(jìn)行帶有額外正則化的預(yù)訓(xùn)練時(shí),Mixer 實(shí)現(xiàn)了非常好的性能(ImageNet 上 84.15% top-1),略低于其他模型。當(dāng)上游數(shù)據(jù)集的大小增加時(shí),Mixer 的性能顯著提高。具體來說,Mixer-H/14 在 ImageNet 上取得了 87.94% top-1 的準(zhǔn)確率,比 BiT-ResNet152x4 高 0.5%,比 ViT-H/14 低 0.5%。值得一提的是,Mixer-H/14 的運(yùn)行速度要比 ViT-H/14 快 2.5 倍,比 BiT 快 2 倍。

圖 2(左)展示了表 2 中 SOTA 模型在 ImageNet 數(shù)據(jù)集上的準(zhǔn)確率、訓(xùn)練成本帕累托前沿(Pareto frontier):

下表展示了在多種模型和預(yù)訓(xùn)練是數(shù)據(jù)集規(guī)模上,Mixer 和其他一些模型的性能對比結(jié)果。

由上表可得,當(dāng)在 ImageNet 上從頭開始訓(xùn)練時(shí), Mixer-B/16 取得了一個(gè)合理的 top-1 準(zhǔn)確率 76.44%,這要比 ViT-B/16 低 3%。隨著預(yù)訓(xùn)練數(shù)據(jù)集的增大,Mixer 的性能逐步提升。值得一提的是,在 JFT-300M 數(shù)據(jù)集上預(yù)訓(xùn)練、微調(diào)到 224 分辨率的 Mixer-H/14 取得了 86.32% 的準(zhǔn)確率,比 ViT-H/14 僅低 0.3%,但運(yùn)行速度是其 2.2 倍。

下圖是原論文附帶的代碼,很簡單,只有43行。

更多細(xì)節(jié)可參考論文原文。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請掃碼:

總結(jié)

以上是生活随笔為你收集整理的【深度学习】谷歌最新提出无需卷积、注意力 ,纯MLP构成的视觉架构!网友:MLP is All You Need ?...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。