日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【Transformer】Augmented Shortcuts for Vision Transformers

發布時間:2023/12/15 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【Transformer】Augmented Shortcuts for Vision Transformers 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 一、背景
    • 二、動機
    • 三、方法
      • 3.1 增強殘差連接
      • 3.2 使用循環映射進行高效實現
    • 四、效果


論文鏈接: https://arxiv.org/abs/2106.15941
代碼鏈接:未開源

一、背景

Transformer 已經在計算機視覺領域的某些任務上取得了超越 CNN 的效果。在 Transformer 的結構中,self-attention 和 MLP 模塊前后通常會使用殘差連接。殘差連接最初是在 CNN 的結構中提出,用來緩解梯度消失問題。

二、動機

有些文章指出,沒有殘差連接的結構的網絡效果很差,如表 1 所示,移除殘差連接后,隨著網絡的加深,會使得不同 patch 的特征喪失區別性,如圖3a所示。

這些特征無法支撐后續的預測工作。作者把這個現象叫做 feature collapse(特征崩塌)。在加上殘差連接之后,能緩解上述現象,如圖3 b 所示。

但是,一般的殘差連接僅僅是把輸入加到輸出上,這會限制特征的不同性。于是,本文提出了一種增強殘差連接,來提升 vision transformer 中的特征差異性。

三、方法

本文提出的增強殘差連接結構如圖 1 所示,除了基本的殘差連接以外,作者提出了一個與 MSA 并行的模塊,該模塊有多個參數。為了降低計算成本,作者提出了使用塊循環映射的方法來實現增強殘差連接。

3.1 增強殘差連接

使用 T 個增強殘差連接的 MSA 模塊可以表示如下:

  • Tli(.)T_{li}(.)Tli?(.) 是第 lll 個 layer 的第 iii 個增強殘差連接
  • Θli\Theta_{li}Θli? 是增強殘差連接的參數

不同于傳統的殘差連接,增強殘差連接能夠將輸入映射到另外一個特征空間,只要其參數是不同的,那么就可以把輸入映射為多個不同的特征,豐富特征空間。

Tli(.)T_{li}(.)Tli?(.) 的一個簡單的形式就是一系列的線性映射和激活函數的堆疊:

  • Θli∈Rd×d\Theta_{li}\in R^{d\times d}Θli?Rd×d 是權重矩陣
  • σ\sigmaσ 是非線性激活函數(如GELU)
  • 上式中,Tli(.)T_{li}(.)Tli?(.) 獨立的處理每個 patch,能夠保留其各自的特征,是對 MSA 的一個補充(MSA 會把不同 patch 的特征進行聚合)

使用 T 個增強殘差連接的 MLP 如下:

  • 使用多個增強殘差連接同樣能夠增大特征多樣性

作者把同時使用 AugMSA 和 AugMLP 的模塊叫做 Aug-ViT 模型,該模型的特征有更大的多樣性,如圖 3c 和圖 4 所示。

3.2 使用循環映射進行高效實現

直接使用如公式 8 所示的方法來實現 Tli(.)T_{li}(.)Tli?(.) 會涉及到很多矩陣相乘,會很耗資源,所以作者提出了一種 “block-circulant matrices”

Circulant matrix 是頻域中的一種特殊的結構化矩陣,參數和計算量都很少。

一個 Circulant matrix C∈Rd′×d′C \in R^{d' \times d'}CRd×d 僅有 d′d'd 個參數,兩個 CCC 相乘的計算復雜度為 O(d′logd′)O(d' log d')O(dlogd) (使用快速傅里葉變換 FFT)。

原始的參數矩陣 Θ\ThetaΘ 被切分成 b2b^2b2 個子矩陣 Cij∈Rd′×d′C^{ij} \in R^{d' \times d'}CijRd×d

  • d′d'd 是子矩陣的尺寸,bd′=dbd'=dbd=d
  • 每個 CijC^{ij}Cij 都是通過循環 d′d'd 維向量 cij=[c1ij,ci2ij,...,cd′ij]c^{ij}=[c_1^{ij}, c_i2^{ij},..., c_{d'}^{ij}]cij=[c1ij?,ci?2ij,...,cdij?] 中的元素得到的:


為了實現投影映射 T(Z)=σ(ZΘ)T(Z)=\sigma(Z\Theta)T(Z)=σ(ZΘ),作者首先將輸入 ZZZ 拆分為 bbb 個切片,然后對每個切片乘以循環矩陣 CijC^{ij}Cij,元定義域中的循環矩陣和向量直接的乘積,等價于傅里葉域中的元素相乘,輸出的計算方式為:

四、效果

圖 5 展示了不同模型的特征圖,沒有殘差連接的深層的特征圖已經沒有有用的信息了(a),加上殘差連接是(b)的效果,加上 Aug-ViT 是(c)的效果,可以看出(c)的特征最豐富。

總之,殘差連接是 vision transformer 的一個非常重要的部分,能夠有效避免特征崩潰,而增強殘差連接能夠將輸入特征映射到更豐富的特征空間,讓特征更加豐富。

總結

以上是生活随笔為你收集整理的【Transformer】Augmented Shortcuts for Vision Transformers的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。