當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【Transformer】Augmented Shortcuts for Vision Transformers

發布時間：2023/12/15 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了【Transformer】Augmented Shortcuts for Vision Transformers 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文鏈接： https://arxiv.org/abs/2106.15941
代碼鏈接：未開源

Transformer 已經在計算機視覺領域的某些任務上取得了超越 CNN 的效果。在 Transformer 的結構中，self-attention 和 MLP 模塊前后通常會使用殘差連接。殘差連接最初是在 CNN 的結構中提出，用來緩解梯度消失問題。

有些文章指出，沒有殘差連接的結構的網絡效果很差，如表 1 所示，移除殘差連接后，隨著網絡的加深，會使得不同 patch 的特征喪失區別性，如圖3a所示。

這些特征無法支撐后續的預測工作。作者把這個現象叫做 feature collapse（特征崩塌）。在加上殘差連接之后，能緩解上述現象，如圖3 b 所示。

但是，一般的殘差連接僅僅是把輸入加到輸出上，這會限制特征的不同性。于是，本文提出了一種增強殘差連接，來提升 vision transformer 中的特征差異性。

本文提出的增強殘差連接結構如圖 1 所示，除了基本的殘差連接以外，作者提出了一個與 MSA 并行的模塊，該模塊有多個參數。為了降低計算成本，作者提出了使用塊循環映射的方法來實現增強殘差連接。

使用 T 個增強殘差連接的 MSA 模塊可以表示如下：

不同于傳統的殘差連接，增強殘差連接能夠將輸入映射到另外一個特征空間，只要其參數是不同的，那么就可以把輸入映射為多個不同的特征，豐富特征空間。

$T_{li}(.)$ 的一個簡單的形式就是一系列的線性映射和激活函數的堆疊：

使用 T 個增強殘差連接的 MLP 如下：

作者把同時使用 AugMSA 和 AugMLP 的模塊叫做 Aug-ViT 模型，該模型的特征有更大的多樣性，如圖 3c 和圖 4 所示。

直接使用如公式 8 所示的方法來實現 $T_{li}(.)$ 會涉及到很多矩陣相乘，會很耗資源，所以作者提出了一種 “block-circulant matrices”。

Circulant matrix 是頻域中的一種特殊的結構化矩陣，參數和計算量都很少。

一個 Circulant matrix $\in R^{d' \times d'}$ 僅有 $d^{'}$ 個參數，兩個 $C$ 相乘的計算復雜度為 $O (d^{'} l o g d^{'})$ (使用快速傅里葉變換 FFT）。

原始的參數矩陣 $Θ\Theta$ 被切分成 $b^2$ 個子矩陣 $Cij∈Rd′×d′C^{ij} \in R^{d' \times d'}$

$d^{'}$ 是子矩陣的尺寸， $b d^{'} = d$
每個 $C^{ij}$ 都是通過循環 $d^{'}$ 維向量 $c^{ij}=[c_1^{ij}, c_i2^{ij},..., c_{d'}^{ij}]$ 中的元素得到的：

為了實現投影映射 $T(Z)=σ(ZΘ)T(Z)=\sigma(Z\Theta)$ ，作者首先將輸入 $Z$ 拆分為 $b$ 個切片，然后對每個切片乘以循環矩陣 $C^{ij}$ ，元定義域中的循環矩陣和向量直接的乘積，等價于傅里葉域中的元素相乘，輸出的計算方式為：

圖 5 展示了不同模型的特征圖，沒有殘差連接的深層的特征圖已經沒有有用的信息了（a），加上殘差連接是（b）的效果，加上 Aug-ViT 是（c）的效果，可以看出（c）的特征最豐富。

總之，殘差連接是 vision transformer 的一個非常重要的部分，能夠有效避免特征崩潰，而增強殘差連接能夠將輸入特征映射到更豐富的特征空間，讓特征更加豐富。

以上是生活随笔為你收集整理的【Transformer】Augmented Shortcuts for Vision Transformers的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。