【Transformer】ACMix:On the Integration of Self-Attention and Convolution
文章目錄
- 一、背景和動(dòng)機(jī)
- 二、方法
- 三、效果
一、背景和動(dòng)機(jī)
卷積核自注意機(jī)制是兩個(gè)很有效的特征提取方法,但這兩個(gè)方法通常被認(rèn)為是兩種不同機(jī)制的方法。
卷積方法是對(duì)局部進(jìn)行特征抽取,全局特征共享,自注意力方法是全局像素的權(quán)重提取。
本文作者認(rèn)為這兩者有很強(qiáng)的底層關(guān)系,所以從大范圍上來說,這兩者的計(jì)算機(jī)制是類似的。
之前也有一些工作將這兩者進(jìn)行結(jié)合,如:
- SENet,CBAM 等則說明了自注意機(jī)制可以對(duì)卷積網(wǎng)絡(luò)模型起到幫助。
- SAN,BoTNet 等使用自注意模型來代替卷積操作
- AA-ResNet,Container 等將兩者進(jìn)行了結(jié)合,但兩個(gè)模塊分別使用了不同的 path,所以本質(zhì)上還是分別使用了兩種機(jī)制。
所以,兩者之間的底層聯(lián)系其實(shí)還沒有被完全探索
基于此,作者開始了探索兩者之間的關(guān)系
分解兩者之后,作者認(rèn)為他們都是依賴于 1x1 卷積的,所以作者提出了一個(gè)混合模型——ACMix,將兩者結(jié)合在一起。
二、方法
1、將輸入特征使用 1x1 卷積映射為中間特征
2、將該中間特征分別使用自注意和卷積進(jìn)行處理
ACMix 的過程如圖2c所示:
Stage 1:使用 3 個(gè) 1x1 卷積,將輸入映射為 3 種不同的特征,并將沒種特征切分為 N pieces,此時(shí)就得到了 3xN 個(gè)中間特征
Stage 2:對(duì) Stage 1 得到的中間特征分別處理
- self-attention path:將中間特征聚合為 N 個(gè)組,每個(gè)組中包含了 3 個(gè) pieces,每個(gè) pieces 都來自于不同的 1x1 卷積產(chǎn)生的特征。然后將這 3 個(gè) pieces 的特征用作 q、k、v,輸入多頭自注意模塊中。
- convolution path:使用全連接層產(chǎn)生 k2k^2k2 個(gè)特征圖,然后通過平移和聚合,產(chǎn)生和卷積相同的效果。
最后,使用如下方法聚合兩者:
三、效果
總結(jié)
以上是生活随笔為你收集整理的【Transformer】ACMix:On the Integration of Self-Attention and Convolution的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Transformer】ATS: Ad
- 下一篇: 【Transformer】TransMi