日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention

發布時間:2024/1/18 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文:https://readpaper.com/paper/633541619879256064

代碼:https://github.com/Chenglin-Yang/LVT

1、研究動機

盡管ViT模型在各種視覺任務中效果顯著,但是目前輕量級的ViT模型在局部區域效果不理想,作者認為:自注意力機制在淺層網絡有局限性(Self-attention mechanism is limited in shallower and thinner networks)。為此,作者提出一種 light yet effective vision transformer 可以應用于移動設備(Lite Vision Transformer, LVT),具有標準的 four-stage 結構,但是和 MobileNetV2 和 PVTv2-B0 含有相同的參數量。 作者主要提出了兩種新的 attention 模塊:Convolutional Self-Attention (CSA) 和 Recursive Atrous Self-Attention (RASA) 。下面分別介紹 CSA 模塊和 RASA 模塊。

2、Convolutional Self-Attention (CSA)

流程如上圖所示,基本流程是:

  • 計算similarity(即代碼中的attn): 將 (hw/4, c) 的矩陣通過1x1卷積變為 (hw/4, k^2, k^2)。
  • 計算V: 生成一個(hw/4, c, k^2)的矩陣,然后reshape通過1x1的卷積改變通道數(圖中為BMM),得到(hw/4, k^2, c_out)的矩陣。
  • 矩陣乘法,similarity 和 v 相乘,得到 (hw/4, k^2, c_out)
  • 使用 fold 變換得到輸出

從代碼上來看,CSA 的代碼比 VOLO 更復雜,但本質上貌似沒有不同(也許是我的理解還不到位)。而且,我感覺 CSA 的代碼沒有 VOLO 簡潔。感興趣的可以參考《VOLO: Vision Outlooker for Visual Recognition》這篇論文及網上代碼。

3、Recursive Atrous Self-Attention (RASA)

首先介紹 ASA,與普通的attention計算不同的地方在于:作者在計算Q時,采用了多尺度空洞卷積。卷積權重共享,降低了參數。

同時,作者使用了 recursive 操作。每個block里,ASA 迭代兩次。

4、實驗分析

網絡采用了4階段的架構。第一階段使用CSA,其他階段使用RASA。

在 ImageNet 的實驗結果表明,當參數量與 MobileNetV2 和 PVTv2-B0 相當時,本方法準確率顯著較高。同時,增大到與ResNet50參數量接近時,本方法性能顯著超越了當前方法。

其它部分可以參考作者論文,這里不再多說。

總結

以上是生活随笔為你收集整理的【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。