日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【Transformer】AdaViT: Adaptive Tokens for Efficient Vision Transformer

發布時間:2023/12/15 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【Transformer】AdaViT: Adaptive Tokens for Efficient Vision Transformer 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 一、背景
    • 二、方法
    • 三、效果

一、背景

Transformer 在多個任務上都取得了亮眼的表現,在計算機視覺中,一般是對輸入圖像切分成多個 patch,然后計算 patch 之間的自注意力實現下游任務。

但由于自注意力機制的計算量是和輸入圖像大小呈平方關系的,所以,在邊端設備上使用 Transformer 成為了一個問題。

作者認為不同的輸入圖像對網絡來說,預測難度是不同的。如一個車和一個人在干凈的背景中,那么就很好識別。如果是多個不同的動物在復雜的背景中,那么就較難識別。

基于此,作者實現了一個網絡結構,根據輸入的難度,來動態的調節 token 的個數來控制 transformer 的計算復雜度。

二、方法

vision transformer 的過程如下:

  • ?(.)\epsilon(.)?(.): encoding network,把輸入圖像編碼成 positioned token
  • C(.)C(.)C(.):class token 的后處理
  • LLL:transformer block
  • F(.)F(.)F(.):self-attention

為了動態殺掉 tokens,作者為每個 token 引入了一個 input-dependent halting score:

  • H(.)H(.)H(.) 是 halting module
  • kkk 是 token 索引,lll 是層

  • tk,elt_{k,e}^ltk,el?tklt_k^ltkl? 的第 eee
  • σ\sigmaσ 是 logistic sigmoid 函數
  • β\betaβγ\gammaγ 是非線性操作之前使用的平移和縮放系數

為了根據 layer 來追蹤 halting probabilities,每個 token 會計算一個補充參數:

halting probabilities 如下:

ponder loss :每個 token 的 ponder loss 會平均。

分類任務的損失為:

halting score distribution 分布為:

所以使用 KL 散度來衡量真實和預測的分布偏差:

則總損失為:

三、效果


從圖 3 可以看出, adaptive 選擇 token 能夠對高度突出和巨變的區域產生強響應,通常和類別相關。

1、Token 顏色深度分布:

在圖中繪制 token 的顏色,如圖 4 所示,其實是一個以圖像中心為中心的 2D 類高斯分布,這也說明 ImageNet 的大多數樣本都是在中間的。很多計算量都來自于中間區域,邊緣參與計算的很少。

2、Halting score distribution:

如圖 5 繪制了每個圖像的每個 layer 的 halting score。

隨機采樣了 5k 驗證集,在前幾個 layer,halting score 隨著 layer 的加深而增大,后面慢慢減小。


3、難樣本和簡單樣本

圖 6 展示了難例和簡單例和其各自所需的計算量。

簡單的例子可以被正確分類,AdaViT 處理的也比難例快。

4、類別敏感性

起初非常確信或非常不確信的樣本被 adaptive 影響的很小,adaptive 推理能夠提升形狀明顯的類別,如獨立的家具或動物。

總結

以上是生活随笔為你收集整理的【Transformer】AdaViT: Adaptive Tokens for Efficient Vision Transformer的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。