日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

与 SENet 互补提升,华为提出自注意力新机制:Weight Excitation

發布時間:2025/3/8 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 与 SENet 互补提升,华为提出自注意力新机制:Weight Excitation 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

注意力機制、動態卷積最近幾年被研究得非常透了,不過前述方法大多聚焦于特征圖層面,而該文則是從權值角度出發提出了一種非常有意思的機制。該文所提方法僅作用于訓練階段,不會對推理造成任何的計算量消耗、網絡結構改變,同時可取得媲美SE的性能提升,更重要的是它可以與SE相互促進。

論文:

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123750086.pdf

Abstract

該文提出一種新穎的方法用于在訓練階段同時判別卷積神經網絡權值的重要性并對重要權值賦予更多的注意力。更確切的講,作者針對權值從兩個方面進行重要性分析:幅值與位置。通過在訓練階段分析權值的上述兩種特性,作者提出了兩種獨立的Weight Excitation(權重激勵)機制。作者通過實驗證實:在主流ConvNet上,在多個CV應用中,采用WE方法可以取得顯著性能提升(比如在ImageNet分類任務上,可以提升ResNet50的精度達1.3%),而且這些改進不會造成額外的計算量或者網絡結構調整。此外,只需很少的幾行代碼即可將其嵌入到卷積模塊中。更重要的是,WE可以與其他注意力機制(比如SE)取得互補作用,進一步提升性能。

該文的主要貢獻包含以下幾點:

  • 提出兩種關于權值的特性用于刻畫每個權值的重要性;
  • 提出兩種新穎的權值再參數化機制:通過調整反向傳播梯度對重要權值賦予更多注意力,作者將這種訓練機制稱之為權值激勵訓練;
  • 在多個任務(ImageNet、Cifar100分類任務,VOC、Cityscapes語義分割以及手勢識別、姿態識別等)、多個ConvNet架構上驗證了所提方法的優異性能。

Method

在這部分內容中,我們先來看探索一下權值重要性與幅值、位置的關系;然后再看了解一下作者所提出的權值再參數化方法。注:作者將位置相關的方法稱之為LWE(location-based WE),將幅值相關的方法稱之為MWE(Magnitude-based WE)。

Investigating the importance of weights

為探索權值的重要性,作者進行了權值影響的系統性分析(通過將權值置零)。作者研究了關于權值的兩種特性:幅值和位置。為更好說明兩者的重要性,作者采用ImageNet數據集上預訓練ResNet50進行相應數據分析。

  • Weight Magnitude。為探索權值幅值的重要性,作者通過如下流程進行了分析(結果見上圖):
    • 對于每個卷積權值按照絕對值進行升序排序;
    • 將不同百分位的權值置零并記錄模型性能下降情況。從上圖可以看到:更高百分位的權值(即權值幅值更大)置零導致的性能下降更嚴重,這也就說明了權值的重要性隨幅值變大而變大。

  • Weight Location。為探索權值位置的重要性(見上圖),作者通過如下方式進行了分析
    • 選擇預訓練ResNet50中L個3x3卷積模塊(L=16);
    • 對每個所選擇的3x3卷積模塊(Sl,l∈{1,?,L}S_l, l\in \{1,\cdots, L\}Sl?,l{1,?,L}),選擇N1N_1N1?個輸出通道(Sl,Oj,j∈{1,?,N1}S_{l,O_j}, j \in \{1, \cdots, N_1\}Sl,Oj??,j{1,?,N1?})
    • 對每個所選擇的輸出通道Sl,OjS_{l,O_j}Sl,Oj??,選擇N2N_2N2?個輸入通道(Sl,Oj,Ii,i∈{1,?,N2}S_{l, O_j, I_i}, i \in \{1, \cdots, N_2\}Sl,Oj?,Ii??,i{1,?,N2?});
    • 將上述所選擇的輸入通道對應的權值置零并記錄模型性能下降情況DSl,Oj,IiD_{S_l, O_j, I_i}DSl?,Oj?,Ii??.
    • 注:作者設置的參數為N1=N2=5N_1=N_2=5N1?=N2?=5。結果見上圖,也就是說ResNet每一個層將輸出一個5×55\times 55×5的下降情況數據,更高的下降數據意味著更重要的性能影響,也就需要進行保留并賦予高注意力。作者發現:淺層的下降波動更大,深層的下降波動較小,這也就意味著ConvNet不同位置的權值重要性是不同的,且淺層的權值重要性差異更明顯。

Location-based weight excitation

正如前面所介紹的,卷積權值的重要性會隨位置而發生變化,因此對于維度為Out×In×h×wOut\times In\times h\times wOut×In×h×w的權值(h=3,w=3h=3,w=3h=3,w=3),每個h×wh \times wh×w權值核的重要性是可變的。為對不同卷積核賦予不同的注意力,作者設計了一個Out×InOut \times InOut×In大小的注意力圖m∈R:m∈[0,1]m \in R: m\in[0,1]mR:m[0,1]用于調整卷積核的賦值。這就會導致更重要的權值具有更大的反向傳播梯度。那么如何設計這樣一個注意力圖呢,一種最簡單的方式就是將其參數化到卷積中,但這種方式將ConvNet的參數量變大(對于ResNet50而言,約提升60%參數量)。

作者提出采用一個簡單的子網絡,它以In×h×wIn\times h\times wIn×h×w權值作為輸入并生成In個重要性注意力值,相同的子網絡同時處理多路權值進而得到前述注意力圖m。盡管該子網絡可以具有多種不同的結構,作者選擇了SE模塊,定義如下:
mj=A2(FC2(A1(FC1(Avg(Wj)))))m_j = A_2(FC_2(A_1(FC_1(Avg(W_j))))) mj?=A2?(FC2?(A1?(FC1?(Avg(Wj?)))))
與之對應的LWE結構如下圖a所示,有沒有覺得挺簡單的呀,嘿嘿。

Magnitude-based weight excitation

前面已經介紹了LWE的原理,接下來就要介紹了MWE了。作者所提的MWE是一種新穎的激活函數fA(w)f_A(w)fA?(w),它以權值w作為輸入,并賦予其不同的重要性注意力,定義如下:
wMWE=fA(W)=MA×0.5×ln1+w/MA1?w/MAw_{MWE} = f_A(W) = M_A \times 0.5 \times ln \frac{1+w/M_A}{1-w/M_A} wMWE?=fA?(W)=MA?×0.5×ln1?w/MA?1+w/MA??
其中MA=(1+?A)×MM_A = (1+\epsilon_A)\times MMA?=(1+?A?)×M,而M表示權值的最大幅值,0<?A<0.20< \epsilon_A < 0.20<?A?<0.2表示超參數。此時權值的梯度就變成了:

此外需要注意的是:對于LWE或MWE的輸入權值,作者先進行了歸一化,而這一操作可以導致ConvNet性能的輕微提升。注:WE僅作用于訓練階段,而不會造成推理階段的額外計算量或網絡架構調整。

Experiments

為說明所提方法的有效性,作者在ImageNet分類、VOC語義分割以及Mini-Kinetics姿態識別等任務上進行了驗證。

直接上結果了,ImageNet任務上的性能對比見下圖。可以看到:在主流ConvNet上(如MobileNetV2、ResNet50、ResNeXt50、ResNet152-SE,Wide ResNet50)均可得到一致性的性能提升,且MWE的性能增益要比LWE增益低。作者同時發現:LWE對于深度分離卷積的增強并不好,這也是該方法的一個局限所在。與此同時,作者還將所提方法與其他注意力機制進行了對比,見下圖b。相比SE,LWE的一個優勢在于:提供同等性能增益同時具有更少的訓練消耗、無需額外的推理消耗。


與此同時,作者還對比了所提方與其他規范化(如BatchNorm、GroupNorm)技術的性能差異。

最后,我們再來看一下所提方法在不同任務、不同架構上的性能增益對比,見下表。很明顯,采用WE機制訓練的模型均可得到一定程度的性能提升。

全文到此結束,更多實驗結果與分析詳見原文,建議各位同學去查閱一下原文。


原文鏈接:https://bbs.cvmart.net/articles/3250
專注計算機視覺前沿資訊和技術干貨

關注極市平臺公眾號(ID:extrememart),獲取計算機視覺前沿資訊/技術干貨/招聘面經等

總結

以上是生活随笔為你收集整理的与 SENet 互补提升,华为提出自注意力新机制:Weight Excitation的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。