當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从2019年-2021年的各大顶会论文，看动态神经网络的发展

發布時間：2024/10/8 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了从2019年-2021年的各大顶会论文，看动态神经网络的发展小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者 | 小馬

單位?| FightingCV公眾號運營者

研究方向 | 計算機視覺

寫在前面

動態神經網絡（Dynamic Network）是目前非常熱門也非常具有落地價值的一個研究方向，因為相比于固定結構和參數的靜態神經網絡，動態神經網絡能夠根據根據不同的輸入樣本，自適應的為樣本分配最合適的路徑，因此動態網絡往往比靜態網絡具有更高的精度、計算效率 ，受到了廣大學術研究者和算法工程師的歡迎。

下面，在這篇文章中，我們將會詳細介紹，在不同領域近幾年動態網絡的發展歷程！

動態網絡工作

2.1 CondConv

論文標題：

CondConv: Conditionally Parameterized Convolutions for Efficient Inference

收錄會議：

NeurIPS 2019

論文地址：

https://arxiv.org/abs/1904.04971

PyTorch代碼：

https://github.com/xmu-xiaoma666/External-Attention-pytorch#5-CondConv-Usage

2.1.1 論文動機

這篇文文章的動機非常簡單，目前增加模型容量的成本非常高，通常是增加網絡的深度和寬度。通過增加了網絡的深度和寬度，模型的參數量和計算量也會成倍的增長，這對于一些邊緣設備的部署是非常不友好的。

作者發現，在卷積神經網絡中，不論輸入的樣本是什么，相同的卷積核都作用于這些樣本，這可能是次優的，因此，作者在本文中希望能夠根據輸入的樣本，動態選擇卷積核，從而提高模型的容量 。

具體來說，作者在設計的時候并行的設置了多個卷積核，然后設計了一個聚合函數，這些聚合函數能夠根據輸入的樣本來動態聚合這些卷積核。由于只進行一次卷積，因此多出來的計算量其實只有計算量不同卷積核權重和聚合卷積核過程中產生的計算量，而這部分計算量相比于卷積的計算量其實是非常小的。

2.1.2 實現方法

如上圖所示，在 ConvCond 中，每一個卷積層中有多個卷積核，作者為每一個卷積核分配了不同的權重，然后根據權重，將這些卷積核進行求和，得到最終的“動態卷積核”。對于“權重生成函數”，作者選用了一個非常簡單的操作，即先將輸入樣本的空間維度進行 pooling，然后用全連接層降維到卷積核的數量，最后用 Sigmoid 函數求權重，如下所示：

2.2 Dynamic Convolution

論文標題：

Dynamic Convolution: Attention over Convolution Kernels

收錄會議：

CVPR 2020 (Oral)

論文地址：

https://arxiv.org/abs/1912.03458

復現代碼：

https://github.com/xmu-xiaoma666/External-Attention-pytorch#4-DynamicConv-Usage

2.2.1 論文動機

上圖為目前動態卷積的示意圖，能夠將多個卷積核根據不同的輸入樣本以不同的權重進行聚合。但是作者發現，目前的動態卷積神經網絡在優化上有一定的困難，因為他需要對所有的卷積核進行聯合優化，勢必會導致優化效率低下。

因此在本文中，作者提出了兩個點來提高動態卷積的優化效率：1）讓同一層所有卷積核權重的和為1 ；2）在訓練早期能夠盡可能優化每一個卷積核，使得所有卷積核都能被訓練 。

2.2.2 實現方法

本文的模型結構如上圖所示，總體上來說和 CondConv 的結構非常像。但是作者根據上面提出的提高優化效率的兩個點，對“權重生成函數”進行了更改。首先，為了讓同一層所有卷積核權重為 1，作者將 CondConv 中的 Sigmoid 換成了 Softmax；其次，為了能夠在訓練早期能夠盡可能訓練好每一個卷積核，即權重盡可能平均，作者將 Softmax 中的溫度參數變大，實驗也表明，早期用更大的溫度參數，然后逐漸降低溫度參數能夠達到更好的實驗性能。

2.3 TRAR

論文標題：

TRAR: Routing the Attention Spans in Transformer for Visual Question Answering

收錄會議：

ICCV 2021

論文地址：

https://openaccess.thecvf.com/content/ICCV2021/papers/Zhou_TRAR_Routing_the_Attention_Spans_in_Transformer_for_Visual_Question_ICCV_2021_paper.pdf

代碼地址：

https://github.com/rentainhe/TRAR-VQA/

2.3.1 論文動機

目前，Transformer 只能感知全局感受野，而對于像 VQA 和 REC 這樣任務，捕獲局部的對象對于最終模型的推理也是非常重要的，但是對于不同目標，需要配備不同大小的感受野。而直接配置多感受野的 Transformer 會導致計算量和顯存的驟增。

因此，作者在本文中提出了動態路由方案，能夠根據不同樣本輸入，來自適應的選擇感受野，并且選擇感受野的方法通過 mask 來實現，因此每一層只需要計算一次 Self-Attention，計算非常輕量級。

2.3.2 實現方法

如上圖所示，作者首先對圖像和文本進行編碼，然后圖像信息在進行 Self-Attention 的時候，用不同的 mask 來限制不同的感受野大小。由于有多個感受野，每個感受野有其特定的權重，因此，動態 Self-Attention 的計算可以表示如下：

在計算每條路徑的權重時，作者也是采用了類似 SENet 的方法先進行空間上的 pooling，然后用 MLP 和 Softmax 獲得每條路徑的權重：

由于作者在本文中并沒有進行多次 Self-Attention，引入的計算量只是聚合 mask 和計算 mask 權重的計算量，因此是一個輕量級的動態網絡。

2.4 DynamicRouting

論文標題：

Learning Dynamic Routing for Semantic Segmentation

收錄會議：

CVPR 2020 (Oral)

論文地址：

https://arxiv.org/abs/2003.10401

代碼地址：

https://github.com/Megvii-BaseDetection/DynamicRouting

2.4.1 論文動機

語義分割是一個對圖像大小的分辨率非常敏感的任務，對于小目標，需要用較大的分辨率對其進行處理；對于大目標，可以使用相對較小的分辨率減少計算量。但是目前無論是 NAS 和手工設計的網絡，對于所有的樣本都采用了相同的處理方式，因此分辨率的變化都是相同的。為了能夠讓網絡能夠感知不同尺度分布的圖片，作者采用了動態路由的思想，讓網絡能夠根據圖片的內容，在網絡中自適應的根據圖片的內容進行圖像分辨率的調整，從而達到較高的計算效率和計算性能。

2.4.2 實現方法

本文的結構如上圖所示，作者首先用一個 STEM 層降低圖片的分辨率，然后在后面的網絡都都設置了四個候選分辨率，圖片能夠根據當前的輸入特征來動態選擇是保持當前分辨率還是增大或者縮小分辨率。

由于較大的分辨率可以達到更好的性能，因此網絡在訓練時可能會盡可能選擇更大的分辨率，從而造成計算性能的浪費。為了達到更好的 trade-off，作者在損失函數中加了一項計算資源的約束，使用模型在計算資源和性能上達到更好的平衡。

2.5 DRConv

論文標題：

Dynamic Region-Aware Convolution

收錄會議：

CVPR 2021

論文地址：

https://arxiv.org/abs/2003.12243

2.5.1 論文動機

之前的靜態卷積網絡，對于樣本的每一個像素都采用了相同的卷積核，導致模型容量較低；為了克服這個缺點，有一些工作提出為每一個像素采用不同的卷積，這會造成兩個問題：第一，參數量的驟增；第二，失去了平移不變性。為了能夠兼顧這兩者的優點，如上圖所示，作者采用了動態網絡的思想，首先根據輸入的特征生成幾個候選卷積核，然后根據每個像素的內容，動態為每個像素位置，選擇最合適的卷積核 。

2.5.2 實現方法

文章的大致思想就是，根據輸入的特征，利用卷積來生成 guided mask，然后根據這些 guided mask 來為不同的像素位置選擇卷積核。

由于在生成 mask 的時候用到了 argmax，導致這一步是不可微的。為了得到這一步的導數，作者采用了 softmax 來模擬了 argmax 的導數，使得反向傳播可以進行。

在本文中，這些候選卷積核也是根據輸入樣本動態生成的，生成方式如上圖所示，首先進行 Average Pooling，然后用卷積生成更高維度的特征，最后用 reshape 為多個卷積核。

2.6 RANet

論文標題：

Resolution Adaptive Networks for Efficient Inference

收錄會議：

CVPR 2020

論文地址：

https://arxiv.org/abs/2003.07326

代碼地址：

https://github.com/yangle15/RANet-pytorch

2.6.1 論文動機

目前靜態的網絡對于不同難度的樣本都分配了相同的計算量，這就會導致對簡單樣本分配太多計算資源，造成浪費；對困難樣本分類了太少的計算量，導致精度太低。

為了解決這個問題，作者提出了自適應分辨率網絡 RANet，在這個網絡中，模型首先會用一個小網絡對樣本用小分辨率進行分類，如果置信度足夠高，則退出網絡；否則將輸出特征和更大分辨率的圖片輸入到下一個網絡中，直到經歷過了所有網絡或者置信度足夠高，則退出網絡。

這樣，簡單樣本就可以占用更少的計算資源，而復雜樣本會占用更多的計算資源，并且小分辨率的計算結構能夠用于下一個子網的進一步計算量，不會浪費。

2.6.2 實現方法

本文的大致結構如上圖所示，網絡分為多個分辨率的子網，每個分辨率子網中有多個分類器，如果低分辨率的分類器達到足夠高的置信度則退出網絡，節省計算量；否則繼續用更高的計算量處理，直到置信度更高，或者經過了所有網絡。

每個子網的結構如上圖所示，當前模塊生成的特征除了輸入到下一個模塊，還會輸入到更高的分辨率中，從而重復利用特征，充分利用計算資源。

2.7 DyFPN

論文標題：

Dynamic Feature Pyramid Networks for Object Detection

論文地址：

https://arxiv.org/abs/2012.00779

代碼地址：

https://github.com/Mingjian-Zhu/DyFPN

2.7.1 論文動機

對于目標檢測來說，感知多尺度的信息是非常重要的，因此作者嘗試將 Inception 結構加入到了 FPN 中，但是 Inception FPN 在每一次計算中都會用到所有的卷積，導致計算效率非常低。因此，為了提高計算效率，作者借鑒了動態網絡的思想，在每次前向傳播的時候，根據輸入樣本的信息來動態選擇用哪個卷積進行處理。

2.7.2 實現方法

本文的結構如上圖所示，由三個部分組成：Inception 結構，動態 gate 和殘差連接。Inception 結構用于構建多尺度建模的路由空間；動態 gate 用于生成路由信號。由于這里在前向傳播的時候只能選擇一個卷積核，因此作者也采用了 Gumbel Softmax Trick，來解決 argmax 不能求梯度的問題。另外，為了平衡計算量和性能直接的平衡，作者也像《Learning Dynamic Routing for Semantic Segmentation》一樣，在損失函數中加了一項用于限制計算量的子項。

2.8 Dynamic Vision Transformers

論文標題：

Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length

收錄會議：

NeurIPS 2021

論文地址：

https://arxiv.org/abs/2105.15075

代碼地址：

https://github.com/blackfeather-wang/Dynamic-Vision-Transformer

2.8.1 論文動機

在 ViT 中，對于所有樣本都采用了 14x14 個 patch，沒有區分樣本的難度。但是對于簡單樣本，這樣分 patch 的方法可能太奢侈了，對于復雜樣本，這樣的分 patch 可能不夠精細。 因此為了達到更高的性能和更高的計算效率，作者借鑒了動態網絡的思想，根據樣本的難度，來動態分配 patch 的分割方式。

2.8.2 實現方法

這篇文章的總體設計思想和黃高老師的《Resolution Adaptive Networks for Efficient Inference》很像，首先先用粗粒度的方式進行分 patch，然后輸出到 Vision Transformer 中，根據置信度判斷是否要退出，如果置信度沒有達到標準，那么就將處理結果和更細粒度分 patch 的圖片輸入到下一個 ViT 中，直到滿足置信度要求，或經過了所有網絡為止。

2.9 Dynamic Resolution Network

論文標題：

Dynamic Resolution Network

收錄會議：

NeurIPS 2021

論文地址：

https://arxiv.org/abs/2106.02898

2.9.1 論文動機

這篇文章的 Motivation 和《Resolution Adaptive Networks for Efficient Inference》相似，作者認為不同樣本應該以不同分辨率處理，簡單樣本的分辨率可以較小一些，復雜樣本的分辨率可以較大一些 ，從而達到更好的計算量和模型性能之間的平衡。

2.9.2 實現方法

本文的模型結構如上圖所示，主要由兩部分組成：用于預測輸入樣本分辨率的分辨率預測器和用于分類的基礎網絡。首先分辨率預測器用一個非常簡單的網絡對不同的樣本生成合適的分辨率結果，并根據這個分辨率結果，將輸入的圖片 resize 到相應的大小，然后將 resize 之后的圖片輸入到基礎網絡中，這些圖片具有不同的分辨率。

由于不同分辨率的圖片通常具有不同的統計量，為了能夠適應不同分辨率的訓練，作者在基礎網絡中設置了多個 BN，每個 BN 對應一個候選分辨率，從而能夠在不引入太多計算量和參數量的情況下，考慮不同分辨率的數據分布。

總結

目前，動態網絡的研究非常火熱，已經滲透到了各個任務中，并且也達到了非常好的效果，尤其是在平衡計算量和性能方面展現出了非常高的水平。相信在將來，動態網絡除了能夠成為更高效的網絡之外，還能促進其他方向的發展。比如，對于多任務，根據目標任務來動態選擇網絡等等。

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

總結

以上是生活随笔為你收集整理的从2019年-2021年的各大顶会论文，看动态神经网络的发展的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：父巴龙山建囯档案袋不算抗美援朝不算194
下一篇：微软、UIUC韩家炜组联合出品：少样本N