當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

感知算法论文（七）：DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation（2019）

發布時間：2023/12/15 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了感知算法论文（七）：DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation（2019）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- 摘要
- 1. 引言
- 2. 相關工作
- 3. 深層特征聚合網絡
- - 3.1 Observations
  - 3.2 深層特征聚合
  - 3.3 網絡結構
- 4. 實驗
- - 4.1 DFA 結構的分析
  - - 4.1.1 輕量級 backbone 網絡
    - 4.1.2 特征聚合
    - 4.1.3 DFANet 的整體結構
  - 4.2 速度和正確度的比較
  - 4.3 在其他數據集上的實驗
- 5. 結論

摘要

本文提出了一種及其高效的 CNN 結構——DFANet，來解決計算資源受限情況下的語義分割。

本文提出的網絡，始于一個簡單的backbone，并將這些子網絡、子層級的有區分力的特征分別進行聚合。

基于多尺度特征傳遞的 DFANet 不僅僅減少了大量的參數，也獲得了足夠的感受野并加強了模型的學習能力，保持了分割速度和分割性能的平衡。

在 Cityscapes 和 CamVid 數據集上的實驗證明了 DFANet 在取得與現有SOTA 實時語義分割算法相當的性能情況下，比其 FLOPs 少8倍，速度快2倍。

DFANet速度和效果：

平臺： NVIDIA Titan X
mean IoU：Cityscapes 上達到了 70.3%
速度：170 FPS
內存量：1.7 GFLOPs
高分辨率圖像： Mean IoU 達到了 71.3%，3.4 GFPLOs

1. 引言

語義分割的目的是給每個像素都分配一個類別標簽，是計算機視覺的基礎任務，應用于自動駕駛、視頻監控、機器人感知等等領域。

對很多任務來說，如何對高分辨率的圖像同時保持高速推理和高精度的性能一直難以解決。

已有的實時語義分割方法[1][25][27][29][33][22]在特定的基準上取得了較好的效果[10][9][18][36][2]，但在高分辨率特征圖的 U型結構耗費了大量的時間。

現有方法解決高分辨率圖像分割的不足：

很多方法利用減小輸入圖像尺寸[27]或降低網絡通道數來提高推理速度[1,22]，這樣會丟失時域邊緣信息和小圖像信息，并且變簡單的網絡結構難以提取有區分力的特征。

為了克服這些不足，其他方法[33][29] 提出了一個 多分支框架 將時域細節和上下文信息結合起來。然鵝，額外的分支會限制其速度，且分支之間是獨立的，這會限制模型的學習能力。

一般情況，語義分割任務通常使用從圖像分類任務訓練所得的 “funnel” backbone，如 ResNet[11], Xception[8], DenseNet[13] 等等。

實時分割的推理階段，本文使用了一個輕量級的backbone，并研究了如何在計算能力受限的情況下提升分割性能。

目前主流的分割方法中，金字塔特征組合（類似于空域金字塔池化[34,5] ）的方法被用來使用高層上下文信息來豐富化特征，但會增加很多計算復雜度。

此外，傳統的方法通常使用單一通道結構的最終輸出來豐富化特征，這種設計中，高層上下文缺乏與原有的層特征的結合，同時保留了網絡路徑中的空間細節和語義信息，為了強化模型學習能力并提升感受野，特征的重復利用實最直觀的方法。這啟發了本文尋找輕量級方式來多層上下文信息來編碼特征。

本文的方法有兩個階段來實現尺度間的特征聚合：

首先，將從 backbone 中抽取得到的高層特征重復利用，來解決語義信息和結構細節的gap
其次，將網絡的處理過程的不同階段所獲得的特征進行組合，來提高特征的表達能力，如圖2所示。

詳細來說：

本文將輕量級 backbone 重復使用來證實特征聚合的方法。

DFANet 包含三個步驟：

lightweight backbones
sub-network aggregation
sub-stage aggregation。

由于深層可分離卷積被證明是實時分割推理階段最高效的結構，故本文使用 Xception 網絡作為 backbone。

1. lightweight backbones：

為了獲得更好的準確性，本文在 backbone 的尾部使用一個全連接的注意力模型來存儲最大的感受野。

2. sub-network aggregation：

將前一個 backbone 的高層特征映射進行上采樣，保證輸入下一個 backbone 的特征圖大小，來精細化預測結果。也就是可以看做一個從粗尺度到細尺度的像素分類

3. sub-stage aggregation：

將粗尺度和精細尺度的特征表達進行聚合，通過將大小相同的層級結合起來，可以保持感受野和高維結構細節信息。

這三個步驟之后，由“卷積+雙線性上采樣”操作組成的簡單解碼器被應用于每個stage來產生從粗糙到精細尺度的分割結果。DFANet 結構如圖3所示。

在 NVIDIA Titan X card上，用標準的基線數據集 Cityscapes 和 CamVid 做實驗，輸入 1024*1024，DFANet達到了 71.3% 的mIoU，3.4G FLOPs，速度為 100 FPS 。
當使用較小尺寸的輸入和較輕量級的 backbone 時，Mean IoU 仍能分別達到 70.3% 和61.7%，1.7 G FLOPS 和 2.1G FLOPS，比許多實時分割算法性能都好。

本文主要貢獻如下：

為低運算力場合的實時分割提供了新的可能，對比已有的結果，本文的 FLOPS小8倍，速度快2倍，效果也很好。
本文提出了一個全新的分割網絡結構，擁有多級連通的編碼流程，以將高層的上下文信息編碼到特征中去。
本文方法能夠最大程度的利用多尺度感受野，并在計算量略有增加的情況下多次細化高級特性。
給 Xception backbone 添加了一個注意力層來增強感受野，且基本不需要增加額外的計算量。

2. 相關工作

實時分割：

實時語義分割的目標是在計算力有限的情況下產生高質量的預測，SegNet[1] 使用一個小的結構和pooling indices 策略來減少網絡參數。

ENet [22] 考慮減小下采樣次數，以獲得一個緊致的框架結構，由于其使用模型的最后一級特征，導致感受野非常小，難以對大目標進行檢測和分割。

ESPNet [26] 使用心得金字塔模型來提高計算速度。

ICNet[33] 使用多尺度圖像作為輸入并串聯網絡來提升效率。

BiSeNet[29] 引入空間路徑和語義路徑來減少計算量。

ICNet 和 BiSeNet中，只有一條分支是用于特征提取的深層 CNN，其余分支被用于捕捉細節信息。

本文結構與其不同，我們在特征空間中增強了單個模型的容量，以保留更多的細節信息。

Depthwise Separable Convolution：

深度可分離卷積（跟隨于逐點卷積之后），是近年來應用很廣的一種網絡設計方法，該方法可以減小計算開銷和網絡參數量，并保持基本相當的性能。

High-level Features：

分割任務的重點在于感受野和分類能力，一般的編碼-解碼結構中，編碼器輸出的高層特征刻畫了輸入圖像的語義信息。基于此，PSPNet[34], DeepLab series[7][5][4], PAN[16] 使用額外的操作來將更多的上下文信息和多尺度特征表達結合起來。空域金字塔池化已經廣泛用于提供總體區域場景，尤其是多尺度情況下多個目標的情況。這些模型展示了高質量的分割結果，但計算量仍然很大。

Context Encoding：

SE-Net [12] 通過對通道信息的學習得到一個“ channel-wise 注意力模型”，并獲得了最好的圖像分類性能，注意力機制稱為的深度神經網絡的一個有力工具。可以看成一個通過逐通道選擇來提升模型的特征表示能力的過程。

EncNet 引入了 Context Encoding 機制來提升每個像素的預測能力，這取決于編碼語義。本文中，提出了一種全連接的模型來增強backbone性能，且對計算復雜度的影響很小。

Feature Aggregation：

傳統的方法僅僅使用單一路徑的編碼-解碼網絡來解決逐個像素的預測。

隨著網絡深度的增加，更需要研究的是如何將不同模塊之間的特征聚合起來。

RefineNet [17] 給編碼器和解碼器中間的每個上采樣stage中引入復雜的 refine 模塊，來抽取多尺度特征，另外一種聚合方法是使用稠密連接。DLA [31] 將該方法擴展，獲得了一個更深的聚合結果來提升特征表達能力。

3. 深層特征聚合網絡

3.1 Observations

圖2中簡單描述了分割網絡結構，對于實時推理， [33,29] 中使用多分支來實現多尺度特征抽取并保留圖像空域細節信息。例如，BiSeNet[29] 針對高分辨率圖像提出了一種 shallow network （淺層網絡），并且使用具有快速下采樣能力的深層網絡來保存分類效果和感受野的平衡。如圖2(a) 所示。

這些方法的缺點在于沒有很好的使用并行分支中的高層特征，僅僅使用了卷積層來融合特征，此外，并行分支之間也沒有過多的交流，且高分辨率圖像的額外分支導致其計算量增大。

語義分割任務中，空域金字塔池化（SPP）模塊經常被用于解決干層特征 [5]，如圖2(b) 所示，SPP 模型被用于抽取高層語義上下文信息并提升感受野，如 [4,34,16] ，然鵝，SPP 模塊很耗費時間。

受上述模型的啟發，本文先用網絡輸出的上采樣結果來代替高層操作，并使用另外的sub-network 來精細化特征圖，如圖2? 所示，不同于 SPP模型，特征圖在交大分辨率下進行了細化，同時學習了 sub-pixel 的細節。

然而隨著整體網絡結構的深化，高維特征和感受野通常會面臨精度下降的問題，因為其只有一條路徑。

本文提出了一種 stage-level 的方法（圖2(d)所示），來傳遞 low-level 和空域信息來進行語義理解，由于所有的 sub-network 擁有相同的結構，可以將相同分辨率的層級進行連接，來產生 multi-stage 的上下文，從而進行 stage-level 的精細化。

本文方法要同時結構 network-level 和 stage-level 的特征。

3.2 深層特征聚合

本文聚焦于將不同深度的特征進行聚合的任務，聚合策略由 sub-network 聚合和sub-stage 聚合組成，DFANet 的結構如圖3所示。

sub-network 聚合：

sub-network聚合是將高層特征進行結合，我們將DFANet作為一個backbones的集合，也就是將上一個backbone的輸出作為下一個backbone的輸入。換句話說，sub-network 聚合可以被看成一個精細化的過程，backbone處理過程可以定義為 $y=Φ(x)y=\Phi(x)$ ，編碼器 $Φn\Phi_n$ 的輸出是編碼器 $Φn+1\Phi_{n+1}$ 的輸入，所有sub-network聚合可以表示成： $Y=Φn(Φn?1(...Φ1(X)))Y=\Phi_n(\Phi_{n-1}(... \Phi_1(X)))$

類似的想法在[21]中有提出，其結構是由編碼器-解碼器的 “沙漏” 結構堆疊而成，sub-network 聚合過程允許可以再次處理這些高層特征來進一步評估和再次評估高階空域關系。

sub-stage 聚合：

sub-stage 聚合局建議融合多個網絡間的stage-level的語義和空域信息。隨著網絡深度的增加，空域細節會丟失。常見的方法，如U型結構，用來實現skip connection 從解碼器中恢復圖像細節。

然而，更深的編碼器模塊缺乏低層特征和空域信息，無法對大尺度的各種目標和精細的結構邊緣做出判斷。

并行分支結構的設計采樣原始分辨率和低分辨率作為輸入，其輸出是大規模分支和小規模分支結果的融合，而這種設計缺乏并行分支之間的信息通信。

sub-stage 聚合對編碼過程的特征進行組合，對同一深度下不同stage之間的特征進行融合。

前一個 sub-network 的特定 stage 的輸出，作為下一個 sub-network 的相同 stage 的輸入。

對單個的backbone $Φn(x)\Phi_n(x)$ ，一個 stage 的過程可以定義為 $?ni\phi_n^i$ ，前一個 stage 定義為 $?n?1i\phi_{n-1}^i$ 。 $i$ 表示 stage 的索引。

sub-stage 聚合方法可以表示如下：

其中， $x_{n-1}^i$ 來自于：

$xn?1i=xn?1i?1+?n?1i(xn?1i?1)x_{n-1}^i=x_{n-1}^{i-1}+\phi_{n-1}^i(x_{n-1}^{i-1})$

傳統的方法是對于 $x_n^{i-1}$ 學習一個mapping $F (x) + x$ ，本文方法中，sub-stage 聚合方法是在每個 stage 的開始學習一個殘差項 $x_n^{i-1},x_{n-1}^i]$ 。

對于 $n > 1$ 的情況，第 $n$ 個 network 的第 $i$ 個stage的輸入是第 $n ? 1$ 個 network 的第 $i$ 個 stage 的輸出，之后，第 $i$ 個stage 學習到一個殘差表示 $x_n^{i-1},x_{n-1}^i]$ 。 $x_n^{i-1}$ 和 $x_{n-1}^i$ 具有相同的分辨率，之后將其融合。

本文始終將特征是從高分辨率到低分辨率，上面表達式的表達不僅僅學習第 $n$ 個特征圖的新的 mapping，同時也保存第 $(n ? 1)$ 個特征圖和感受野，信息可以通過多級網絡進行流動。

3.3 網絡結構

網絡的整體結構如圖3所示，通常情況下，語義分割網絡可以被看成一個編碼-解碼結構，編碼器將三個 Xception backbones 進行聚合，由sub-stage 聚合和sub-network聚合組成。

對于實時推理，我們沒有在解碼器上做過多的研究，解碼器是作為一個高效的特征下采樣模型來融合低層特征和高層特征，為了方便實施聚合策略，sub-network 采樣單個的雙線性上采樣 backbone 作為解碼器，所有的backbone有相同的結構且用相同的權重來初始化。

backbone：

基準 backbone 是略有微調的適用于分割任務的輕量級 Xception 模型。

對于語義分割問題，不僅僅提供稠密特征表達方式是一個問題，如何有效的獲得上下文語義信息也是一個問題。所以，我們保存 ImageNet 預訓練的全連接層來提高語義抽取。

分類任務中，全連接層是在全局池化層之后，來獲取最終概率向量，由于分類任務的數據集比分割任務的數據集提供了更多的類別，從分類任務中得到的預訓練網絡比從分割任務中訓練的預訓練網絡能力更強。

我們在全連接層之后使用一個 1x1 的卷積層，用于減少通道數，使得其能和 Xception backbone 的特征圖進行匹配。之后，一個大小為 $\times C \times 1 \times 1$ 的編碼向量和初始抽取的特征以逐 channel 的方式相乘。

Decoder：

本文提出的解碼模型如圖3所示，對于實時推斷，我們沒有太多的研究設計解碼器的模型。

根據 DeepLabV3+ [7] ，一個stage中，并不是所有的特征都是對解碼器有用的，我們直接將高層和低層的特征結合起來，因為編碼器是由三個backbone組成的，我們首先將三個backbone中的最下面的backbone的高層特征進行融合，之后對這些高層特征進行因子為4的雙線性上采樣。每個backbone的分辨率相同的底層信息也分別進行了融合。

之后，高層特征和底層細節相加，并以4為因子進行上采樣，來獲得最終的預測。

編碼模塊中，我們僅僅使用很少的卷積計算來減小通道的數量。

4. 實驗

雖然本文的網絡對高分辨率圖像的處理效率較高，我們在兩個具有挑戰性的數據集上進行了實驗：Cityscapes 和 CamVid。

兩數據集的圖像大小分別為 2048x1024 和 960x720，這對實時分割來說是一個較大的挑戰。

下面，我們首先介紹本文結構的效果，之后和已有方法進行對比。

所有提到的方法都使用相同的訓練方式，使用mini-batch SGD ，batch 大小為 48，動量為0.9，權重衰減為 $10^{-5}$ 。

初始學習率為0.2，使用“poly” 學習率方法，乘因子為 $1?itermax?iteriter1-\frac{iter}{max-iter}^{iter}$ 。

所有類別的每個像素交叉熵誤差作為loss function，數據增強方法包括去掉均值、水平翻轉、縮放率在 [0.75,1.75] 內的尺度縮放、隨機裁剪等。

4.1 DFA 結構的分析

本文使用 Cityscapes 來對網絡進行定性和定量的分析，Cityscapes 是從來自于50個不同城市的街區的視頻序列中截取的數據集，包含30個類別，其中19個類別用于訓練和評估。

數據集包含5000個精細標注的圖像，19998個粗略標注的圖像，分辨率都為 2048x1024。

精細標注的數據集劃分為訓練、驗證和測試集，分別包含2979,500和1525個圖像。在訓練中僅僅使用精細標注的圖像，在迭代次數為40k時停止訓練。

模型性能的評估使用驗證集，為了公平起見，消融實驗中將圖像裁剪為 1024x1024大小，該過程中，為了獲得更好的效果，不使用任何測試的數據增強，像多尺度或多裁剪的測試集。

定量分析，class-wise mean IoU 和 float-point operations（FLOPs）被用來分別作為準確率和計算復雜度的衡量標準。

4.1.1 輕量級 backbone 網絡

如上所述，backbone 網絡是模型加速的主要限制，然而，兩個小的backbone網絡會導致分割效果急劇下降。

Xception 是一個輕量級結構，能夠實現速度和性能的平衡，本文使用兩個修正的 Xception 網絡（A 和 B），計算復雜度也較低，推斷階段速度較快，細節如表1所示。

修正的 Xception 網絡在 ImageNet-1k 數據集上進行預訓練，初始學習率為0.3，使用 Nesterov momentum，且動量=0.9，權重衰減為 $4×10?54\times 10^{-5}$ .

訓練30個epoches之后，將后面30個迭代的學習率設置為0.03，batch size 為256，圖像大小為224x224。

使用修正的 Xception 在Cityscapes 驗證集上進行驗證，為了保證預測的分辨率和初始分辨率相同，特征以16倍進行雙線性上采樣。

為了對比，我們復現ResNet-50，其采用擴張卷積進行1/16的下采樣，可以看出，當使用 Xception A 時，分割準確率從68.3%下降到了59.2%。

當將其和 ASPP[5] 一起使用的時候性能下降的較少（ ResNet-50 + ASPP 獲得 72.1%， Xception A + ASPP 獲得 67.1%），這也證明了ASPP 模塊對輕量級網絡的效果。

Xception A + ASPP 的模型能夠獲得67.1%的mIoU，基本上和 ResNet-50 的 68.3% 相當，但其計算復雜度遠遠低于ResNet-50。

這就表示我們可以將輕量級網絡和和高層上下文模塊進行結合，來解決算力受限的語義分割問題。

我們也考慮降低輸入圖像的分辨率來提升計算速度：

之前的方法中，研究人員嘗試使用低分辨率的輸入來實現實時推斷，然而當縮放率為0.25時，對應的 mIoU 就很低了，且 FLOPS 仍然比使用 small backbone 要大很多。

在輕量級 backbone 后邊加上 ASPP之后，Xception A 很容易的就能達到比傳統 ResNet-50更好的效果，即使使用更小的 Xception B，準確率也較好且 FLOPs 是其一半。

忽略掉 ASPP 模塊，計算復雜度仍然很大

我們在3.3節中驗證了 FC 注意力模型的作用，如表2所示，可以提高約 4%-6%的準確率，計算量幾乎沒變，FC注意力模型證明了高維上下文信息的作用，實現了簡單且有效的融合。

下面實驗中，使用 Backbone A 和 B 作為基本單元，來驗證 DFANet 的性能。

4.1.2 特征聚合

本節中，我們研究了聚合策略在本框架中的作用

特征聚合是由 sub-network 聚合和 sub-stage 聚合組成的。

如表3所示，基于 Backbone A ，分割效果從 65.4%提高到了 66.3%，且僅僅使用了 sub-network 聚合。

當使用兩次聚合時（x3），準確率從 66.3% 降到了 65.1%，我們認為，Backbone A x2 的感受野已經比整個圖都大了，另外的一次聚合會帶來其他噪聲。

由于輸出直接被上采樣到了和原始大小一樣，所以噪聲也被放大了，盡管上采樣可以帶來很多細節，但噪聲會帶來很多負面影響。

當聚合次數為‘x4’ 時，準確率沒有得到很大的提升，因為當輸入為1024x1024時，最終輸出的分辨率為 8x8，特征太小了，不足以進行分類。

如圖4展示了三種不同 backbone 堆積方式的結果：

第一個backbone 的預測有些噪聲，下一 stage 的輸出會更小，空域細節會丟失，結果證明，sub-stage 學習之后，感受野變大了且引入了全局上下文。

之后，經過第三個聚合backbone的處理之后，最終的結果中包含了很多精細的細節信息，細節信息和上下文信息被結合起來。

sub-stage 聚合能夠帶來多尺度信息的結合，基于本文的級聯模型，能夠學習到更多的有區分力的特征，且亞像素學習是逐步進行了。

4.1.3 DFANet 的整體結構

3.3 小節中設計的解碼模塊是一個簡單高效的能夠將高層和底層特征結合起來的模塊，解碼模塊匯總沒有直接利用上采樣，而是對結合的結果進行了深層的平滑，聚合解碼器的性能見表4。

盡管使用 Backbone A x3 的性能比使用 Backbone A x2 的性能要差，但最終的聚合編碼是由三個backbone組成的，如圖3所示。基于解碼操作，Backbone A x3 的效果要明顯好于 Backbone A x2，該結果也證明了之前的結論，即sub-stage 3 中能夠學習到更多的細節信息，不同尺度的輸出的融合能夠消除一定的噪聲。

由于聚合方法可以提供大量的特征，我們不一定要構建一個復雜的解碼器。

上面兩個不同的 backbone中，所有的高層和底層解碼器在提升性能的同時僅僅引入了很少的計算開銷。

Cityscapes 數據集的驗證集上，獲得了 71.9%的 mIoU，3.4 GFLOPs

此外，基于 Backbone B 的整個網絡的計算速度降低到了 2.1 GFLOPs，達到了 68.4%的 mIoU。

4.2 速度和正確度的比較

表5 中展示了所有速度的比較，此處用推斷階段的時間來表示效率。

從表中可知，本文的方法的推斷速度比現有的SOTA 方法都要快，且性能相當。

Cityscapes：

mIoU：71.3%
inference speed：100FPS

此處用兩種改變方式來探究DFANet：輸入圖像大小 + 通道數

當 backbone 模型是簡單的那種時，準確率為 67.1%，120 FPS inference speed，和現有的bisenet 性能（68.4%）相當。

輸入圖像大小削減一半時， FLOPs 降到了 1.7G，準確率仍然較好。

本文方法能達到最快的速度是 160 FPS，mIoU 為 70.3%，之前最快的是 135 FPS ，mIoU 為 57%。

DFANet A、B、A’ 分別比已有的最好算法快 1.38倍、1.65 倍和 2.21 倍，FLOPs 分別是其 1/4、1/7 和 1/8。且性能還略有上升。

圖4中展示了一些結果，本文方法的效果較好。

4.3 在其他數據集上的實驗

DFANet 同樣在 CamVid 數據集上進行了實驗，該數據集是從時頻序列中截取的分辨率大小為 960x720 的圖像。包括 701 幅圖像，其中357個用于訓練，101個用于驗證，233個用于測試。

結果見表6，DFANet A/B 分別獲得了120 FPS 和 160 FPS 的速度。

5. 結論

本文中，提出了一種基于深度特征聚合的方法來實現高分辨率圖像的實時分割。

聚合策略級聯了一系列卷積層來有效的精細化高層和底層特征，沒有其他額外的操作。

定性和定量的分析表明本文方法在保持高效的情況下也能獲得較為樂觀的分割結果。

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的感知算法论文（七）：DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation（2019）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：曝小米平板 6 / Pro 已在欧洲开启
下一篇：感知算法论文（八）：Generalize