當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

感知算法论文（三）：Feature Selective Anchor-Free Module for Single-Shot Object Detection

發布時間：2023/12/15 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了感知算法论文（三）：Feature Selective Anchor-Free Module for Single-Shot Object Detection 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- 摘要
- 1. 引言
- 2. 相關工作
- 3. Anchor-free特征選擇模型
- - 3.1 網絡結構
  - 3.2 Ground-truth 和 loss
  - 3.3 在線特征選擇
  - 3.4 Joint 推斷和訓練
- 4. 實驗
- - 4.1 消融學習
  - 4.2 與目前效果最好的網絡相比
- 5. 總結

摘要

本文建立了一個“無錨點特征選擇模型”（feature selective anchor-free，FSAF），是一個簡單有效的針對單目標檢測的模塊。

可以探入具有特征金字塔結構的單目檢測器

FSAF模型打破了一般的基于anchor的目標檢測的缺陷：

啟發式引導特征選擇
overlap-based錨點采樣

FSAF模型的一般機制：將在線特征選擇應用于多級無錨點分支的訓練

無錨點分支和特征金字塔的每一級都進行連接，允許在任意一級以無錨點的方式進行box的編碼和解碼。

訓練過程中，動態的將每個實例分配到最合適的特征層

推理過程中，FSAF模型可以通過并行輸出預測結果，而和基于anchor的分支協同工作。

本文使用無錨點分支的簡單實現和在線特征選擇機制來說明該過程

在COCO數據集上的實驗結果展示出本文的FSAF模型比基于錨點的方法更快更好。

當和anchor-based分支協同工作時，FSAF模型在各種不同的設置下顯著提高了基準RetinaNet的性能，同時引入了幾乎免費的推理開銷。

最優模型可以實現SOTA——44.6%的mAP，比其他單目檢測器在COCO上的效果都好。

1. 引言

目標檢測是計算機視覺領域的一項重要任務，是許多視覺任務的基礎，如實例分割[12]，面部分析[1,39]，自動駕駛[6,20]等。目標檢測的效果的提升很大程度上得益于深度卷積神經網絡的發展[16.29,13,34]和優質的帶標記數據集[7,23]。

目標檢測的一個難點在于目標不可避免的尺度縮放，為了獲得尺度不變性，SOTA檢測器將特征金字塔或多尺度特征進行結合[24,8,21,22,19,38]。

多尺度特征圖可以同時被生成。

為了將連續空間離散化而設計的anchor box可以將所有可能的實例框到一系列有限數量的盒子中，這些box有特定的尺度和縱橫比。

實例框和錨點框的匹配基于IoU重疊率

當與特征金字塔進行集成的時候，大尺度的anchor box通常會和上層特征圖相關聯，小的anchor box通常會和底層特征圖相關聯（Fig.2）。

這是基于啟發式的，上層特征圖有更多的語義信息，適合于檢測較大的實例，底層的特征圖有更多精細的細節信息，適合于檢測小的實例[11]。

將特征金字塔和anchor box結合起來的設計在目標檢測方面獲得了很好的效果[7,23,9]

然而這樣的設計有兩個限制：

啟發式指導特征的選擇
overlap-based 錨點采樣

訓練過程中，每個實例都要和最近的anchor box求取IoU，且anchor box是通過人為定義的規則來和特定的特征圖層進行關聯的（如框大小等）。所以每個實例的選擇的特征層純粹是基于啟發式引導的。

假設一個像素大小為50x50的車，和另外一個像素大小為60x60的相同的車可能被認為成兩個不同特征層，然而40x40大小的車就會被認為是和50x50的車是一個特征層。

也就是說，anchor匹配的機制是內在的啟發式指導的，這樣會導致一個主要的缺陷，即用來訓練每個實例的選擇的特征層可能并非最優的。

本文提出的簡單且高效的方法是FSAF模型，同時解決了這兩大缺陷。

動機： 要使得每個實例能夠自由的選擇最優層級來優化網絡，故模型中不應該有anchor box來約束特征的選擇。本文以無錨點框的方式對實例進行編碼，以學習分類和回歸的參數。一般過程如Fig.3。

對每個特征金字塔層都會建立一個anchor-free分支，不依賴于anchor-based分支

類似于anchor-based分支，anchor-free分支由分類子網絡和回歸子網絡構成。實例可以被分配到anchor-free分支的任意層中。

訓練過程中，動態的基于實例內容對每個實例選擇最合適的特征層，而不是只基于實例box的大小。之后，將選擇的特征層用來學習檢測所分配的實例。

推斷階段，FSAF模型可以獨立運行或和anchor-based分支協同運行

FSAF模型對主干網絡是未知的，且可以和特征金字塔結構結合起來被用于單目檢測。

另外，anchor-free分支的實例化和在線特征的選擇是多種多樣的。

本工作中，我們保持FSAF模型的簡單化，所以其耗費的時間相對于整個網絡而言的開銷是很小的。

在COCO數據集上的目標檢測方法已經有很多，這為本文的方法提供了一定的比較性。

FSAF模型比anchor-based模型更快更好

當和anchor-based分支協同工作時，FSAF模型可以在保證最小計算成本的同時，在不同的主干網直接大幅提高基準。

同時利用ResNeXt-101的FSAF比RetinaNet提升了1.8%的mAP，只有6ms的推理階段的延遲。

本文最終的檢測器在使用多尺度測試時獲得了SOTA——44.6%的mAP，比其他單目檢測器在COCO上的表現都要好。

2. 相關工作

目前的目標檢測器通常是實驗特征金字塔或者多尺度特征塔作為通用結構。

SSD[24]結構首先提出了從多級特征中預測類別得分和b-box

FPN[21]和DSSD[8]的提出提高了所有層的底層和高層語義特征圖。

RetinaNet[22]解決了具有焦點損失的多級密集檢測器類別不均衡的問題

DeNet[19]設計了一種新的主干網絡，來保證高空間分辨率在上層金字塔

這些方法使用預定義的anchor-box來編碼和解碼目標實例

其他工作則以不同的方式來處理尺度的變化

Zhu[41]提升了對小目標物體anchor的設計
He[14]將b-box看成Gaussian 分布來提升定位準確度

anchor-free的方法在目前是很新的

DenseBox[15]首先提出了一個統一的端到端的全卷積網絡來直接預測b-box。

UnitBox提出了一種IoU損失函數來進行更好的box回歸

Zhong等人[40]提出了基于區域提議的anchor-free網絡來尋找不同尺度、縱橫比和方向。

近期的CornerNet提出了將檢測目標b-box當做一對corners的方法，獲得了最好的單目檢測結果

SFace[32]的提出將anchor-free和anchor-based方法融為一體

然而，這些方法仍然采取啟發式特征選擇的方法

3. Anchor-free特征選擇模型

本節對本文的FSAF模型進行了實例化說明，展示了如何與特征金字塔結合起來應用于單目檢測，正如SSD、DSSD和RetinaNet

我們將FSAF模型應用于現在最好的RetinaNet模型，并且逐步介紹設計過程：

1）如何在網絡中生成anchor-free分支
2）如何對anchor-free分支產生監督信號
3）如何對每個實例進行特征層的動態選擇
4）如何同時對anchor-free和anchor-based分支進行訓練或者測試

3.1 網絡結構

從網絡方面來說，本文FSAF模型是非常簡潔的。

Fig.4 展示了將RetinaNet和FSAF模型結合起來進的結構

簡而言之，RetinaNet是由主干網絡和兩個“特殊任務”的子網絡組成的

特征金字塔是從主干網絡的P3—P7中構建的， $l$ 是金字塔的層數， $P_l$ 層的特征圖分辨率為輸入圖像的 $1/2^l$ ，圖中只展示了三個不同的層。

金字塔中的每個層都被用來檢測不同尺度下的目標，為了實現這個目標，分類分支和回歸分支在 $P_l$ 層進行了組合。這兩個子網絡結果都是小的全連接網絡。

分類分支預測每個空域位置上的目標的概率，包括所有A個anchor和所有K個類別中的所有b-box。
回歸分支預測4個數字組成的b-box坐標和離它最近的實例anchor的偏移量。

RetinaNet的頂部，FSAF模塊為每個金字塔層引入兩個額外的卷積層，Fig.4中虛線特征所示。

這兩層分別在anchor-free分支負責分類和回歸

為了更加有效，在分類子網絡的特征圖后連接了 $K$ 個3x3大小的濾波器組成的卷積層，且級聯sigmoid激活函數。對所有的K個目標類別的每個空域位置的目標都預測概率。

同樣的，在回歸子網絡的特征圖后也連接了四個3x3大小的濾波器組成的卷積層，且級聯RELU激活函數[26]。對b-box的偏移做預測。

為此，anchor-free和anchor-based分支以多任務的方式聯合工作，共享金字塔每個層的特性。

3.2 Ground-truth 和 loss

給定目標實例，我們已知其類別 $k$ 和 b-box 坐標 $b = [x, y, w, h]$ ，其中 $(x, y)$ 為box的中心， $w, h$ 為box的寬和高。

實例可以在訓練過程中分配給任意特征層 $P_l$

定義投影的box $b_p^l=[x_p^l, y_p^l, w_p^l, h_p^l]$ 作為 $b$ 在特征金字塔 $P_l$ 上的投影， $b_p^l = b / 2^l$ 。

同樣將有效box定義為 $b_e^l=[x_e^l, y_e^l, w_e^l, h_e^l]$ ，占 $b_p^l$ 的 $?e\epsilon_e$

將可忽略的box區域定義為 $b_i^l=[x_i^l, y_i^l, w_i^l, h_i^l]$ 占 $b_p^l$ 的 $?i\epsilon_i$

即：
$xel=xpl,yel=ypl,wel=?ewpl,hel=?ehplx_e^l=x_p^l, y_e^l=y_p^l, w_e^l=\epsilon_e w_p^l, h_e^l=\epsilon_e h_p^l$
$xil=xpl,yil=ypl,wil=?iwpl,hil=?ehplx_i^l=x_p^l,y_i^l=y_p^l, w_i^l=\epsilon_i w_p^l, h_i^l=\epsilon_e h_p^l$

且設定 $?e=0.2,?i=0.5\epsilon_e=0.2, \epsilon_i=0.5$

Fig.5 展示了對于一個車生成 ground truth 的過程

分類的輸出：

classification output是一個WxHxK大小的feature map，K表示物體類別數，那么在坐標為（i，j）的點上是一個長度為K的向量，表示屬于每個類別的概率。分支對應的gt是圖中白色區域內值為1，表示正樣本，黑色區域內值為0，表示負樣本，灰色區域是忽略區域不回傳梯度。分支采用Focal Loss，整個classification loss是非忽略區域的focal loss之和，然后除以有效區域內像素個數之和來正則化一下。

分類輸出的真值為 $K$ 個特征圖，每個都對應一個類別

實例會在三個方面影響第 $k$ 個真實特征圖：

第一，有效框 $b_e^l$ 區域是由“car”類特征圖中白色框所表示的正區域，表示實例的存在
第二，被忽略的box將有效框 $b_i^l-b_e^l)$ 排除在外，也就是灰色區域，這意味著該區域的梯度不能被回傳到網絡中。
第三，臨近特征層 $b_i^l，b_i^{l+1})$ 如果存在忽略框，那么也會忽略區域

注意：如果同一層中的兩個實例的有效框有重疊，那么更小的實例的框有更高的準確度。

GT中的剩余部分也就是負區域（黑色）將用零值填充，表示沒有目標。

Focal loss[22]用來監督訓練，超參數設置為 $α=0.25,γ=2.0\alpha=0.25, \gamma=2.0$

anchor-free分支的完整分類子網絡的損失是所有為被忽略的區域的focal loss之和，用所有有效框區域的像素點之和做歸一化。

Box 回歸輸出：

回歸輸出的真值是4個偏置值

實例僅僅會影響偏移特征圖的 $b_e^l$ 區域

對 $b_e^l$ 內的所有位置 $(i, j)$ ，我們將投影框 $b_p^l$ 表示為一個四維向量 $d_{i,j}^l=[d_{t_{i,j}}^l, d_{l_{i,j}}^l, d_{b_{i,j}}^l, d_{r_{i,j}}^l]$ ，其中， $d_t^l, d_l^l, d_b^l, d_r^l$ 分別表示目前位置 $(i, j)$ 和 $b_p^l$ 的上下左右的距離。

之后，在 $(i, j)$ 位置上的跨越四個偏移映射的四維向量設置為 $d_{i,j}/S$ ，每個映射對應一個維度。 $S$ 是標準化常數，設置為4。將 $d_{i,j}/S$ 作為輸出結果。

在有效框之外的位置都被設置為灰色區域，其梯度被忽略

IoU loss[36]被用來優化

anchor-free分支對一幅圖像的回歸總損失是，所有有效框區域的IoU損失的均值

推理階段：
直接對分類和回歸輸出預測的框進行解碼

對每個像素位置 $(i, j)$ ，假設預測的偏移是 $[o^ti,j,o^li,j,o^bi,j,o^ri,j][ \hat{o}_{t_{i,j}}, \hat{o}_{l_{i,j}}, \hat{o}_{b_{i,j}}, \hat{o}_{r_{i,j}}]$ ，則預測的距離是 $[So^ti,j,So^li,j,So^bi,j,So^ri,j][ S_{\hat{o}_{t_{i,j}}}, S_{\hat{o}_{l_{i,j}}}, S_{\hat{o}_{b_{i,j}}}, S_{\hat{o}_{r_{i,j}}}]$ 。

預測的投影框的左上角和右下角分別為： $(i?So^ti,j,j?So^li,j)(i-S_{\hat{o}_{t_{i,j}}}, j-S_{\hat{o}_{l_{i,j}}})$ 和 $(i+So^bi,j,j+So^ri,j)(i+S_{\hat{o}_{b_{i,j}}}, j+S_{\hat{o}_{r_{i,j}}})$

進一步，使用 $2^l$ 對投影框進行縮放來獲得圖像的最終框

box的置信分數和分類可以由分類輸出映射中的最大分數和對應的類別來決定

3.3 在線特征選擇

anchor-free分支的設計允許我們使用人員金字塔層 $P^l$ 的特征，為了選擇最優特征層，FSAF模型基于實例內容選擇最優的 $P^l$ ，而不是例如anchor-based方法中使用的實例框的大小來選擇。

給定一個實例 $I$ ，定義在 $P^l$ 上的分類損失和回歸損失為 $LFLI(l)L^I_{FL}(l)$ 和 $LIoUI(l)L^I_{IoU}(l)$ ，通過對有效框區域 $belb^l_e$ 的focal loss和IoU loss分別進行平均而獲得：

$LFLI(l)=1N(bel)∑i,j∈belFL(l,i,j)L^I_{FL}(l)=\frac{1}{N(b^l_e)} \sum _{i,j \in b_e^l} FL(l,i,j)$
$LIoUI(l)=1N(bel)∑i,j∈belIoU(l,i,j)L^I_{IoU}(l)=\frac{1}{N(b^l_e)} \sum _{i,j \in b_e^l} IoU(l,i,j)$

其中， $N(bel)N(b^l_e)$ 是 $b_e^l$ 區域內的所有像素點的和， $F L (l, i, j)$ 和 $I o U (l, i, j)$ 是在 $P_l$ 上的 $(i, j)$ 位置上的 focal loss 和 IoU loss。

Fig.6 表示了我們的在線特征選擇過程，首先對實例 $I$ 在金字塔的每個層進行前向傳播。

之后對所有anchor-free分支上利用公式（1）計算 $LFLI(l)L^I_{FL}(l)$ 和 $LIoUI(l)L^I_{IoU}(l)$ 的和。

最后，產生的損失之和最小的也就是最優的金字塔層 $P_{l^*}$ 被用來學習實例：

$l?=argminlLFLI(l)+LIoUI(l)l^*=argmin_lL^I_{FL}(l)+L^I_{IoU}(l)$

對于整個訓練batch，特征根據為其分配的實例而改變。選擇的特征是目前最好的用于實例建模的特征。其損失在特征域形成最低的限制。

推理階段，不需要選擇特征，因為特征金字塔中最合適的層將輸出最高置信得分。

為了證實在線特征選擇的重要性，我們也在消融實驗中使用了啟發式特征選擇的方法用于對比（4.1）。

啟發式特征選擇更大的依賴于box大小，仿照FPN檢測器[21]的思想，實例 $I$ 是通過如下方法分配給特征金字塔的 $Pl′P_{l'}$ ：

$l′=?l0+log2(wh/224)?l'=\lfloor l_0+log_2(\sqrt{wh}/224) \rfloor$

其中，224是典型ImageNet預訓練大小，且 $l_0$ 是目標層，該層中輸入實例大小為 $w×h=2242w\times h=224^2$

本文選擇 $l_0=5$ ，因為RestNet[13]從第五個卷積層中使用該特征圖，以進行最終的分類。

3.4 Joint 推斷和訓練

當將FSAF模塊作為RetinaNet的一個子模塊來工作時，FSAF模型和anchor-based分支共同工作，Fig.4所示。

我們將anchor-based分支當做最初的網絡，所有的超參數在訓練和推斷的時候都沒有改變。

推斷：

FSAF模型僅僅給全卷積網絡RetinaNet添加了少量的卷積層，所有推斷層仍然像一幅圖像簡單的像圖像從網絡中前向傳播一樣。

對anchor-free分支，我們只解碼每個金字塔層級中得分最高的1k個位置的預測框，然后使用0.05對其進行置信的分的選擇。

這些從所有層中獲得的得分較高的框和anchor-based分支獲得的預測框進行融合，然后使用閾值為0.5的NMS來產生最終的檢測結果。

初始化：

主干網絡在ImageNet 1k[5]中進行預訓練，我們利用[22]中初始化的方法來初始化RetinaNet。

FSAF模塊中的卷積層，分類層的偏置為 $?log((1?π)/π)-log((1-\pi)/\pi)$ ，權重是 $σ=0.01\sigma=0.01$ 的高斯分布，其中 $π\pi$ 定義為：訓練之初，在 $π\pi$ 周圍的每個像素位置輸出對象的得分。且設置 $π=0.01\pi=0.01$ 。

所有的box回歸層偏置都初始化為 $b = 0.1$ ，權重是 $σ=0.01\sigma=0.01$ 的高斯分布，

這樣的初始化有助于在網絡訓練前期更加穩定，避免大的loss

優化：

整個網絡的損失是將anchor-free和anchor-based分支組合起來的。

令 $L^{ab}$ 表示初始RetinaNet的總損失， $L_{cls}^{af}$ 和 $L_{reg}^{af}$ 分別表示anchor-free分支的分類和回歸損失。

則總損失為 $L=Lab+λ(Lclsaf+Lregaf)L=L^{ab}+\lambda( L_{cls}^{af}+ L_{reg}^{af})$

其中， $λ\lambda$ 是平衡兩個分支的權值，我們設置其為0.5。

整個網絡使用SGD訓練的方法在8個GPU上訓練，每個GPU上兩個圖

除非特別說明，我們訓練都是使用90k迭代次數，初始學習率為0.01，分別在60k和80k時將學習率降低10倍。

除非另有說明，否則水平圖像翻轉是唯一應用的數據增強。

權值下降率為0.0001，動量為0.9

4. 實驗

本文在COCO數據集上進行實驗，訓練集是COCO trainval 135k，包括所有train 80k圖像，和從val （40k）中隨機選擇的35k子集

使用在剩余的5k 的val中的數據構成的 minival 數據集進行消融學習的方法來分析本文的效果。

4.1 消融學習

對所有消融學習，我們在訓練和測試中都使用大小為800像素的圖像。

我們對anchor-free分支、在線特征選擇和主干網絡都進行評估，結果在表1和2。

anchor-free分支是必要的：

首先，訓練兩個檢測器，都是僅有anchor-free分支，但分別使用不同的特征選擇方式（表1的2和3）。說明了anchor-free分支僅僅能夠達到較好的效果。

當FSAF和anchor-based分支協同工作時，anchor-free分支能夠幫助學習到anchor-based分支難以學習到的實例，獲得AP得分的增大。（表1的第5個）

尤其在使用在線特征選擇時使 $AP_{50}, AP_S. AP_L$ 的得分分別提升了2.5%，1.5%和2.2%

為了尋找FSAF模型能夠檢測出來哪種目標，我們展示了和RetinaNet之間一些定量的對比分析，如Fig.7所示。

顯而易見，FSAF模型在尋找有難度的實例上更加優異，如小的人物和目標，這些都很難用基于anchor的方法來找到。

在線特征選擇是必須的：

如3.3節中所描述的，我們可以選擇anchor-free分支或基于啟發式的anchor-based分支，又或者基于實例內容來進行特征選擇。

這些表明，選擇正確的特征來學習在檢測中起到很重要的作用

實驗表明，anchor-free分支如果使用啟發式特征選擇方法（公式3），將不能和anchor-based方法相比較，因為學習的參數太少。

但是使用在線特征選擇時（公式2），會可分參數的困難

另外，表1的4和5完全可以證實，在線特征選擇對anchor-free和anchor-based方法的結合使用很重要。

最優特征如何選擇：

為了理解為實例選擇最優金字塔層的過程，我們可視化一些從anchor-free分支上獲得的定性的檢測結果，Fig.8所示。

類別之前的數字表示檢測目標的特征層，這表明在線特征選擇實際上遵循一種規則，就是金字塔上層選擇大的實例，底層對小的實例進行響應，這和anchor-based方法的原理是一樣的，

然而，這也有一定的例外，包括，在線特征選擇的方法決定了選擇金字塔層的過程不同于anchor-based選擇層的過程。

我們將這些不同在Fig8中用紅色標記起來，綠色框表示anchor-free和anchor-based相同的地方。

通過捕捉這些例外，可以證明FSAF模型可以使用更好的特征來檢測有難度的目標。

FSAF模型是魯棒且有效的：

我們同樣對FSAF模型所使用的主干網絡所能達到的速度和精度進行了實驗。

使用了三種不同的主干網絡 ResNet-50, ResNet-101 [13] 和 ResNeXt-101 [34]

在Titan X GPU 使用CUDA 9 和CUDNN 7進行訓練，batch size為1，結果再表2中。

可以發現，FSAF模型對不同的主干網絡是有一定的魯棒性的。

FSAF模型比 anchor-based 的 RetinaNet 效果更好也更快，

ResNeXt-101上，FSAF模型比anchor-based模型的 AP 高1.2%，快68ms

當和anchor-based網絡協同工作時，FSAF模型也對效果提升起到了相當大的作用

這也表明，anchor-based模型并沒有使得主干網絡的能量完全發揮出來

此外，FSAF模型僅僅為整個網絡引入了一點點的計算開銷，基本上可以忽略

而且，我們使得使用 ResNeXt-101 的 RetinaNet 的 AP 提升了1.8%，且僅有6ms的延時

4.2 與目前效果最好的網絡相比

最好，在 COCO 的 test-dev 數據上進行了最終的檢測實驗，并和目前最好的網絡進行了對比。

最終的模型是 RetinaNet + FSAF 的模型，即 anchor-based分支加上FSAF模塊

模型使用不同的尺度 { 640, 672, 704, 736,768, 800 } 進行訓練，且是 4.1 節的模型長的 1.5倍。

實驗包括單個尺度和多級尺度版本，其中單個尺度的測試使用像素大小為800的輸入圖像，多級尺度的測試數據增強，尺度分別為 {400, 500, 600, 700, 900, 1000, 1100, 1200}，且對每個尺度進行水平翻轉，后級聯Detctron[10]。所有的結果都源于單個模型，并未融合。

表3展示了對比結果

使用ResNet-101作為主干網絡，我們的檢測可以在單尺度和多尺度都達到很好的效果。

使用ResNeXt-101-64x4d作為主干網絡，使得AP提升了44.6%，比目前最好的單目檢測器有了很大的提升。

5. 總結

本文工作證明了啟發式的特征選擇是 anchor-based 的單目檢測方法的基本限制，為了跨越這個限制，我們提出了FSAF模塊，使用在線特征選擇方法在特征金字塔中訓練 anchor-free 分支。

這提升了較小實例檢測的基線，并獲得了最好的單目檢測效果。

總結

以上是生活随笔為你收集整理的感知算法论文（三）：Feature Selective Anchor-Free Module for Single-Shot Object Detection的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：三星 Galaxy Tab S6 Lit
下一篇：感知算法论文（四）：Mask Scori