日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > 目标检测 >内容正文

目标检测

【目标检测】ICCV21_TOOD: Task-aligned One-stage Object Detection

發(fā)布時間:2023/12/15 目标检测 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【目标检测】ICCV21_TOOD: Task-aligned One-stage Object Detection 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

    • 一、背景
    • 二、動機
    • 三、方法
      • 3.1 Task-aligned Head
      • 3.2 Task Alignment Learning
        • 3.2.1 Task-aligned sample assignment
        • 3.2.2 Task-aligned Loss
    • 四、效果

論文:https://arxiv.org/pdf/2108.07755.pdf
代碼:https://github.com/fcjian/TOOD

一、背景

目標(biāo)檢測一直是計算機視覺中的重要任務(wù)。目前的方法大都是并行的實現(xiàn)對目標(biāo)的分類和定位。分類的目標(biāo)是學(xué)習(xí)目標(biāo)的具有區(qū)分力的特征,定位的目標(biāo)是對目標(biāo)的邊界進行準(zhǔn)確的定位。所有這個兩個任務(wù)有很大的不同,也會導(dǎo)致這兩個任務(wù)的不對齊。

二、動機

現(xiàn)有的單階段方法都通過一定的手段來實現(xiàn)兩個任務(wù)的統(tǒng)一,也就是使用目標(biāo)的中心點。他們加上目標(biāo)中心點的 anchor 能夠給分類和定位提供更準(zhǔn)確的預(yù)測。例如 FCOS/ATSS 都使用 centerness 分支來提高在物體中心附近的anchor的分類得分,并且給對應(yīng)的anchor的定位 loss 更多的權(quán)重。但這些方法大都有兩個問題:

問題一:分類和定位是被獨立對待的

現(xiàn)有單階段檢測方法,將分類和定位分為兩個分支,這樣可能回導(dǎo)致兩個任務(wù)的互相交互很少,導(dǎo)致預(yù)測的不一致性。如圖1所示,ATSS 檢測器識別出了一個餐桌,但是對披薩的定位確非常準(zhǔn)確。

問題二:Task-agnostic 的樣本分配(對任務(wù)無差別的樣本分配)

大多數(shù) anchor-free 的檢測室使用基于幾何的分配方法來選擇里中心點近的 anchor-point,但 anchor-based 方法通常計算anchor box 和 gt box 的 IoU 來確定 anchor。但是,分類和定位的最優(yōu) anchor 通常是不一致的,而且和目標(biāo)的形狀和特征有很大的關(guān)系。所以,對不同任務(wù)都使用相同的樣本分配方法難以對這兩個任務(wù)起到相同的作用。

如圖1中 ATSS(第一行) 的 score 和 IoU,result 列展示出了一個問題,即定位最優(yōu)的anchor的位置并不一定在目標(biāo)的中心,而且和最好的分類得分的框不是同一個。所以,定位的準(zhǔn)確的框可能會被 NMS 干掉。

基于此,作者提出了一個 Task-aligned one-stage object detection 方法 TOOD,通過設(shè)計一個新的 head 結(jié)構(gòu)來更好的將分類和定位任務(wù)對齊。

三、方法

總覽:

類似于現(xiàn)有的 one-stage 方法,本文提出的 TOOD 也采用了 “backbone-FPN-head” 的結(jié)構(gòu),并且為了高效性,TOOD 采用了類似于 ATSS 的anchor生成方法,即在每個位置生成一個anchor,這里的 anchor 在 anchor-free 方法中表示 anchor-point,在 anchor-based 方法中表示 anchor-box。

本文提出了 Task-aligned head (T-head) 和 Task Alignment Learning (TAL) 來解決分類和定位對不齊的問題,如圖2所示。T-head 和 TAL 可以合作起來來實現(xiàn)對這個兩個任務(wù)的對齊。

  • 首先,T-head 在 FPN 輸出特征中進行分類和定位
  • 然后,TAL 基于 alignment metric 來計算兩者的 alignment signal
  • 最后,T-head 在反向傳播的時候再使用 alignment signal 來動態(tài)調(diào)整分類的得分和定位的位置

3.1 Task-aligned Head

為了實現(xiàn)一個高效的結(jié)構(gòu)來提升 head 的設(shè)計(如圖3a),作者:

  • 加強了兩個任務(wù)的交互
  • 提升的檢測器學(xué)習(xí)對齊與否的能力

T-head 的結(jié)構(gòu)如圖3b所示,由一個簡單的特征提取器和兩個 Task-aligned Predictors 構(gòu)成。

  • 為了加強兩個任務(wù)的交互,作者使用了一個特征提取器來從卷積層中學(xué)習(xí) task-interactive 特征,如圖3b所示,這樣的設(shè)計不僅僅可以加強任務(wù)的交互,而且可以給這兩個任務(wù)提供多尺度感受野的多級特征。因此,可以使用單個分支從 FPN 特征中獲得豐富的多尺度特征。
  • 之后,將會把計算得到的 task-interactive feature 送入兩個TAP 來對齊分類和定位

Task-aligned Predictor (TAP):

作者在計算 task-interactive features 的時候,會同事使用分類和定位的特征,這樣也會使得每個任務(wù)更好的感知對方的狀態(tài)。然而,由于是單個branch,task-interactive features 會不可避免的引入兩個任務(wù)的特征沖突,因為兩個任務(wù)的注意點是不同的。于是,作者提出了一個 layer attention 機制,通過動態(tài)計算 task-specific 的特征來進行任務(wù)的分解,如圖3c所示。


task-specific 特征對每個任務(wù)的計算方式如下:

  • wkw_kwk? 是第 k element of the learned layer attention w∈RNw\in R^NwRN

  • xinterx^{inter}xinter 是對 XinterX^{inter}Xinter 使用 average pooling 后得到的

最終,分類或定位的結(jié)果從每個 XtaskX^{task}Xtask 來得到:

  • conv1conv1conv1:1x1 conv
  • ZtaskZ^{task}Ztask:將會通過 sigmoid 函數(shù)被轉(zhuǎn)換為得分 P∈RH×W×4P\in R^{H \times W \times 4}PRH×W×4,通過 distance-to-box 轉(zhuǎn)換為 bounding-box B∈RH×W×4B\in R^{H \times W \times 4}BRH×W×4


Prediction alignment:

在預(yù)測階段,作者通過這個兩個預(yù)測(P and B)的空間分布來進一步更精確的對齊這個兩個任務(wù)

方法:計算 task-interactive feature,且對兩個任務(wù)的對齊方法是不同的。

  • 分類:如圖3c,作者使用空間概率圖 M∈RH×W×1M\in R^{H\times W\times 1}MRH×W×1來調(diào)節(jié)分類預(yù)測,M 是從交互特征圖中計算得到的,使得 M 能夠?qū)W習(xí)這兩個任務(wù)在每個空間位置上的一致性的梯度。

  • 定位:作者從交互特征圖中學(xué)習(xí) spatial offset 圖 O∈RH×W×8O\in R^{H\times W\times 8}ORH×W×8,來對每個位置上的 bbox 進行調(diào)整。這些學(xué)習(xí)到的offset能夠使得 aligned anchor point 識別出其周圍最好的預(yù)測框。

    其中c是channel,上式是通過雙線性差值實現(xiàn)的,而且這種計算量很小,因為 B 的channel 維度很小。

值得注意的一點是,每個通道的offset的學(xué)習(xí)都是獨立的,也就是說每個 boundary 都能學(xué)到自己的 offset。這就能使得4條邊界線都能學(xué)的準(zhǔn)確,因為它們都是獨立從離它們近的anchor point 學(xué)習(xí)到的。所以,本文的方法不僅僅能夠?qū)R分類和定位的任務(wù),還能提升定位準(zhǔn)確性。

alignment maps MMMOOO 是從一堆 interactive feature 中學(xué)習(xí)到的,學(xué)習(xí)的方式是通過 TAL 學(xué)習(xí):


注意:T-Head是獨立于 TAL 的,可以作為一個即插即用的模塊來提升單階段目標(biāo)檢測的性能

3.2 Task Alignment Learning

TAL 在這里被提出來是為了進一步引導(dǎo) T-Head 來做 task-aligned 的預(yù)測

3.2.1 Task-aligned sample assignment

對于實例的 anchor 分配應(yīng)該滿足以下規(guī)則:

  • well-aligned 的anchor 應(yīng)該能夠同時預(yù)測得到高的分類得分和準(zhǔn)確的定位
  • misaligned 的anchor應(yīng)該有一個低的分類得分,而且逐漸被抑制

基于上述兩個目標(biāo),作者設(shè)計了一個新的 anchor alignment metric 來在 anchor level 衡量 task-alignment 的水平。

并且,alignment metric 被集成在了 sample 分配和 loss function里邊,來動態(tài)的優(yōu)化每個 anchor 的預(yù)測。

Anchor alignment metric:

我們已知,分類得分和 IoU表示了這兩個任務(wù)的預(yù)測效果,所以,作者使用分類得分和IoU的高階組合來衡量 task-alignment的程度。

方法:使用下列的方式來對每個實例計算 anchor-level 的對齊程度

  • s and u 分別為分類得分和 IoU 值
  • α\alphaα and β\betaβ 分別為權(quán)重

從上邊的公式可以看出來,t 可以同時控制得分和iou的優(yōu)化來實現(xiàn) task-alignment,可以引導(dǎo)網(wǎng)絡(luò)動態(tài)的關(guān)注于高質(zhì)量的anchor。

Training sample assignment:

對每個實例,作者選取 m 個前 t 大的value作為正樣本

3.2.2 Task-aligned Loss

Classification objective:

為了精準(zhǔn)的提升 aligned anchor 的分類得分,降低 misaligned anchor 的分類得分,作者在訓(xùn)練過程中使用 ttt 來替換positive anchor 的 binary label。但是這種方法,當(dāng)這個label(比如 t)隨著 α\alphaαβ\betaβ 的增大而減小的時候。所以,作者使用了 normalized ttt,稱為 t^\hat tt^,來代替正樣本的binary label。

ttt 規(guī)范化的原則:

  • 保證能夠更好更高效的學(xué)習(xí)難樣本(這類樣本通常對應(yīng)的 t 比較小)
  • 能夠較好的保留(基于預(yù)測框準(zhǔn)確率)不同實例的差別

t^\hat tt^ 的獲得原則(instance level):

  • t^\hat tt^ 的最大值等于最大的 IoU 值

Binary Cross Entropy 對正樣本的分類任務(wù)計算方式如下:

  • iii 是一個實例對應(yīng)的所有正 anchor 的第 iii 個 anchor

作者又使用了 focal loss 來彌補正負樣本的不平衡:

  • jjj 是第 jjj 個負 anchor
  • γ\gammaγ 是平衡參數(shù)

Localization objective:

well-aligned anchor(比如有較大的 t)預(yù)測出來的 bbox 通常會同時具有高的分類得分和準(zhǔn)確的定位框,這樣的 bbox 通常也會在 NMS 過程中保留下來。

ttt 也可以通過給 loss 來加權(quán)來選擇高質(zhì)量的bbox,即也可以衡量bbox的質(zhì)量,所以在bbox的回歸過程中,作者通過聚焦在well-aligned anchor (t 較大)并且抑制 misaligned anchor (t 較小)的方法,來促進任務(wù)對齊和回歸預(yù)測。所以作者對回歸任務(wù)的 loss 也做了加權(quán),GIoU loss 的加權(quán)版本如下:

  • bbb:預(yù)測的 bbox
  • b^\hat bb^:真實的 bbox

TAL 的整體 loss 為分類和定位 loss 之和

四、效果


總結(jié)

以上是生活随笔為你收集整理的【目标检测】ICCV21_TOOD: Task-aligned One-stage Object Detection的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。