日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

感知算法论文(十):Towards Universal Object Detection by Domain Attention(2019)

發布時間:2023/12/15 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 感知算法论文(十):Towards Universal Object Detection by Domain Attention(2019) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 摘要
    • 1. 引言
    • 2. 相關工作
    • 3. 多域目標檢測
      • 3.1 通用目標檢測基準
      • 3.2 單域檢測器組
      • 3.3 自適應多域檢測器
      • 3.4 SE 適配器
    • 4. 通用目標檢測器
      • 4.1 通用檢測器
      • 4.2 Domain-attentive 通用檢測器
      • 4.3 通用 SE 適配器組
      • 4.4 域注意力
    • 5. 實驗
      • 5.1 數據集和實驗驗證
      • 5.2 單域檢測
      • 5.3 多域檢測
      • 5.4 SE 適配器個數的影響
      • 5.5 在所有 benchmark 上的結果
      • 5.6 最終測試評估
    • 6. 總結

摘要

本文提出了一種高效的通用目標檢測系統,能夠處理從人臉和交通標志甚至醫學圖像的各類圖像。

不同于多領域模型,本文的通用模型不需要任何該領域的先驗知識,而是使用引入一個新的適應層家族來實現的,基于壓縮和激勵的原理,以及一個新的注意力機制。

在提出的通用檢測器中,所有的參數和計算都是跨域共享的,并且一個單一的網絡始終處理所有的域。

在11個基準數據集上進行了多組實驗,實驗表明本文的方法總體由于現有的一組單獨的檢測器、一組多域檢測器和一組基線通用檢測器,其參數比單域基準檢測器提高了1.3倍。

1. 引言

目前已有很多針對目標檢測的方法,但是其通常是基于特定領域的,在單個類型的數據集上進行實驗所得的較好的網絡。

這可能是由于目標檢測數據集是由很大的不一致性的,并且沒有合適的域來進行統一轉換。

如圖1所示,檢測任務可以依據類別(人臉、馬、醫學圖像等)、拍攝方向(航拍、直接拍攝等)、圖像風格(漫畫、剪紙和醫學圖像)等來劃分。

一般情況下,高性能檢測器需要專門針對特定目標數據集的檢測器。

這給實際應用程序帶來了一個重要的問題,實際應用程序通常不局限于圖1中的任何一個域,所以就需要一個系統能夠檢測到不受類別限制的圖像的目標。

一個簡單的解決方法是針對每個域都設計一個特殊的檢測器,即使用從D 個數據集上訓練得到的 D 個檢測器,并且在每個時間點加載適應于特定域的檢測器。

但該方法有些不切實際,原因有兩點:

  • 在大多數涉及自治系統的應用程序中,感興趣的領域可以頻繁地更改,而且不一定是預先知道的。

  • 整個模型的大小隨著域數D的增加而線性增加

目前主流的方向是通用 AI ,使用一個通用的模型來解決多任務問題,或在多個域中執行相同的任務。

然而,目前的很多方法都是真的圖像分類的, 流行的目標檢測是復雜系統,由 backbone 網絡、區域提議、b-box 回歸和分類器構成等,故通用的目標檢測器有很大的挑戰。

本文中,我們考慮設計一個能夠在多個領域工作的通用目標檢測器設計。

首先,建立一個新的通用對象檢測基準,稱為 UODB,由11個不同的目標檢測數據集構成(圖1)。

該基準數據集比多領域識別基準數據集——Decathlon [40] 更具有挑戰性。

我們是第一個使用深度學習來研究通用目標檢測的,我們預計這個新的基準將在該領域鼓勵更多的方法出現。

我們提出了一些結構,如圖2所示,以解決通用/多領域檢測問題。

圖2左邊的兩個結構是多域檢測器,需要目標的先驗知識,右邊的兩個結構是通用檢測器,沒有先驗知識。

對于一個未知的領域,多域檢測器需要使用不同領域的特定參數來重復推理過程,而通用檢測器僅僅執行一次推理。

圖2(a)的檢測器是一系列的特定域的檢測器,沒有參數共享或計算共享,多域學習(Multi-domain learning,MDL)通過多域參數共享來提升這個過程,并且添加了小的特定域的層級。

[40,1] 中,昂貴的卷積層是共享的,并且輔以輕量級特定領域的適應層。

在此基礎上,我們提出了一種基于“壓縮和激勵”機制的新型檢測適配器,稱為 SE 適配器。

這就導致出現了圖2(b)所示的多域檢測器,在整個網絡中引入特定域的SE適配器來補償域轉移。

UODB 上進行實驗,這個檢測器的性能優于圖2 (a),參數減少了約5倍。

相反,圖2(c)所示的通用檢測器的所有域能夠共享所有的參數和計算(除過輸出層)。

該通用檢測器由單個的網絡構成,該網絡總是被激活的,就參數共享而言,這是最有效的解決方案,但是對于單個模型來說,要覆蓋多個具有非平凡域轉移的域是很困難的。所以該解決方法沒有圖2(d)所示的多域檢測器效果好。

這利用了一個新的域注意(DA)模塊,其中首先添加了一組新的通用SE適配器(始終處于激活狀態),然后引入一個基于特征的注意機制來實現域敏感性。

該模塊學習通過通用SE適配器庫將網絡激活分配到不同的域,并通過域注意機制軟化它們的響應,這使適配器能夠專門針對各個域。

由于該過程是數據驅動的,所以域的數量不是必須和數據集的數量匹配,而數據集可以跨多個域。這允許網絡利用跨域的共享知識,而這在公共單域檢測器中是不可用的。我們在新建立的UODB上進行的實驗表明,這種數據驅動的參數/計算共享形式比圖2中的其余體系結構能夠顯著提高多域檢測性能。

2. 相關工作

目標檢測:

目前已有很多單階段或多階段的目標檢測器,但是沒有哪個檢測器可以在多于一個類型的數據集或沒有微調的情況下仍然保持良好的效果,在前深度學習時代,[23]提出了一種通用的DPM[8]檢測器,通過在DPM中添加數據集的特定偏差。但是這種解決方案是有限的,因為DPM不能與深度學習檢測器相比較。

多任務學習:

多任務學習(Multi-task learning,MTL)研究了如何同時進行多任務的聯合學習。

多域學習/適應:

MDL 學習多域表示,作為先驗[20,36]。其將域間共享的參數和特定域的參數進行組合,特定域的參數是自適應參數,從域自適應而來,從原域中學習到的模式是適應于目標域的。

[1]表明,通過簡單地向共享網絡中添加特定于域的BN層,多域學習是可行的。[40]使用剩余適配器學習多個可視域,而[41]則通過經驗研究有效的參數化。但是,由于檢測器訓練的批量限制,它們建立在BN層之上,不適合檢測。相反,我們提出了一個替代的SE適配器,靈感來自“壓縮和激勵”[15],以解決這個問題。

注意力機制:

[49] 提出了機器翻譯的自注意力機制,[51] 對視頻分類提出了一個非局部網絡,基于空域注意力機制。[15] 主要研究通道間的關系,引入 SE 模型自適應地重新校準信道特征響應,在圖像網絡識別中取得了良好的效果。

本文中,我們引入了一個域注意模塊,該模塊受SE的啟發,對網絡激勵進行數據驅動的領域分配,以解決更具有挑戰性的通用對象檢測問題。

3. 多域目標檢測

3.1 通用目標檢測基準

為了訓練和評估通用/多領域目標檢測系統,我們用11個數據集構建了一個新的通用目標檢測基準(Universal Object Detection Benchmark, UODB):Pascal VOC [6], WiderFace [58], KITTI [9], LISA [33], DOTA [53], COCO [27], Watercolor [17], Clipart [17], Comic [17], Kitchen [10] and DeepLesions [55]。

該數據集包含了流行的 VOC 和 COCO 數據集,由普通的目標物體(自行車、人類、動物等)組成。

20 VOC 數據集類別由三種跨領域的目標組成,包括水彩畫、剪紙和動畫目標。

Kitchen[10] 由普通的廚房物體組成,是通過手持Kinect采集的。

WiderFace[58]則包含了通過網絡采集的人臉。

KITTI 和 LISA 由交通場景組成,源于行車記錄儀。KITTI 由車輛、行人和騎自行車的人組成,LISA 是由交通場景組成。

DOTA[53] 是有個檢測類型的數據集,由車輛、飛機、船和海港組成,源于航拍。

DeepLesion[55] 是由醫學 CT 病變圖像組成的,例子見圖1,詳細介紹見表1。

總之, UODB 覆蓋了廣泛的類型、拍攝角度、圖像類別等,適用于目標檢測算法效果的衡量。

3.2 單域檢測器組

Faster R-CNN [44] 被作為本文中所有檢測器的一個基線結構。

Faster R-CNN 通過兩個階段來實現:

  • 區域提議網絡產生了初步的類別未知的檢測假設

  • 使用感興趣的區域檢測網絡處理這些數據,輸出最終的檢測結果

如圖2(a)所示,最簡單的解決多域檢測的方法是使用不依賴于每個數據集的檢測器,我們使用檢測器組作為多域檢測基線。

該解決方式很昂貴,因為這就需要給所有的檢測器幅值相同的參數。

圖3展示了11個檢測器的卷積激活后的統計分布(均值和方差),可以得到以下結論:

  • 第一,這些統計結果根據不同的數據集是不同的非平凡解,但 VOC 和 COCO 的激活分布是類似的,DOTA, DeepLesion 和 CrossDomain 的分布有較大的不同。
  • 第二,這些分布根據網絡層的不同而變化,前面的層比后面的層有更明顯的差異,他們負責校正區域偏移。這傾向于支持輸出層。它們負責將圖像分配到不同的類別,當然也會有所不同。有趣的是,這種行為也適用于RPN層,即使它們是獨立于類別的。
  • 第三,許多層具有跨數據集的類似統計信息。這對于中間層來說尤其如此,這表明它們至少可以由一些域共享。

3.3 自適應多域檢測器

受圖3的啟發,我們提出了一個適應域的檢測器,見圖2(b)。



該模型中,RPN 層的輸出是特定域的,其余的層(所有的卷積層)都是共享的。

然而,為了適應于新的域,我們引入了一些額外的 domain-specific layer,如 MDL 中那樣[40,1]。

這些額外的層應該是:

  • 有足夠的的能力來應對領域偏移
  • 足夠輕量,有最小化的參數和計算量

[40,1] 中的添加的層是依賴于 BN 層的,這實際上在檢測上是很難實施的,因為檢測任務的訓練中允許使用小的 batch size ,故檢測中 BN 層是被凍結的。

我們使用如圖4(a)所示的 squeeze-and-excitation(SE)模塊來代替上述的額外模塊。

原因如下:

  • 基于特征的注意力機制廣泛的應用于哺乳類視覺的目標識別和場景辨別,所以使用基于特征的注意力機制是很正常的。
  • SE 是一個模塊,用于解釋通道之間的相互依賴關系,以調節通道響應??杀豢闯梢粋€基于特征的注意力機制。
  • SE 模塊被用于 SENet,并且取得了 ImageNet 上最好的分類效果。
  • 本文網絡是一個輕量級模塊,即使添加到ResNet[14]的每個殘差塊中,它也只會使總參數計數增加約10%。這與[40]對基于bnb的適配器的報告非常接近。

基于上述原因,我們使用SE模塊作為適應單元,用于構建本文提出的所有域自適應檢測器,并用SE適配器表示。

3.4 SE 適配器

根據[15],SE 適配器由圖4(a)中所示的原件構成:

  • 全局池化層
  • 全連接層
  • RELU 層
  • 全連接層

公式化如下:

XSE=FSE(Favg(X))X_{SE}=F_{SE}(F_{avg}(X)) XSE?=FSE?(Favg?(X))

其中:

  • FavgF_{avg}Favg? 是全局平均池化
  • FSEF_{SE}FSE? 是結合了 FC+RELU+FC 的層

通道維數降低因子是 rrr,如圖4,該因子被設為16。

為了能夠進行多域目標檢測,SE 適配器被推廣為圖4(b)的結構,叫做 SE adapter bank

該結構是給每個域添加一個 SE adapter 分支和一個域間轉換器,允許選擇與感興趣域相關聯的SE adapter。

注意到,這個結構假設域的類別是先驗已知的,它導致了如2(b)的多域檢測器,與圖2(a)相比,該模型小了5倍,同時在 11 個數據集上實現了更好的整體性能。

4. 通用目標檢測器

前面所說的檢測器需要感興趣目標的先驗知識,但這會限制一些系統的效果,例如自動駕駛,其需要確定待解決的問題屬于哪個域。

本節中,我們考慮設計通用檢測器來解決該問題。

4.1 通用檢測器

最簡單的通用檢測器的設計如圖2(c)所示,其在所有的任務上共享單個檢測器。

該檢測器的輸出是特定域的,但我們可以發現使用特定任務的 RPN 層也是有好處的,如圖3所示。這不是一個難以解決的問題,因為需要檢測的物體類別通常是已知的。

通用性是指檢測器處理的輸入圖像的域,在圖2 ?中不需要知道。除了通用性之外,完全共享檢測器是最有效的解決方法,因為它沒有領域特定的參數。

另一方面,通過在所有域中強制使用相同的參數/表示集,處理圖3的統計變化幾乎沒有靈活性。

在我們的實驗中,該檢測器的性能通常低于圖2 (a)和(b)中的多域檢測器

4.2 Domain-attentive 通用檢測器

理想情況下,通用檢測器需要對域具有敏感性,并且要能夠適應不同的域。雖然這與多域檢測有很多共同點,但有兩個主要區別。

  • 其一,域的類別需要自行推斷
  • 其二,無需關聯特點的域和任務

例如,圖1中的交通任務是一個普通的視覺領域,“交通場景” 下有很多的子領域,如天氣條件、環境等,依賴于特定操作環境,任何任務都可以被當做任意一個域來解決。

實際上,這些域可能沒有明確的實例,即其可能是基于數據驅動的。這種情況下,不需要要求每個檢測器都在單個域中運行,而軟域分配更有意義。

考慮到所有這些,雖然仍然可以使用圖4 (a)中的SE適配器實現域適應,但是圖4 (b)中的硬注意機制(強制網絡完全關注單個域)可能不是最優的。為了解決這個限制,我們提出了圖5中的域適應(DA)模塊。它有兩個組件,一個通用SE適配器庫和一個域注意機制,這將在接下來進行討論

4.3 通用 SE 適配器組

通用 SE 適配器組如圖5所示,是由類似于圖4(b)所示的 SE adapter bank 構成的,其主要的不同在于沒有域轉換開關,也就是 SE adapter bank 是通用的。這是通過連接各個域適配器的輸出來實現的,以形成一個通用表示空間

XUSE=[XSE1,XSE2,...,XSEN]∈RC×NX_{USE}=[X_{SE}^1, X_{SE}^2, ..., X_{SE}^N] \in R^{C\times N}XUSE?=[XSE1?,XSE2?,...,XSEN?]RC×N

其中,N是適配器個數,XSEiX_{SE}^iXSEi? 是每個適配器的輸出,如公式(1)所示。

可以注意到,N 并非一定要和待檢測任務的個數一致,USE 適配器組可以被看成常用于信號處理的濾波器組的一個非線性泛化。

每個分支(非線性)沿著與特定域的統計信息匹配的子空間投影輸入。然后,注意力機制生成一組領域敏感的權重,用于以數據驅動的方式組合這些預測。在這種情況下,不需要預先知道操作域。事實上,可能不是單個的域,因為一個輸入圖像可以激發多個SE適配器分支。

4.4 域注意力

圖5中的注意力組件,產生了一系列對域敏感的權重,將 SE bank 的投影進行組合,受SE 模塊啟發,域注意力模塊首先對輸入特征圖使用一個全局的池化層,來移除空域維度,之后使用 softmax 層(線性層加 softmax 函數):

SDA=FDA(X)=softmax(WDAFavg(X))S_{DA}=F_{DA}(X)=softmax(W_{DA}F_{avg}(X))SDA?=FDA?(X)=softmax(WDA?Favg?(X))

其中,WDAW_{DA}WDA?是 softmax 層的權重矩陣,SDAS_{DA}SDA? 之后被用來權衡 USE bank 的輸出 XUSEX_{USE}XUSE?,來產量一個域激活響應:

XDA=XUSESDA∈RC×1X_{DA}=X_{USE} S_{DA} \in R^{C \times 1}XDA?=XUSE?SDA?RC×1

和 [15] 中的 SE 模型相同, 最后使用 XDAX_{DA}XDA? 對適應的激活 X∈RC×H×WX ∈ R^{C×H×W}XRC×H×W 進行通道重調:

X^=Fscale(X,σ(XDA))\hat X=F_{scale}(X, \sigma (X_{DA}))X^=Fscale?(X,σ(XDA?))

其中,Fscale(?)F_{scale}(\cdot)Fscale?(?) 是通道間的乘法,σ\sigmaσ 是 sigmoid 函數

用此方法, USE bank 能夠捕捉跨越所有域的特征子空間,DA 機制柔性傳遞了 USE 投影。

兩個操作都是數據驅動的,且沒有任何先驗知識。

不同于圖4(b)的硬性注意力機制,DA 模塊能夠進行域間信息分享,使得表達更加高效。

實驗中,域注意力通用檢測器比圖2中其他檢測器效果都好。

5. 實驗

所有的實驗都使用 PyTorch 來實現,使用 基于SE-RestNet-50 的在 ImageNet上預訓練的 Faster R-CNN 網絡作為 backbone。

訓練:

初始學習率:前 10 個迭代,學習率為 0.01,另外兩次迭代變為 0.001,
GPUs:8個同時工作,每個處理2個圖像

一個batch的數據來自于同一個dataset,每次迭代時,所有的數據都被進行了一次預處理。

和檢測過程相同,訓練時,第一層卷積層,第一個殘差模塊和所有的 BN 層都被凍結。

Faster R-CNN 有很多超參數,原文中的 網絡是在一個單個域中測試的,是目標數據集,獲得了好的效果。

以此來實現對 11 個類別的數據集進行分割有一定的難度,我們使用相同的超參數,除非這對性能非常重要且相對容易,例如選擇錨。表1顯示了主要的數據集特定超參數。

5.1 數據集和實驗驗證

我們使用 UODB 基準數據集來進行實驗。

對 Watercolor [17], Clipart [17], Comic [17], Kitchen [10] 和 DeepLesion [55],使用官方的 trainval 來訓練,使用 test 來測試。

對 Pascal VOC [6] 在 VOC2007 和 VOC2012 的 trainval 進行訓練,在 VOC2007 test 上進行測試。

對 WiderFace [58],在 train 上訓練,在 val 上測試。

對 KITTI[9] ,使用原本的train/val 劃分方法,在trainval 上訓練,在 test 上測試。

對 LISA[33],在 train 上訓練,在 val 上測試。

對 DOTA[53] ,使用和 [53] 相同的預處理,在train 上訓練,在 val 上測試。

對 MS-COCO[27],在 COCO 2014 valminusminival 上訓練,minival 測試。

所有的檢測器都是在每個數據集上單獨測試,PASCAL VOC mean average precision (mAP)被用于所有情況下的實驗評估。

average mAPs 被作為通用/多域檢測性能的總體度量。使用各數據集的官方評估工具對領域關注通用檢測器進行評估,并與文獻進行比較。

5.2 單域檢測

表1展示了單域檢測器組在圖2(a)中所有數據集的測試結果。

基于 SE-ResNet-50 的 VOC baseline 是78.5,比基于 ResNet-101 的Faster R-CNN 的76.4 要好。

表中的其他條目與文獻不可比擬,在文獻中,不同的評估指標/工具用于不同的數據集。檢測器組是多域檢測的一個較強基線(平均mAP為59.4)。

5.3 多域檢測

表2 對比了多域目標檢測性能。

為了簡化,本節只使用了五個數據集來進行實驗(VOC, KITTI, WiderFace, LISA和 Kitchen)。

多域檢測只增加了11M 的參數,比單域檢測的效果好 0.7 個點。注意,后者是一個強基線,表明多域檢測器可以用一小部分計算擊敗單獨訓練的模型。

表2還顯示,所提議的SE適配器的性能顯著優于[1]的BN適配器(BNA)和先前提議的用于分類的剩余適配器(RA)或[40]。鑒于上面討論的BN作為對象檢測的自適應機制的不足,這并不奇怪。


圖2 ?中的通用檢測器效率更高,僅為 Faster RCNN 增加 0.5M 的參數,考慮到領域特定的RPN和輸出層。然而,它的性能(表2中的“通用”)遠遠低于自適應多域檢測器(1.7點)。

最后,域注意力通用檢測器(“通用+DA”)具有最好的性能。每個域的參數增加約7%,也就是說,與多域檢測器相比,它的性能比單域bank基線高出1.6個百分點。

為了評估圖5 (b)中數據驅動的域注意機制的重要性,我們在訓練和推斷期間固定了軟域分配,簡單地平均SE適配器響應。

這(表示“universal+DA?”)導致性能下降0.5個點。

最后,表2顯示了五個數據集上的所有方法在域未知時的相對運行時間。

可以看出,“universal+DA”比多域檢測器(“single domain”和“adaptive”)快4倍左右,僅比“universal”慢1.33倍。

5.4 SE 適配器個數的影響

對于圖5 (b)的 USE bank,SE適配器的數量N不必與檢測任務的數量匹配。

表4總結了域注意力通用檢測器的性能和 N 的關系。

為簡便起見,我們在本實驗中再次使用了5個數據集。

對于一個單適配器,DA模塊簡化為標準SE模塊,域注意力的通用檢測器簡化為通用檢測器。這是最差的表現。適配器數量越多,性能越好。

另一方面,參數的數量與適配器的數量成線性關系。在這些實驗中,性能和參數之間的最佳權衡大約是5個適配器。

這表明,雖然一個好的經驗法則是使用“與域一樣多的適配器”,但是當復雜性較高時,可以使用更少的適配器。

5.5 在所有 benchmark 上的結果

表3呈現了在整個 benchmark 上的結果,參數設置如上,前10個迭代時學習率為0.1,之后的4次迭代學習率為0.01,在8個GPUs上進行實驗,每個 GPU 處理2個圖像。

通用檢測器和單域檢測器效果對比,通用檢測器參數比單域的少10倍。

域注意力通用檢測器(universal+DA)的性能比基準性能提升了 4.4 個點,參數量減少了5倍。

域注意力通用檢測器在DeepLesion、Comic和Clipart上有很大的性能提升(>5個點)。這是因為Comic/Clipart包含人口較為稀少的類,可以從其他領域的信息中獲益。

考慮到醫學CT圖像與其他數據集的RGB圖像之間的非平凡域轉移,DeepLesion的巨大增益是相當有趣的。

VOC、KITTI、Kitchen、WiderFace 和 WaterColor 的漲幅不大(1~5個點),COCO、LISA和DOTA的漲幅則為零。

相比之下,對于通用探測器來說,聯合訓練并不總是有益的。這說明了區域靈敏度對通用檢測的重要性。

為了研究圖5 (b)中的域注意模塊學習了什么,我們在圖6中展示了每個數據集的軟賦值(在其驗證集上取平均值)。

表中僅展示了第四和第五個殘差階段的的第一個和最后一個塊。

一些數據集,例如VOC和COCO,具有非常相似的分配分布,這一事實表明存在大量的領域重疊。

另一方面,DOTA 和 DeepLesion 的分布與其余的分布非常不同。

例如,在塊“DA_4_1”上,DeepLesion完全占用一個域。這些觀察結果與圖3一致,表明所提議的DA模塊能夠學習領域特定的知識。

比較每個剩余階段的第一個和最后一個塊,例如“DA 4 1”和“DA 4 6”,可以發現后者比前者對域的敏感性要低得多,這表明可以使它們具有普遍性。

為了驗證這個假設,我們為11個數據集訓練了一個只有6個SE適配器的模型,并且只在第一和中間塊中,例如“DA 4 1”和“DA 4 3”。

該模型“通用+DA*”比11個適配器的“通用+DA”檢測器參數少得多,性能最佳。它比單一領域基準高出4.5個百分點。

5.6 最終測試評估

本文的方法是第一個在 11 個數據集上進行目標檢測的方法,沒有與已有的方法來進行效果的對比,

因此,我們使用針對每個數據集的官方評估將表3中的“universal+DA*”檢測器與文獻進行了比較。

這是一個不公平的比較,因為通用檢測器必須記住11個任務。

在 VOC 上,我們訓練了兩個模型,有/沒有COCO。結果如表5a所示,其中所有方法均采用Pascal VOC 07+12 trainval進行訓練。

注意,我們的 Faster R-CNN基線(SEResNet-50主干)比[14](ResNet- 101)更強。
添加通用域適配器比基線提高了1.1個百分點以上。

添加COCO 能夠增加 3.1點。

注意:

  • 這種通用的訓練不同于[45]的訓練方案(以COCO為訓練對象,然后對VOC進行微調的網絡),[45]的訓練中,最終的模型只針對VOC進行優化

  • 僅使用COCO2014 valminusminival的35k張圖片。

  • 基線是默認的 Faster R-CNN,最初用于VOC,具有最小的數據集特定更改,如表1。

    表5e顯示,這在KITTI上執行得很弱。但是,添加適配器后,獲得6.4個點的提升(中等設置)。這類似于在KITTI上顯式優化的檢測器,例如MSCNN[2]和F-PointNet[39]。

    對于具有足夠訓練face實例的WiderFace,共享知識的收益更小(見表5b)。另一方面,在DeepLesion和cross - domain (Clipart、Comic和Watercolor)上,分別見表5c和表5d,領域關注通用檢測器的性能明顯優于目前的技術水平。

    總體而言,這些結果表明,在11個數據集上運行的單個檢測器,與VOC或KITTI等高度研究的數據集中的單域檢測器相比具有競爭力,并且顯著優于在較少研究領域中的最新技術。

    這是通過相對較小的參數增加實現的,遠遠小于部署11個單一任務檢測器所需的參數。

    6. 總結

    我們研究了未被探索和具有挑戰性的通用/多領域目標檢測問題。

    我們提出了一種不需要先驗領域知識的通用檢測器,它由一個活動于所有任務的單一網絡組成。

    該檢測器通過一個新的數據驅動的域自適應模塊實現了域敏感性,并在一個新建立的基準測試上表現出優于多個通用/多域檢測器,甚至優于針對單個任務優化的單個檢測器。

    總結

    以上是生活随笔為你收集整理的感知算法论文(十):Towards Universal Object Detection by Domain Attention(2019)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。