日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

感知算法论文(四):Mask Scoring R-CNN (2019)译文

發(fā)布時間:2023/12/15 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 感知算法论文(四):Mask Scoring R-CNN (2019)译文 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

    • 摘要
    • 1. 引言
    • 2. 相關工作
      • 2.1 實例分割
      • 2.2 檢測得分校正
    • 3. 方法
      • 3.1 動機
      • 3.2 Mask scoring in Mask R-CNN
    • 4. 實驗
      • 4.1 實驗細節(jié)
      • 4.2 定量結果分析
      • 4.3 消融學習
      • 4.4 討論
    • 5. 總結

摘要

實例分割的很多框架中,實例的分類置信度常被當做“mask質(zhì)量”的衡量指標

mask的質(zhì)量常被量化為 : 實例mask和真實mask的 IoU,而與分類置信度沒有很大的關聯(lián)

本文提出了 Mask Scoring R-CNN,包含一個網(wǎng)絡塊來學習預測得到的實例mask的質(zhì)量

本文網(wǎng)絡將 實例特征 和 對應的預測mask 綜合起來,來回歸 mask 的 IoU

Mask scoring 策略 將校正Mask 質(zhì)量和Mask score之間的偏差,在 COCO AP 評估過程中,通過優(yōu)先考慮 更準確的 mask 預測結果,來提高實例分割性能。

通過在COCO數(shù)據(jù)集上的大量評估,發(fā)現(xiàn) Mask Scoring R-CNN 可以為很多不同的模型帶來優(yōu)于最好的 Mask R-CNN的效果。

本文希望為提高實例分割性能提供一個新的方向

1. 引言

深度網(wǎng)絡極大的推動了計算機視覺的發(fā)展,使得分類[22,16,35]、目標檢測[12,17,32,27,33,34]和語義分割[28,4,37,18]等很多任務都得到了很大的發(fā)展。

從計算機視覺中深度學習的發(fā)展可以看出,深度網(wǎng)絡的能力正逐步從圖像水平預測[22]發(fā)展到區(qū)域/邊界框級預測[12]、像素級預測[28]和實例/Mask預測[15]。

所以,更好的預測性能不僅僅要求更多的帶詳細標簽的數(shù)據(jù),也需要更多能夠精細預測的網(wǎng)絡。

本文主要落腳點在實例分割問題,實例分割是目標檢測的下一步,也就是從粗邊界框尺度——精細像素尺度分類的問題。

也就是說,本文提出了一種對 實例分割假設 進行score的新方法,這對實例分割的評價很重要。

其原因是,很多評估方法是根據(jù)假設得分來確定的,故更精細的得分有助于更好的評估模型性能。

例如,P-R曲線和AP經(jīng)常被用來評估在COCO上的實例分割效果

如果一個實例分割的假設函數(shù)沒有被合適的給定得分,則它可能被錯誤的劃分為假正類或假負類,拉低AP值。

然而,很多實例分割方法,如 Mask R-CNN [15]和 MaskLab [3] 中,實例 mask 的得分是和邊界框尺度的分類置信度共用的,而分類置信度是分類器根據(jù)候選特征來預測得到的。

使用分類置信度作為衡量 mask 質(zhì)量的方式是不合適的,因為它僅僅能夠區(qū)分候選區(qū)域的物體屬于哪個語義類別,并沒有對實例質(zhì)量和實例mask完整性的衡量能力。

分類置信度和 mask 質(zhì)量的偏差如 Fig.1 所示,其中實例分割的假設函數(shù)得到了準確的邊界框尺度的定位結果,和高的分類得分,但是其對應的 mask 確不準確

顯而易見,利用這種方法對對 masks 進行scoring會降低評價結果。

之前的方法都是為了獲得更加準確的實例定位或分割 mask,本文的方法主要側重于對masks的 scoring。

為了達到該目標,本文模型對每個 mask 都會學到一個 score,而不是使用其分類 score 來代替,清晰起見,將其稱為 mask score。

受 AP 評估方法的啟發(fā),實例分割利用預測 mask 和 真實 mask 之間的像素級 IoU來描述實例分割的質(zhì)量,本文提出了一個網(wǎng)絡,可以直接學習IoU,且稱為 MaskIoU。

一旦在測試階段得到了預測 MaskIoU,則通過將 預測的 MaskIoU 和分類得分相乘 來重新評估 mask 得分。所以,mask 得分同時考慮語義類別和實例 mask的完整性。

學習 MaskIoU和候選區(qū)域分類、mask預測是不同的,它需要將預測 mask和目標特征進行比較。

在 Mask R-CNN框架中,我們實現(xiàn)了一個名為 MaskIoU head 的 MaskIoU 預測網(wǎng)絡。該網(wǎng)絡將mask head 和RoI 特征都作為輸入,使用簡單的回歸損失進行訓練。

將該模型命名為 “ 帶 MaskIoU head 的 Mask R-CNN ” —— Mask Scoring R-CNN (MS R-CNN)

后續(xù)將通過大量的實驗證明,MS R-CNN 在很多數(shù)據(jù)集上取得的很好的效果,我們將其歸因于 Mask 質(zhì)量和 Score 的結合。

總之,本文的貢獻如下:

1、提出了 Mask Scoring R-CNN,該框架是第一個解決實例分割假設評分問題的框架。為提高實例分割模型性能提供了一個新的方向。即考慮到實例 mask 的完整性,當分類得分很高但 mask 不夠好的時候,實例 mask 的得分可以被懲罰。

2、MaskIoU head 非常有效,在具有挑戰(zhàn)性的COCO數(shù)據(jù)集上實驗結果顯示, 當使用本文的MS R-CNN 時,使用不同的主干網(wǎng)絡都可以使 AP 得到約 1.5%的提高。

2. 相關工作

2.1 實例分割

目前的實例分割方法可以被大體分為兩類:

  • 基于檢測:

    利用最先進的檢測器,如Faster R-CNN、R-FCN等來獲得每個實例的取樣,之后預測其mask。

    [31]中提出了 DeepMask,對滑窗的中心目標進行分割和分類

    [6]中提出了對實例敏感(instance-sensitive)的FCNs 來生成 對位置敏感(position-sensitive)的maps,并將其綜合起來獲得最終的masks。

    FCIS[23]將 position-sensitive maps 和內(nèi)在/外在得分綜合起來來獲得實例分割的結果。

    [15]中提出了 Mask R-CNN,通過將實例水平的語義分割分支添加到 Faster R-CNN的頂部來獲得。

    [3]中在Mask R-CNN的基礎上,提出了MaskLab,使用position-sensitive的得分來獲得更好的結果。

    然而,這些網(wǎng)絡具有一個共同的缺點,mask 質(zhì)量是僅僅由分類得分來衡量的,不是很有效。

  • 基于分割:

    基于檢測的方法首先對每個像素點進行分類,然后將其歸類,來得到實例分割的結果。

    [24] 中使用特定的聚類方法來對像素進行聚類

    [20,21] 中,在聚類過程中添加了邊界檢測信息

    [1] 中預測像素級別的能量值,并且使用流性方法來聚類

    最近的工作中,[30,11,14,10] 使用度量學習方法來學習其合成方式。

    但是這些方法對每個像素進行合成的學習,來確定來自同一實例的像素點都進行相同的合成。 之后,根據(jù)學習到的合成方式進行聚類。

    這些方法都沒有特定的衡量實例mask質(zhì)量的標準,它們使用像素級的分類得分均值作為代替標準。

這些方法都沒有考慮到將 mask scoremask quality 進行結合

由于 mask score 的不可靠性,一個具有高IoU的mask 假設函數(shù),如果其mask score較低,則可能排到后面,導致AP降低。

2.2 檢測得分校正

針對校正檢測框的分類得分問題,已經(jīng)有了許多不同的方法,與本文的目標是相同的。

[36] 中,提出了 Fitneess NMS,利用檢測到的邊界框和真實邊界框的之間的IoU來校正檢測分數(shù),其將邊界框IoU的預測當做一個分類任務。

本文與之不同,本文將預測 mask IoU 的問題當做一個回個任務

[19] 中,提出了 IoU-Net,直接回歸 邊界框的 IoU,并用預測得到的 IoU 用于NMS和邊界框細化兩個任務。

[5] 中,作者討論了假陽性樣本,并使用一個單獨的網(wǎng)絡來對這些樣本進行校正。

SoftNMS[2]方法使用兩個邊界框之間的重疊率來校正低得分的框

[29] 中提出了 Relaxed Softmax 方法來預測標準softmax中的溫度尺度因子值,來用于safety-critical 行人檢測。

不同于上述方法,本文主要關注b-box級別的檢測,本文方法是用于實例分割的。

MaskIoU head 中對實例mask進行了進一步處理,且最終的mask score可以反映實例分割假設的真實質(zhì)量,為提高實例分割性能提供了一個新的方向。

3. 方法

3.1 動機

當前的 Mask R-CNN框架中,檢測的得分是由分類得分的最大值決定的。

由于背景、光照等干擾,可能會導致分類得分很高到mask quality 較低,如圖1所示。

為了定量的分析該問題,我們將Mask R-CNN 預測的 mask score 和真實IoU(MaskIoU)進行了比較。

具體來講,使用了Mask R-CNN和ResNet-18 FPN對COCO 2017驗證數(shù)據(jù)集進行實驗。

利用SoftNMS進行檢測假設函數(shù)的選擇,保留 MaskIoU和分類得分都大于0.5的。

MaskIoU 和分類得分的分布如圖2(a)所示

每個MaskIoU在間隔內(nèi)的平均分類得分如圖3?的藍色所示

圖說明分類得分和 MaskIoU 在 Mask R-CNN 中并沒有很大的關聯(lián)

一般的實例分割評估方法中,認為 MaskIoU 較低且得分較高檢測假設函數(shù)是有害的。

在很多實際應用中,確定什么時候檢測結果是可信,什么時候是不可信的是很重要的

這就 motivates 我們對每個檢測假設都要學習到一個校正 mask score

不失一般性,我們研究了Mask R-CNN框架,并提出了Mask Score R-CNN (MS R-CNN),這是一個帶有附加MaskIoU模塊的MaskR-CNN,該模塊學習MaskIoU aligned mask score

我們框架的預測Mask得分如圖2 (b)所示,橙色直方圖如圖2 ?所示。

3.2 Mask scoring in Mask R-CNN

Mask Scoring R-CNN的結構并不復雜:具有 MaskIoU head 的 Mask R-CNN,如圖3所示

MaskIoU head 輸入: 實例特征+預測的mask

MaskIoU head 輸出: 輸入 mask 和真實 mask 的 IoU

Mask R-CNN:

Mask R-CNN由兩級組成,第一級是RPN,提議候選區(qū)域,第二級是R-CNN級,其對每個候選區(qū)域使用 RoIAlign,且對候選區(qū)域進行分類、b-box回歸和mask預測

Mask scoring:

smasks_{mask}smask? :預測的 mask 的得分

理想 smasks_{mask}smask? :預測的mask和與其匹配的真實mask的像素級的IoU,稱為 MaskIoU。對真實類別是正值,其余類別是0,因為一個mask僅僅屬于一個類別。

這需要mask score在兩個方面做的較好:

  • 將mask分類到正確的類別
  • 回歸前景目標類別的候選框 MaskIoU

使用單個的目標函數(shù)難以同時解決兩個問題,為了簡化,我們將 mask score 學習的任務分解成兩個任務:mask 分類 + IoU 回歸

對所有的目標類別都有:smask=scls?sious_{mask}=s_{cls}\cdot s_{iou}smask?=scls??siou?

  • scls:s_{cls}:scls?主要對候選區(qū)域分類,這個過程是在R-CNN階段的分類任務完成的,所以可以直接拿對應的分類得分來用
  • siou:s_{iou}:siou?主要對MaskIoU回歸,這也是本文的主要目的,下面將詳細介紹。

MaskIoU head:

MaskIoU head 主要對預測 mask 和真實 mask的IoU進行回歸

MaskIoU head的輸入:RoIAlign 層的輸出特征+預測的 mask

對兩者進行聯(lián)合時,使用最大池化來保證預測mask和RoI特征大小相同,池化核大小為2,移動步長為2。

本文只對真實類別的 MaskIoU進行回歸,而非對全部類別都進行回歸。

MaskIoU head的組成:4個卷積層+3個全連接層

對卷積層,和Mask head一樣,將所有的卷積核大小設置為3,數(shù)量設置為256

對全連接層,和 RCNN head一樣,前兩個FC輸出為1024,最后一個FC輸出為總類別個數(shù)。

Training:

訓練 MaskIoU head,我們將 PRN proposal 作為訓練樣本

訓練樣本的IoU(提議框和與其match的真實框的IoU)要大于0.5,這個要求和 Mask head 與 Mask R-CNN的要求相同。

為了給每個訓練樣本都生成回歸目標,首先獲得目標類別的預測mask,并利用0.5對其進行二值化。

之后,使用二值mask和其匹配的真實mask的MaskIoU作為MaskIoU 的目標值

使用L2損失對MaskIoU進行回歸,損失權重設置為1,

本文提出的MaskIoU head將集成到 Mask R-CNN結構中去,整個網(wǎng)絡進行端到端的訓練。

Inference:

推斷階段中,本文使用 MaskIoU head來校正從 R-CNN 產(chǎn)生的分類得分

Mask R-CNN的過程:

假設 Mask R-CNN的 R-CNN 階段輸出 N 個b-box,且利用softNMS 后選擇前 top-k 個作為保留。之后,將這top-k個b-box輸入 Mask分支產(chǎn)生預測的mask

本文過程:

1)R-CNN分支輸出N個預測的邊界框,利用SoftNMS對其進行選擇,保留得分前top-k的框

2)將前top-k的框輸入 R-CNN的Mask 分支,得到預測mask

3)將RoI feature map 和mask送入MaskIoU,得到預測的mask IoU

4)將預測的mask IoU和分類置信得分相乘得到 mask score

4. 實驗

所有實驗均在COCO數(shù)據(jù)集[26]上進行,對象類別80個。

遵循COCO 2017設置,使用115k圖像訓練分割進行訓練,5k驗證分割進行驗證,20k測試開發(fā)分割進行測試。

使用COCO評估指標AP(平均超過IoU閾值)報告結果,包括AP@0.5、AP@0.75和APS、APM、APL(不同規(guī)模的AP)。

AP@0.5(或AP@0.75)表示使用IoU閾值0.5(或0.75)來確定在評估中預測的邊框或Mask是否為正。

除非特別說明,AP使用mask IoU進行評估。

4.1 實驗細節(jié)

本文使用再現(xiàn)的Mask R-CNN進行所有實驗。我們使用基于ResNet-18的FPN網(wǎng)絡進行消融研究,使用基于Faster RCNN/FPN/DCN+FPN[9]的ResNet-18/50/101與其他基線結果進行比較。

對于resnet - 18fpn,輸入圖像將大小調(diào)整為短軸為600px,長為最大1000px,以便訓練和測試。

與標準FPN[25]不同,ResNet-18中RPN方案和feature extractor只使用C4, C5。對于ResNet-50/101,輸入圖像的短軸調(diào)整為800px,長軸調(diào)整為1333px,用于訓練和測試。

ResNet-50/101的其余配置遵循檢測器[13]。我們對所有網(wǎng)絡進行18次訓練,在14次和17次訓練后,學習率降低0.1倍。

使用動量0.9同步SGD進行參數(shù)更新。在測試中,我們使用SoftNMS并保留每個圖像的top-100得分的檢測結果。

4.2 定量結果分析

本文在ResNet-18/50/101等不同的backbone網(wǎng)絡和Faster R-CNN/FPN/DCN+FPN [9]等不同的框架上展示實驗結果。如表1、表2所示。

使用APm來表示實例分割結果,APb表示檢測結果。

如表1所示,與Mask R-CNN相比,Mask R-CNN對backbone不敏感,能夠在所有backbone網(wǎng)上實現(xiàn)穩(wěn)定的效果:Mask R-CNN能夠得到顯著的改善(約1.5 AP)。特別是對于AP@0.75,本文方法可以將基線提高2個點左右。

表2表明,Mask R-CNN對不同的框架具有魯棒性,包括 Faster R-CNN/FPN/DCN+FPN 。

此外,Mask R-CNN不影響邊框檢測性能,且它實際上略微提高了邊界框檢測性能。test-dev的結果如表3所示,僅展示了實例分割結果。

4.3 消融學習

此處將本文方法在COCO 2017上進行驗證,實驗ResNet-18 FPN進行所有消融學習實驗

MaskIoU head 的輸入的選擇:

首先研究了MaskIoU head的輸入不同為網(wǎng)絡帶來的影響。其輸入是將由 mask head和RoI feature產(chǎn)生的mask score map(28x28xC)融合而來。

圖4展示了不同的設計方法:

(1)目標mask和RoI feature的拼接:取目標類別的得分map,與RoI feature進行max-pooled,并拼接。

(2)目標mask和RoI feature相乘:取目標類別的得分map,與RoI feature進行max-pooled,并相乘。

(3)所有mask和RoI feature相乘:所有的C個類別的mask得分map,與RoI feature進行max-pooled,并拼接。

(4)目標mask和高分辨率RoI feature拼接:取目標類別的得分map,與28x28大小的RoI feature進行相乘。

結果如表4所示,從中可知,MaskIoU head對不同方式的融合都是較為穩(wěn)定的

從表中可知拼接取得的效果更好,故本文使用拼接方式進行融合。

訓練目標的選擇:

與之前提到的相同,本文將mask score 學習任務分解成 mask 分類和 MaskIoU 的回歸。

但是有如下問題:

  • 可以直接學習到mask score嗎?
  • 一個RoI可能包含不同類別的目標,需要對所有類別都學習 MaskIoU嗎?
  • 如何設定 MaskIoU head的訓練目標仍然需要探索

下面是針對訓練目標的一些可選方式:

(1)學習目標類別的MaskIoU,同時忽略提議中的其他類別,這也是被默認的訓練目標,同時也是本段所有實驗的方式。

(2)學習所有類別的MaskIoU,如果某個類別沒有出現(xiàn)在 RoI中,其 目標 MaskIoU被設置為0,該設定方式僅僅使用回歸來預測MaskIoU,這需要回歸器知道哪些不相關的類不在其中。

(3)對所有正類學習MaskIoU,其中正類意味著出現(xiàn)在RoI區(qū)域中的類別。提取區(qū)域中的其他類別被忽略。該設置方式被用來觀察是否用RoI 區(qū)域中其他類別可以使結果更好。

表5給出了上述不同訓練目標所獲得的結果。

通過對比設置1和設置2,我們可以發(fā)現(xiàn)訓練所有類別的MaskIoU會顯著降低新能(回歸僅基于MaskIoU預測),這也證實了我們的觀點——使用單一目標函數(shù)進行訓練分類和回歸是困難的。

setting #3比 setting #1 的結果低,這樣的結果是由于對所有正例 MaskIoU 的回歸會使得 MaskIoU head的負擔加重,所以本文選擇回歸目標類別的 MaskIoU。

如何設定訓練集:

由于本文提出的MaskIoU head是 Mask R-CNN 結構的最頂部分,所以MaskIoU head的所有訓練樣本都是邊界框水平的IoU大于0.5的,然鵝,其MaskIoU不能超過0.5。

給定一個閾值 τ\tauτ,本文將 MaskIoU 比 τ\tauτ 大的樣本作為訓練MaskIoU head的樣本,表6展示了結果。結果表明使用所有實例的訓練效果最好。

4.4 討論

本節(jié)討論中的所有結果都源于 COCO 2017 驗證集

backbone:

  • 較弱的 backbone ResNet-18 FPN
  • 較強的backbone ResNet-101 DCN+FPN

預測的 MaskIoU 的質(zhì)量:

本文使用真實 MaskIoU 和預測 MaskIoU 的相關系數(shù)來度量 預測 MaskIoU的質(zhì)量

回到測試過程,本文使用經(jīng)過softNMS利用分類得分選擇后的top-100得分的邊界框,將預測邊界框輸入 Mask head,并且得到預測 mask,之后使用預測 mask和RoI feature作為MaskIoU head的輸入。

MaskIoU head的輸出和分類得分經(jīng)過融合后得到最終的mask score

在COCO 2017驗證數(shù)據(jù)集中,我們?yōu)槊繌垐D像保留100張預測MaskIoU,從所有5000張圖像中收集50萬個預測。

圖5中繪制了每個預測及其對應真值

可以看到,MaskIoU的預測與它們的ground truth有很好的相關性,尤其是對于MaskIoU較高的預測。

以ResNet-18 FPN 和 ResNet-101 DCN+FPN作為backbone時,預測和真實的相關系數(shù)在0.74左右。

這表明,預測的質(zhì)量對backbone網(wǎng)的變化不敏感。這一結論也與表1一致。

由于之前沒有對MaskIoU進行預測的方法,我們參考了之前[19]對IoU邊界框進行預測的工作。[19]得到的相關系數(shù)為0.617,低于我們的相關系數(shù)。

MS R-CNN 的上界(upper bound):

作者使用真實的MaskIoU預測的MaskIoU之間的相關系數(shù)來衡量預測mask的質(zhì)量

下圖展示了預測值和真值的關系,可知其有較好的相關性,且MaskIoU值越高,相關性越大

如何探索性能上界:利用真實的mask代替預測的mask,則mask質(zhì)量的差別就僅僅來自于邊界框的準確性和MaskIoU的預測結果,

對于每個預測的mask,我們可以發(fā)現(xiàn),其與真實mask可以匹配,之后,當真實 MaskIoU >0 時,我們使用真實 MaskIoU 來代替預測 MaskIoU,結果見表7。

結果表明, MS R-CNN 比 Mask R-CNN的表現(xiàn)都好。

與MS R-CNN的理想預測結果相比,MS R-CNN的實際應用效果仍有較大的提升空間,backbone 為 ResNet-18 FPN 時,可以將 AP 提升約2.2%,當backbone為ResNet-101 DCN+FPN 時,可以將AP提升約2.6%。

模型大小和運行時間:

MaskIoU head可實現(xiàn)0.39G的FLOPs, Mask head可實現(xiàn)0.53G的FLOPs。

我們使用一個TITAN V GPU來測試速度(秒/圖像)。對于ResNet-18 FPN, Mask R-CNN和MS R-CNN的速度都在0.132左右。

ResNet-101 DCN+FPN Mask R-CNN和MS R-CNN的速度都在0.202左右。Mask Score R-CNN中mask head的計算成本可以忽略不計。

5. 總結

本文研究了實例分割中mask得分問題,并提出了 MS R-CNN

通過給 Mask R-CNN 添加 MaskIoU head,對mask的得分和 MaskIoU結合起來進行預測,不同于以往的實例分割框架。

MaskIoU head 計算高效且易于實現(xiàn)

在 COCO 基準上,大量的實驗表明 MS R-CNN 都可以獲得優(yōu)于 Mask R-CNN的效果。

該結構同樣可以用于其他實例分割網(wǎng)絡,來獲得更加可靠的mask 得分

本文希望本文所提出的高效方式為實例分割任務提供一個基準,并為后續(xù)的探索提供幫助。

總結

以上是生活随笔為你收集整理的感知算法论文(四):Mask Scoring R-CNN (2019)译文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。