當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

感知算法论文（四）：Mask Scoring R-CNN （2019）译文

發(fā)布時間：2023/12/15 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了感知算法论文（四）：Mask Scoring R-CNN （2019）译文小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

- 摘要
- 1. 引言
- 2. 相關工作
- - 2.1 實例分割
  - 2.2 檢測得分校正
- 3. 方法
- - 3.1 動機
  - 3.2 Mask scoring in Mask R-CNN
- 4. 實驗
- - 4.1 實驗細節(jié)
  - 4.2 定量結果分析
  - 4.3 消融學習
  - 4.4 討論
- 5. 總結

摘要

實例分割的很多框架中，實例的分類置信度常被當做“mask質(zhì)量”的衡量指標

mask的質(zhì)量常被量化為： 實例mask和真實mask的 IoU，而與分類置信度沒有很大的關聯(lián)

本文提出了 Mask Scoring R-CNN，包含一個網(wǎng)絡塊來學習預測得到的實例mask的質(zhì)量

本文網(wǎng)絡將實例特征和對應的預測mask 綜合起來，來回歸 mask 的 IoU

Mask scoring 策略 將校正Mask 質(zhì)量和Mask score之間的偏差，在 COCO AP 評估過程中，通過優(yōu)先考慮更準確的 mask 預測結果，來提高實例分割性能。

通過在COCO數(shù)據(jù)集上的大量評估，發(fā)現(xiàn) Mask Scoring R-CNN 可以為很多不同的模型帶來優(yōu)于最好的 Mask R-CNN的效果。

本文希望為提高實例分割性能提供一個新的方向

1. 引言

深度網(wǎng)絡極大的推動了計算機視覺的發(fā)展，使得分類[22,16,35]、目標檢測[12,17,32,27,33,34]和語義分割[28,4,37,18]等很多任務都得到了很大的發(fā)展。

從計算機視覺中深度學習的發(fā)展可以看出，深度網(wǎng)絡的能力正逐步從圖像水平預測[22]發(fā)展到區(qū)域/邊界框級預測[12]、像素級預測[28]和實例/Mask預測[15]。

所以，更好的預測性能不僅僅要求更多的帶詳細標簽的數(shù)據(jù)，也需要更多能夠精細預測的網(wǎng)絡。

本文主要落腳點在實例分割問題，實例分割是目標檢測的下一步，也就是從粗邊界框尺度——精細像素尺度分類的問題。

也就是說，本文提出了一種對實例分割假設進行score的新方法，這對實例分割的評價很重要。

其原因是，很多評估方法是根據(jù)假設得分來確定的，故更精細的得分有助于更好的評估模型性能。

例如，P-R曲線和AP經(jīng)常被用來評估在COCO上的實例分割效果

如果一個實例分割的假設函數(shù)沒有被合適的給定得分，則它可能被錯誤的劃分為假正類或假負類，拉低AP值。

然而，很多實例分割方法，如 Mask R-CNN [15]和 MaskLab [3] 中，實例 mask 的得分是和邊界框尺度的分類置信度共用的，而分類置信度是分類器根據(jù)候選特征來預測得到的。

使用分類置信度作為衡量 mask 質(zhì)量的方式是不合適的，因為它僅僅能夠區(qū)分候選區(qū)域的物體屬于哪個語義類別，并沒有對實例質(zhì)量和實例mask完整性的衡量能力。

分類置信度和 mask 質(zhì)量的偏差如 Fig.1 所示，其中實例分割的假設函數(shù)得到了準確的邊界框尺度的定位結果，和高的分類得分，但是其對應的 mask 確不準確

顯而易見，利用這種方法對對 masks 進行scoring會降低評價結果。

之前的方法都是為了獲得更加準確的實例定位或分割 mask，本文的方法主要側重于對masks的 scoring。

為了達到該目標，本文模型對每個 mask 都會學到一個 score，而不是使用其分類 score 來代替，清晰起見，將其稱為 mask score。

受 AP 評估方法的啟發(fā)，實例分割利用預測 mask 和真實 mask 之間的像素級 IoU來描述實例分割的質(zhì)量，本文提出了一個網(wǎng)絡，可以直接學習IoU，且稱為 MaskIoU。

一旦在測試階段得到了預測 MaskIoU，則通過將 預測的 MaskIoU 和分類得分相乘 來重新評估 mask 得分。所以，mask 得分同時考慮語義類別和實例 mask的完整性。

學習 MaskIoU和候選區(qū)域分類、mask預測是不同的，它需要將預測 mask和目標特征進行比較。

在 Mask R-CNN框架中，我們實現(xiàn)了一個名為 MaskIoU head 的 MaskIoU 預測網(wǎng)絡。該網(wǎng)絡將mask head 和RoI 特征都作為輸入，使用簡單的回歸損失進行訓練。

將該模型命名為 “ 帶 MaskIoU head 的 Mask R-CNN ” —— Mask Scoring R-CNN (MS R-CNN)

后續(xù)將通過大量的實驗證明，MS R-CNN 在很多數(shù)據(jù)集上取得的很好的效果，我們將其歸因于 Mask 質(zhì)量和 Score 的結合。

總之，本文的貢獻如下：

1、提出了 Mask Scoring R-CNN，該框架是第一個解決實例分割假設評分問題的框架。為提高實例分割模型性能提供了一個新的方向。即考慮到實例 mask 的完整性，當分類得分很高但 mask 不夠好的時候，實例 mask 的得分可以被懲罰。

2、MaskIoU head 非常有效，在具有挑戰(zhàn)性的COCO數(shù)據(jù)集上實驗結果顯示，當使用本文的MS R-CNN 時，使用不同的主干網(wǎng)絡都可以使 AP 得到約 1.5%的提高。

2. 相關工作

2.1 實例分割

目前的實例分割方法可以被大體分為兩類：

基于檢測：

利用最先進的檢測器，如Faster R-CNN、R-FCN等來獲得每個實例的取樣，之后預測其mask。

[31]中提出了 DeepMask，對滑窗的中心目標進行分割和分類

[6]中提出了對實例敏感（instance-sensitive）的FCNs 來生成對位置敏感（position-sensitive）的maps，并將其綜合起來獲得最終的masks。

FCIS[23]將 position-sensitive maps 和內(nèi)在/外在得分綜合起來來獲得實例分割的結果。

[15]中提出了 Mask R-CNN，通過將實例水平的語義分割分支添加到 Faster R-CNN的頂部來獲得。

[3]中在Mask R-CNN的基礎上，提出了MaskLab，使用position-sensitive的得分來獲得更好的結果。

然而，這些網(wǎng)絡具有一個共同的缺點，mask 質(zhì)量是僅僅由分類得分來衡量的，不是很有效。
基于分割：

基于檢測的方法首先對每個像素點進行分類，然后將其歸類，來得到實例分割的結果。

[24] 中使用特定的聚類方法來對像素進行聚類

[20,21] 中，在聚類過程中添加了邊界檢測信息

[1] 中預測像素級別的能量值，并且使用流性方法來聚類

最近的工作中，[30,11,14,10] 使用度量學習方法來學習其合成方式。

但是這些方法對每個像素進行合成的學習，來確定來自同一實例的像素點都進行相同的合成。之后，根據(jù)學習到的合成方式進行聚類。

這些方法都沒有特定的衡量實例mask質(zhì)量的標準，它們使用像素級的分類得分均值作為代替標準。

這些方法都沒有考慮到將 mask score 和 mask quality 進行結合

由于 mask score 的不可靠性，一個具有高IoU的mask 假設函數(shù)，如果其mask score較低，則可能排到后面，導致AP降低。

2.2 檢測得分校正

針對校正檢測框的分類得分問題，已經(jīng)有了許多不同的方法，與本文的目標是相同的。

[36] 中，提出了 Fitneess NMS，利用檢測到的邊界框和真實邊界框的之間的IoU來校正檢測分數(shù)，其將邊界框IoU的預測當做一個分類任務。

本文與之不同，本文將預測 mask IoU 的問題當做一個回個任務

[19] 中，提出了 IoU-Net，直接回歸邊界框的 IoU，并用預測得到的 IoU 用于NMS和邊界框細化兩個任務。

[5] 中，作者討論了假陽性樣本，并使用一個單獨的網(wǎng)絡來對這些樣本進行校正。

SoftNMS[2]方法使用兩個邊界框之間的重疊率來校正低得分的框

[29] 中提出了 Relaxed Softmax 方法來預測標準softmax中的溫度尺度因子值，來用于safety-critical 行人檢測。

不同于上述方法，本文主要關注b-box級別的檢測，本文方法是用于實例分割的。

MaskIoU head 中對實例mask進行了進一步處理，且最終的mask score可以反映實例分割假設的真實質(zhì)量，為提高實例分割性能提供了一個新的方向。

3. 方法

3.1 動機

當前的 Mask R-CNN框架中，檢測的得分是由分類得分的最大值決定的。

由于背景、光照等干擾，可能會導致分類得分很高到mask quality 較低，如圖1所示。

為了定量的分析該問題，我們將Mask R-CNN 預測的 mask score 和真實IoU（MaskIoU）進行了比較。

具體來講，使用了Mask R-CNN和ResNet-18 FPN對COCO 2017驗證數(shù)據(jù)集進行實驗。

利用SoftNMS進行檢測假設函數(shù)的選擇，保留 MaskIoU和分類得分都大于0.5的。

MaskIoU 和分類得分的分布如圖2(a)所示

每個MaskIoU在間隔內(nèi)的平均分類得分如圖3?的藍色所示

圖說明分類得分和 MaskIoU 在 Mask R-CNN 中并沒有很大的關聯(lián)

一般的實例分割評估方法中，認為 MaskIoU 較低且得分較高檢測假設函數(shù)是有害的。

在很多實際應用中，確定什么時候檢測結果是可信，什么時候是不可信的是很重要的

這就 motivates 我們對每個檢測假設都要學習到一個校正 mask score

不失一般性，我們研究了Mask R-CNN框架，并提出了Mask Score R-CNN (MS R-CNN)，這是一個帶有附加MaskIoU模塊的MaskR-CNN，該模塊學習MaskIoU aligned mask score

我們框架的預測Mask得分如圖2 (b)所示，橙色直方圖如圖2 ?所示。

3.2 Mask scoring in Mask R-CNN

Mask Scoring R-CNN的結構并不復雜：具有 MaskIoU head 的 Mask R-CNN，如圖3所示

MaskIoU head 輸入： 實例特征+預測的mask

MaskIoU head 輸出： 輸入 mask 和真實 mask 的 IoU

Mask R-CNN：

Mask R-CNN由兩級組成，第一級是RPN，提議候選區(qū)域，第二級是R-CNN級，其對每個候選區(qū)域使用 RoIAlign，且對候選區(qū)域進行分類、b-box回歸和mask預測

Mask scoring：

$s_{mask}$ ：預測的 mask 的得分

理想 $s_{mask}$ ：預測的mask和與其匹配的真實mask的像素級的IoU，稱為 MaskIoU。對真實類別是正值，其余類別是0，因為一個mask僅僅屬于一個類別。

這需要mask score在兩個方面做的較好：

將mask分類到正確的類別
回歸前景目標類別的候選框 MaskIoU

使用單個的目標函數(shù)難以同時解決兩個問題，為了簡化，我們將 mask score 學習的任務分解成兩個任務：mask 分類 + IoU 回歸

對所有的目標類別都有： $smask=scls?sious_{mask}=s_{cls}\cdot s_{iou}$

$s_{cls}：$ 主要對候選區(qū)域分類，這個過程是在R-CNN階段的分類任務完成的，所以可以直接拿對應的分類得分來用
$s_{iou}：$ 主要對MaskIoU回歸，這也是本文的主要目的，下面將詳細介紹。

MaskIoU head：

MaskIoU head 主要對預測 mask 和真實 mask的IoU進行回歸

MaskIoU head的輸入：RoIAlign 層的輸出特征+預測的 mask

對兩者進行聯(lián)合時，使用最大池化來保證預測mask和RoI特征大小相同，池化核大小為2，移動步長為2。

本文只對真實類別的 MaskIoU進行回歸，而非對全部類別都進行回歸。

MaskIoU head的組成：4個卷積層+3個全連接層

對卷積層，和Mask head一樣，將所有的卷積核大小設置為3，數(shù)量設置為256

對全連接層，和 RCNN head一樣，前兩個FC輸出為1024，最后一個FC輸出為總類別個數(shù)。

Training：

訓練 MaskIoU head，我們將 PRN proposal 作為訓練樣本

訓練樣本的IoU（提議框和與其match的真實框的IoU）要大于0.5，這個要求和 Mask head 與 Mask R-CNN的要求相同。

為了給每個訓練樣本都生成回歸目標，首先獲得目標類別的預測mask，并利用0.5對其進行二值化。

之后，使用二值mask和其匹配的真實mask的MaskIoU作為MaskIoU 的目標值

使用L2損失對MaskIoU進行回歸，損失權重設置為1,

本文提出的MaskIoU head將集成到 Mask R-CNN結構中去，整個網(wǎng)絡進行端到端的訓練。

Inference：

推斷階段中，本文使用 MaskIoU head來校正從 R-CNN 產(chǎn)生的分類得分

Mask R-CNN的過程：

假設 Mask R-CNN的 R-CNN 階段輸出 N 個b-box，且利用softNMS 后選擇前 top-k 個作為保留。之后，將這top-k個b-box輸入 Mask分支產(chǎn)生預測的mask

本文過程：

1）R-CNN分支輸出N個預測的邊界框，利用SoftNMS對其進行選擇，保留得分前top-k的框

2）將前top-k的框輸入 R-CNN的Mask 分支，得到預測mask

3）將RoI feature map 和mask送入MaskIoU，得到預測的mask IoU

4）將預測的mask IoU和分類置信得分相乘得到 mask score

4. 實驗

所有實驗均在COCO數(shù)據(jù)集[26]上進行，對象類別80個。

遵循COCO 2017設置，使用115k圖像訓練分割進行訓練，5k驗證分割進行驗證，20k測試開發(fā)分割進行測試。

使用COCO評估指標AP(平均超過IoU閾值)報告結果，包括AP@0.5、AP@0.75和APS、APM、APL(不同規(guī)模的AP)。

AP@0.5(或AP@0.75)表示使用IoU閾值0.5(或0.75)來確定在評估中預測的邊框或Mask是否為正。

除非特別說明，AP使用mask IoU進行評估。

4.1 實驗細節(jié)

本文使用再現(xiàn)的Mask R-CNN進行所有實驗。我們使用基于ResNet-18的FPN網(wǎng)絡進行消融研究，使用基于Faster RCNN/FPN/DCN+FPN[9]的ResNet-18/50/101與其他基線結果進行比較。

對于resnet - 18fpn，輸入圖像將大小調(diào)整為短軸為600px，長為最大1000px，以便訓練和測試。

與標準FPN[25]不同，ResNet-18中RPN方案和feature extractor只使用C4, C5。對于ResNet-50/101，輸入圖像的短軸調(diào)整為800px，長軸調(diào)整為1333px，用于訓練和測試。

ResNet-50/101的其余配置遵循檢測器[13]。我們對所有網(wǎng)絡進行18次訓練，在14次和17次訓練后，學習率降低0.1倍。

使用動量0.9同步SGD進行參數(shù)更新。在測試中，我們使用SoftNMS并保留每個圖像的top-100得分的檢測結果。

4.2 定量結果分析

本文在ResNet-18/50/101等不同的backbone網(wǎng)絡和Faster R-CNN/FPN/DCN+FPN [9]等不同的框架上展示實驗結果。如表1、表2所示。

使用APm來表示實例分割結果，APb表示檢測結果。

如表1所示，與Mask R-CNN相比，Mask R-CNN對backbone不敏感，能夠在所有backbone網(wǎng)上實現(xiàn)穩(wěn)定的效果：Mask R-CNN能夠得到顯著的改善(約1.5 AP)。特別是對于AP@0.75，本文方法可以將基線提高2個點左右。

表2表明，Mask R-CNN對不同的框架具有魯棒性，包括 Faster R-CNN/FPN/DCN+FPN 。

此外，Mask R-CNN不影響邊框檢測性能，且它實際上略微提高了邊界框檢測性能。test-dev的結果如表3所示，僅展示了實例分割結果。

4.3 消融學習

此處將本文方法在COCO 2017上進行驗證，實驗ResNet-18 FPN進行所有消融學習實驗

MaskIoU head 的輸入的選擇：

首先研究了MaskIoU head的輸入不同為網(wǎng)絡帶來的影響。其輸入是將由 mask head和RoI feature產(chǎn)生的mask score map（28x28xC）融合而來。

圖4展示了不同的設計方法：

（1）目標mask和RoI feature的拼接：取目標類別的得分map，與RoI feature進行max-pooled，并拼接。

（2）目標mask和RoI feature相乘：取目標類別的得分map，與RoI feature進行max-pooled，并相乘。

（3）所有mask和RoI feature相乘：所有的C個類別的mask得分map，與RoI feature進行max-pooled，并拼接。

（4）目標mask和高分辨率RoI feature拼接：取目標類別的得分map，與28x28大小的RoI feature進行相乘。

結果如表4所示，從中可知，MaskIoU head對不同方式的融合都是較為穩(wěn)定的

從表中可知拼接取得的效果更好，故本文使用拼接方式進行融合。

訓練目標的選擇：

與之前提到的相同，本文將mask score 學習任務分解成 mask 分類和 MaskIoU 的回歸。

但是有如下問題：

可以直接學習到mask score嗎？
一個RoI可能包含不同類別的目標，需要對所有類別都學習 MaskIoU嗎？
如何設定 MaskIoU head的訓練目標仍然需要探索

下面是針對訓練目標的一些可選方式：

（1）學習目標類別的MaskIoU，同時忽略提議中的其他類別，這也是被默認的訓練目標，同時也是本段所有實驗的方式。

（2）學習所有類別的MaskIoU，如果某個類別沒有出現(xiàn)在 RoI中，其目標 MaskIoU被設置為0，該設定方式僅僅使用回歸來預測MaskIoU，這需要回歸器知道哪些不相關的類不在其中。

（3）對所有正類學習MaskIoU，其中正類意味著出現(xiàn)在RoI區(qū)域中的類別。提取區(qū)域中的其他類別被忽略。該設置方式被用來觀察是否用RoI 區(qū)域中其他類別可以使結果更好。

表5給出了上述不同訓練目標所獲得的結果。

通過對比設置1和設置2，我們可以發(fā)現(xiàn)訓練所有類別的MaskIoU會顯著降低新能(回歸僅基于MaskIoU預測)，這也證實了我們的觀點——使用單一目標函數(shù)進行訓練分類和回歸是困難的。

setting #3比 setting #1 的結果低，這樣的結果是由于對所有正例 MaskIoU 的回歸會使得 MaskIoU head的負擔加重，所以本文選擇回歸目標類別的 MaskIoU。

如何設定訓練集：

由于本文提出的MaskIoU head是 Mask R-CNN 結構的最頂部分，所以MaskIoU head的所有訓練樣本都是邊界框水平的IoU大于0.5的，然鵝，其MaskIoU不能超過0.5。

給定一個閾值 $τ\tau$ ，本文將 MaskIoU 比 $τ\tau$ 大的樣本作為訓練MaskIoU head的樣本，表6展示了結果。結果表明使用所有實例的訓練效果最好。

4.4 討論

本節(jié)討論中的所有結果都源于 COCO 2017 驗證集

backbone：

較弱的 backbone ResNet-18 FPN
較強的backbone ResNet-101 DCN+FPN

預測的 MaskIoU 的質(zhì)量：

本文使用真實 MaskIoU 和預測 MaskIoU 的相關系數(shù)來度量預測 MaskIoU的質(zhì)量

回到測試過程，本文使用經(jīng)過softNMS利用分類得分選擇后的top-100得分的邊界框，將預測邊界框輸入 Mask head，并且得到預測 mask，之后使用預測 mask和RoI feature作為MaskIoU head的輸入。

MaskIoU head的輸出和分類得分經(jīng)過融合后得到最終的mask score

在COCO 2017驗證數(shù)據(jù)集中，我們?yōu)槊繌垐D像保留100張預測MaskIoU，從所有5000張圖像中收集50萬個預測。

圖5中繪制了每個預測及其對應真值

可以看到，MaskIoU的預測與它們的ground truth有很好的相關性，尤其是對于MaskIoU較高的預測。

以ResNet-18 FPN 和 ResNet-101 DCN+FPN作為backbone時，預測和真實的相關系數(shù)在0.74左右。

這表明，預測的質(zhì)量對backbone網(wǎng)的變化不敏感。這一結論也與表1一致。

由于之前沒有對MaskIoU進行預測的方法，我們參考了之前[19]對IoU邊界框進行預測的工作。[19]得到的相關系數(shù)為0.617，低于我們的相關系數(shù)。

MS R-CNN 的上界（upper bound）：

作者使用真實的MaskIoU和預測的MaskIoU之間的相關系數(shù)來衡量預測mask的質(zhì)量

下圖展示了預測值和真值的關系，可知其有較好的相關性，且MaskIoU值越高，相關性越大

如何探索性能上界：利用真實的mask代替預測的mask，則mask質(zhì)量的差別就僅僅來自于邊界框的準確性和MaskIoU的預測結果，

對于每個預測的mask，我們可以發(fā)現(xiàn)，其與真實mask可以匹配，之后，當真實 MaskIoU >0 時，我們使用真實 MaskIoU 來代替預測 MaskIoU，結果見表7。

結果表明， MS R-CNN 比 Mask R-CNN的表現(xiàn)都好。

與MS R-CNN的理想預測結果相比，MS R-CNN的實際應用效果仍有較大的提升空間，backbone 為 ResNet-18 FPN 時，可以將 AP 提升約2.2%，當backbone為ResNet-101 DCN+FPN 時，可以將AP提升約2.6%。

模型大小和運行時間：

MaskIoU head可實現(xiàn)0.39G的FLOPs, Mask head可實現(xiàn)0.53G的FLOPs。

我們使用一個TITAN V GPU來測試速度(秒/圖像)。對于ResNet-18 FPN, Mask R-CNN和MS R-CNN的速度都在0.132左右。

ResNet-101 DCN+FPN Mask R-CNN和MS R-CNN的速度都在0.202左右。Mask Score R-CNN中mask head的計算成本可以忽略不計。

5. 總結

本文研究了實例分割中mask得分問題，并提出了 MS R-CNN

通過給 Mask R-CNN 添加 MaskIoU head，對mask的得分和 MaskIoU結合起來進行預測，不同于以往的實例分割框架。

MaskIoU head 計算高效且易于實現(xiàn)

在 COCO 基準上，大量的實驗表明 MS R-CNN 都可以獲得優(yōu)于 Mask R-CNN的效果。

該結構同樣可以用于其他實例分割網(wǎng)絡，來獲得更加可靠的mask 得分

本文希望本文所提出的高效方式為實例分割任務提供一個基準，并為后續(xù)的探索提供幫助。

總結

以上是生活随笔為你收集整理的感知算法论文（四）：Mask Scoring R-CNN （2019）译文的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：信用卡能用微信还款吗，当然可以
下一篇：感知算法论文（六）：LEDNet（201