當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文精读：Mask R-CNN

發(fā)布時(shí)間：2023/12/15 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了论文精读：Mask R-CNN 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Abstract

????????我們提出了一個(gè)概念上簡(jiǎn)單、靈活和通用的對(duì)象實(shí)例分割框架。我們的方法可以有效地檢測(cè)圖像中的對(duì)象，同時(shí)為每個(gè)實(shí)例生成一個(gè)高質(zhì)量的分割掩模。該方法被稱為MaskR-CNN，通過(guò)與現(xiàn)有用于邊界和識(shí)別的分支并行的R-CNN。MaskR-CNN訓(xùn)練很簡(jiǎn)單，只比Faster R-CNN增加了一小部分開銷，以5幀/秒的速度運(yùn)行。此外，Mask R-CNN很容易推廣到其他任務(wù)中，例如，允許我們?cè)谙嗤目蚣芟鹿烙?jì)人體姿態(tài)。我們展示了COCO挑戰(zhàn)套件的所有三個(gè)軌道的頂級(jí)結(jié)果，包括實(shí)例分割、邊界框目標(biāo)檢測(cè)和個(gè)人關(guān)鍵點(diǎn)檢測(cè)。在沒(méi)有花哨功能的情況下，MaskR-CNN在每項(xiàng)任務(wù)上都優(yōu)于所有現(xiàn)有的單模型條目，包括2016年COCO挑戰(zhàn)的獲勝者。我們希望我們的簡(jiǎn)單而有效的方法將作為一個(gè)堅(jiān)實(shí)的基線，并有助于簡(jiǎn)化未來(lái)的實(shí)例級(jí)識(shí)別研究。代碼已在https://github.com/ facebookresearch/Detectron.

1. Introduction

????????視覺(jué)社區(qū)在短時(shí)間內(nèi)快速提高了目標(biāo)檢測(cè)和語(yǔ)義分割的結(jié)果。在很大程度上，這些進(jìn)步是由強(qiáng)大的基線系統(tǒng)驅(qū)動(dòng)的，如分別用于目標(biāo)檢測(cè)和語(yǔ)義分割的Faster RCNN[12,36]和全卷積網(wǎng)絡(luò)(FCN)[30]框架。這些方法在概念上是直觀的，并提供了靈活性和魯棒性，以及快速的訓(xùn)練和推理時(shí)間。我們?cè)谶@項(xiàng)工作中的目標(biāo)是為實(shí)例分割開發(fā)一個(gè)比較可行的框架。????????

????????實(shí)例分割是具有挑戰(zhàn)性的，因?yàn)樗枰_地檢測(cè)圖像中的所有對(duì)象，同時(shí)也需要精確地分割每個(gè)實(shí)例。因此，它結(jié)合了經(jīng)典的對(duì)象檢測(cè)計(jì)算機(jī)視覺(jué)任務(wù)中的元素，其中目標(biāo)是對(duì)單個(gè)對(duì)象進(jìn)行分類，并使用邊界框?qū)γ總€(gè)對(duì)象進(jìn)行定位，以及語(yǔ)義分割，其中目標(biāo)是將每個(gè)像素分類為一組固定的類別，而不區(qū)分對(duì)象實(shí)例。1.有鑒于此，人們可能會(huì)認(rèn)為需要一種復(fù)雜的方法來(lái)獲得良好的結(jié)果。然而，我們證明了一個(gè)驚人的簡(jiǎn)單、靈活和快速的系統(tǒng)可以超越先前的最先進(jìn)的實(shí)例分割結(jié)果。

????????我們的方法，稱為MaskR-CNN，擴(kuò)展了Faster R-CNN[36]，通過(guò)添加一個(gè)分支用于預(yù)測(cè)每個(gè)感興趣區(qū)域(RoI)上的分割掩模，與現(xiàn)有的用于分類和邊界盒回歸的分支并行（圖1）。掩模分支是一個(gè)應(yīng)用于每個(gè)RoI的小FCN，以像素-頂像素的方式預(yù)測(cè)分割掩模。MaskR-CNN易于實(shí)現(xiàn)和訓(xùn)練，并且囊括了Faster R-CNN框架，這促進(jìn)了廣泛的靈活的架構(gòu)設(shè)計(jì)。此外，掩模分支只增加了一個(gè)小的計(jì)算開銷，支持一個(gè)快速的系統(tǒng)和快速的實(shí)驗(yàn)。

?????????原則上，Mask R-CNN是對(duì)Faster R-CNN的直觀擴(kuò)展，但正確地構(gòu)建掩碼分支對(duì)于良好的結(jié)果是至關(guān)重要的。最重要的是，Faster RCNN并不是為網(wǎng)絡(luò)輸入和輸出之間的像素對(duì)像素對(duì)齊而設(shè)計(jì)的。這一點(diǎn)最明顯的是RoIPool[18,12]，事實(shí)上的處理實(shí)例的核心操作，如何執(zhí)行特征提取的粗空間量化。為了解決這種錯(cuò)位，我們提出了一個(gè)簡(jiǎn)單的、無(wú)量化的層，稱為RoI Align，它忠實(shí)地保留了精確的空間位置。

????????盡管這似乎是一個(gè)微小的變化，但RoI Align有很大的影響：它將掩模精度相對(duì)提高了相對(duì)10%到50%，在更嚴(yán)格的本地化指標(biāo)下顯示出更大的收益。其次，我們發(fā)現(xiàn)解耦掩模和類預(yù)測(cè)是至關(guān)重要的：我們?yōu)槊總€(gè)類獨(dú)立預(yù)測(cè)一個(gè)二進(jìn)制掩模，沒(méi)有類之間的競(jìng)爭(zhēng)，并依賴網(wǎng)絡(luò)的RoI分類分支來(lái)預(yù)測(cè)類別。相比之下，FCN通常執(zhí)行每像素的多類分類，這結(jié)合了分割和分類，并且基于我們的實(shí)驗(yàn)，例如分割的效果很差。

????????在沒(méi)有花哨功能的情況下，MaskR-CNN超越了COCO實(shí)例分割任務(wù)[28]上所有最先進(jìn)的單模型結(jié)果，包括2016年競(jìng)賽獲勝者的大量作品。作為一個(gè)副產(chǎn)品，我們的方法也擅長(zhǎng)于COCO目標(biāo)檢測(cè)任務(wù)。在消融實(shí)驗(yàn)中，我們?cè)u(píng)估了多個(gè)基本實(shí)例，這使我們能夠證明其穩(wěn)健性，并分析核心因素的影響。

????????我們的模型在GPU上可以以每幀約200 ms的速度運(yùn)行，在一臺(tái)8-GPU機(jī)器上訓(xùn)練COCO需要一到兩天的時(shí)間。我們相信，快速的訓(xùn)練和測(cè)試速度，以及框架的靈活性和準(zhǔn)確性，將有利于和簡(jiǎn)化未來(lái)的實(shí)例分割研究。

????????最后，我們通過(guò)對(duì)COCO關(guān)鍵點(diǎn)數(shù)據(jù)集[28]上的人體姿態(tài)估計(jì)任務(wù)，展示了我們的框架的通用性。通過(guò)將每個(gè)關(guān)鍵點(diǎn)視為一個(gè)熱的二進(jìn)制掩碼，用最小的修改，Mask R-CNN可以應(yīng)用于檢測(cè)特定于實(shí)例的姿態(tài)。MaskR-CNN超過(guò)了2016年COCO關(guān)鍵點(diǎn)比賽的獲勝者，同時(shí)以5幀/秒的速度運(yùn)行。因此，MaskR-CNN可以被更廣泛地看作是一個(gè)用于實(shí)例級(jí)識(shí)別的靈活框架，并且可以很容易地?cái)U(kuò)展到更復(fù)雜的任務(wù)。

????????

2. Related Work

????????R-CNN：基于區(qū)域的CNN(R-CNN)的邊界框目標(biāo)檢測(cè)方法[13]是關(guān)注可管理數(shù)量的候選對(duì)象區(qū)域[42,20]，并在每個(gè)RoI上獨(dú)立評(píng)估卷積網(wǎng)絡(luò)[25,24]。R-CNN擴(kuò)展了[18,12]，允許使用RoIPool在特征圖上關(guān)注RoIs，從而實(shí)現(xiàn)快速的速度和更好的準(zhǔn)確性。Faster R-CNN[36]通過(guò)學(xué)習(xí)區(qū)域建議網(wǎng)絡(luò)(RPN)學(xué)習(xí)注意機(jī)制來(lái)推進(jìn)這一流。Faster R-CNN對(duì)于許多后續(xù)改進(jìn)（例如，[38,27,21]）是靈活和健壯的，并且是當(dāng)前幾個(gè)基準(zhǔn)測(cè)試中的領(lǐng)先框架。?

???????Instance Segmentation: ：受RCNN的有效性的驅(qū)動(dòng)，許多實(shí)例分割的方法都是基于分段建議的。早期的方法[13,15,16,9]采用自下而上的節(jié)段[42,2]。DeepMask[33]和以下工作[34,8]學(xué)習(xí)提出候選片段，然后通過(guò)Fast R-CNN進(jìn)行分類。在這些方法中，分割先于識(shí)別，識(shí)別速度慢，精度較低。同樣，Dai等人[10]提出了一個(gè)復(fù)雜的多階段級(jí)聯(lián)，從邊界框建議中預(yù)測(cè)分段建議，然后進(jìn)行分類。相反，我們的方法是基于掩模和類標(biāo)簽的并行預(yù)測(cè)，這更簡(jiǎn)單、更靈活。

????????最近，Li等人[26]將[8]中的分割建議系統(tǒng)和[11]中的目標(biāo)檢測(cè)系統(tǒng)相結(jié)合，進(jìn)行“全卷積實(shí)例分割”(FCIS)。[8,11,26]中常見的想法是完全卷積地預(yù)測(cè)一組位置敏感的輸出通道。這些通道同時(shí)處理對(duì)象類、框和掩碼，使系統(tǒng)速度快。但是FCIS在重疊的實(shí)例上表現(xiàn)出了系統(tǒng)的錯(cuò)誤，并產(chǎn)生了虛假的邊緣（圖6），這表明它受到了分割實(shí)例的基本困難的挑戰(zhàn)。

????????另一類實(shí)例分割的解決方案是由語(yǔ)義分割的成功驅(qū)動(dòng)的。從每個(gè)像素的分類結(jié)果(例如，FCN輸出)開始，這些方法試圖將同一類別的像素切割為不同的實(shí)例。與這些方法的分割優(yōu)先策略相比，MaskR-CNN是基于實(shí)例優(yōu)先策略的。我們希望在未來(lái)將對(duì)這兩種策略進(jìn)行更深入的結(jié)合研究。

3. Mask R-CNN

? ? ? ? Mask R-CNN在概念上很簡(jiǎn)單：Faster R-CNN對(duì)每個(gè)候選對(duì)象有兩個(gè)輸出，一個(gè)類標(biāo)簽和一個(gè)邊界框偏移量；對(duì)此，我們添加了第三個(gè)輸出對(duì)象掩碼的分支。因此，Mask R-CNN是一個(gè)自然和直觀的想法。但是附加的掩模輸出不同于類和盒子輸出，需要提取更精細(xì)的對(duì)象空間布局。接下來(lái)，我們介紹了MaskR-CNN的關(guān)鍵元素，包括像素對(duì)像素的對(duì)齊，這是Fast/Faster R-CNN的主要缺失部分。

? ? ? ? Faster R-CNN：我們首先簡(jiǎn)要回顧一下Faster R-CNN檢測(cè)器[36]。Faster R-CNN由兩個(gè)階段組成。第一階段，稱為區(qū)域提案網(wǎng)絡(luò)(RPN)，提出了候選對(duì)象的邊界框。第二階段，本質(zhì)上是FastR-CNN[12]，使用RoIPool從每個(gè)候選框中提取特征，并進(jìn)行分類和邊界框回歸。這兩個(gè)階段所使用的特性可以被共享，以便更快地進(jìn)行推斷。我們建議讀者參考[21]，以了解Faster R-CNN和其他框架之間最新、全面的比較

????????MaskR-CNN：MaskR-CNN采用相同的兩階段程序，具有相同的第一階段(即RPN)。在第二階段，與預(yù)測(cè)類和盒偏移量的同時(shí)，Mask R-CNN還為每個(gè)RoI輸出一個(gè)二進(jìn)制掩碼。這與最近的系統(tǒng)相反，后者的分類依賴于掩模預(yù)測(cè)（例如[33,10,26]）。我們的方法遵循了FastR-CNN[12]的精神，即并行應(yīng)用邊界盒分類和回歸(這在很大程度上簡(jiǎn)化了原始R-CNN[13]的多階段管道)。

????????形式上，在訓(xùn)練期間，我們將每個(gè)采樣RoI上的多任務(wù)損失定義為L(zhǎng)=Lcls+Lbox+Lmask。分類損失Lcls和邊界框損失Lbox與[12]中定義的相同。掩碼分支為每個(gè)RoI有一個(gè)Km二維輸出，它編碼K個(gè)分辨率為m×m的二進(jìn)制掩碼，每個(gè)K個(gè)類一個(gè)。為此，我們應(yīng)用每像素s型，并將Lmask定義為平均二進(jìn)制交叉熵?fù)p失。對(duì)于與地面真實(shí)類k相關(guān)聯(lián)的RoI，Lmask只定義在第k個(gè)掩碼上（其他掩碼輸出不會(huì)造成損失）。

????????我們對(duì)Lmask的定義允許網(wǎng)絡(luò)為每個(gè)類生成掩碼，而無(wú)需類之間的競(jìng)爭(zhēng)；我們依賴于專用的分類分支來(lái)預(yù)測(cè)用于選擇輸出掩碼的類標(biāo)簽。這可以解耦掩碼和類預(yù)測(cè)。這與將FCNs[30]應(yīng)用于語(yǔ)義分割時(shí)的常見做法不同，后者通常使用每像素的softmax和多項(xiàng)式交叉熵?fù)p失。在這種情況下，跨類的掩碼相互競(jìng)爭(zhēng)；在我們的例子中，對(duì)于每像素的s型和二進(jìn)制損失，它們不會(huì)。實(shí)驗(yàn)結(jié)果表明，該公式是獲得良好的實(shí)例分割結(jié)果的關(guān)鍵。

????????

????????Mask Representation: 掩碼對(duì)輸入對(duì)象的空間布局進(jìn)行編碼。因此，不同于類標(biāo)簽或盒抵消不可避免地被全連接(fc)層分解為短輸出向量，提取掩模的空間結(jié)構(gòu)可以通過(guò)卷積提供的像素-像素對(duì)應(yīng)自然地解決。?

????????具體來(lái)說(shuō)，我們使用FCN[30]預(yù)測(cè)每個(gè)RoI的m×m掩模。這允許掩模分支中的每一層維護(hù)顯式的m×m對(duì)象空間布局，而不會(huì)將其折疊為缺乏空間維度的向量表示。與以往采用fc層進(jìn)行掩模預(yù)測(cè)[33,34,10]的方法不同，我們的完全卷積表示需要更少的參數(shù)，而且通過(guò)實(shí)驗(yàn)證明，它更準(zhǔn)確。

????????具體來(lái)說(shuō)，我們使用FCN[30]預(yù)測(cè)每個(gè)RoI的m×m掩模。這允許掩模分支中的每一層維護(hù)顯式的m×對(duì)象空間布局，而不會(huì)將其折疊為缺乏空間維度的向量表示。與以往采用fc層進(jìn)行掩模預(yù)測(cè)[33,34,10]的方法不同，我們的完全卷積表示需要更少的參數(shù)，而且通過(guò)實(shí)驗(yàn)證明，它更準(zhǔn)確。

????????RoIAlign：RoIPool[12]是從每個(gè)RoI中提取一個(gè)小的特征映射（例如，7×7）的標(biāo)準(zhǔn)操作。RoIPool首先將浮動(dòng)數(shù)RoI量化為特征映射的離散粒度，然后這個(gè)量化的RoI被細(xì)分為空間箱子，空間箱子本身被量化，最后每個(gè)箱子覆蓋的特征值被聚合（通常通過(guò)最大池化）量化，例如，通過(guò)計(jì)算[x/16]在連續(xù)坐標(biāo)x上執(zhí)行，其中16是一個(gè)特征圖步幅，[·]是四舍五入；同樣，量化在劃分為箱子時(shí)進(jìn)行量化（例如，7×7）。這些量化引入了RoI和提取的特征之間的失調(diào)。雖然這可能不會(huì)影響分類，因?yàn)榉诸悓?duì)小的翻譯是魯棒性的，但它對(duì)預(yù)測(cè)像素準(zhǔn)確的掩模有很大的負(fù)面影響。

????????為了解決這個(gè)問(wèn)題，我們提出了一個(gè)RoIAlign層，它消除了RoIPool的苛刻量化，將提取的特征與輸入正確對(duì)齊。我們提出的更改很簡(jiǎn)單：我們避免了RoI邊界或bins的任何量化(即，我們使用x/16而不是[x/16])。我們使用雙線性插值[22]來(lái)計(jì)算每個(gè)RoIbin中四個(gè)定期采樣位置的輸入特征的精確值，并將結(jié)果聚合（使用最大值或平均值），詳見圖3。我們注意到，只要不進(jìn)行量化，結(jié)果對(duì)精確的采樣位置或采樣點(diǎn)不敏感。

????????正如我們?cè)?.2中所示，RoI Align導(dǎo)致了很大的改進(jìn)。我們還比較了在[10]中提出的RoI Warp操作。與RoI Align不同，RoI Warp忽略了對(duì)齊問(wèn)題，并在[10]中實(shí)現(xiàn)為量化RoIPool一樣。因此，盡管RoIWarp也采用了由[22]驅(qū)動(dòng)的雙線性重采樣，但它的性能與RoIPool相當(dāng)(更多細(xì)節(jié)見表2c)，證明了對(duì)齊的關(guān)鍵作用。

????????Network Architecture: ：為了演示我們的方法的通用性，我們用多個(gè)架構(gòu)實(shí)例化了MaskR-CNN。為了清晰起見，我們區(qū)分了：(i)用于整個(gè)圖像的特征提取的卷積主干架構(gòu)，以及(ii)用于邊界盒識(shí)別（分類和回歸）和掩碼預(yù)測(cè)的網(wǎng)絡(luò)頭，它們分別應(yīng)用于每個(gè)RoI。

????????我們使用命名法網(wǎng)絡(luò)深度特征來(lái)表示主干架構(gòu)。我們?cè)u(píng)估了深度為50層或101層的ResNet[19]和ResNeXt[45]網(wǎng)絡(luò)。使用ResNets[19]的Faster R-CNN的原始實(shí)現(xiàn)從第4階段的最終卷積層中提取了特征，我們稱之為C4。例如，這個(gè)具有ResNet-50的主干用ResNet-50-C4表示。這是[19,10,21,39]中常用的一種選擇。

????????我們還探索了由Lin等人[27]最近提出的另一個(gè)更有效的主干，稱為特征金字塔網(wǎng)絡(luò)(FPN)。FPN使用一個(gè)帶有橫向連接的自頂向下架構(gòu)，從單尺度輸入構(gòu)建一個(gè)網(wǎng)絡(luò)內(nèi)特征金字塔。使用FPN主干的Faster R-CNN根據(jù)其規(guī)模從特征金字塔的不同級(jí)別提取RoI特征，但在此之外，其他方法類似于普通的ResNet。使用ResNet-FPN骨干與Mask RCNN進(jìn)行特征提取，在準(zhǔn)確性和速度上都獲得了極好的收益。有關(guān)FPN的更多細(xì)節(jié)，請(qǐng)向讀者參考[27]。

????????對(duì)于網(wǎng)絡(luò)頭，我們密切遵循之前工作中提出的架構(gòu)，其中我們添加了一個(gè)完全卷積掩碼預(yù)測(cè)分支。具體來(lái)說(shuō)，我們從ResNet[19]和FPN[27]的論文中擴(kuò)展了Faster R-CNN盒頭。詳細(xì)信息如圖4所示。ResNet-C4主干上的頭部包括ResNet的第5階段(即9層的res5‘[19])，這是計(jì)算密集型的。對(duì)于FPN，主干已經(jīng)包括res5，因此允許一個(gè)更有效的頭，使用更少的過(guò)濾器.

????????我們注意到，我們的掩模分支有一個(gè)簡(jiǎn)單的結(jié)構(gòu)。更復(fù)雜的設(shè)計(jì)有潛力提高性能，但這并不是這項(xiàng)工作的重點(diǎn)。

3.1. Implementation Details

????????我們?cè)诂F(xiàn)有的Fast/Faster R-CNN工作[12,36,27]之后設(shè)置超參數(shù)。雖然這些決策是在原始論文[12,36,27]中為目標(biāo)檢測(cè)而做出的，但我們發(fā)現(xiàn)我們的實(shí)例分割系統(tǒng)對(duì)它們具有魯棒性。?

????????Training: ：就像在FastR-CNN中一樣，如果一個(gè)IoI有IoU和一個(gè)至少為0.5的地面真值盒，則被認(rèn)為是正的，否則是負(fù)的。掩模丟失Lmask僅在正RoIs上定義。掩碼目標(biāo)是RoI與其相關(guān)的地面真實(shí)掩模之間的交集。

????????我們采用以圖像為中心的訓(xùn)練[12]。圖像的調(diào)整使其比例（較短的邊緣）為800像素[27]。每個(gè)小批每個(gè)GPU有2張圖像，每張圖像有N個(gè)采樣roi，正[12]與負(fù)[12]的比例為1：3。C4主干N為64（如[12,36]），FPN N為512（如[27]）。我們?cè)?個(gè)gpu（有效小批量大小為16）上進(jìn)行160k迭代訓(xùn)練，學(xué)習(xí)速率為0.02，在120k迭代時(shí)降低了10。我們使用的權(quán)重衰減為0.0001，動(dòng)量為0.9。使用ResNeXt[45]，我們?yōu)槊總€(gè)GPU訓(xùn)練1張圖像和相同次數(shù)的迭代，起始學(xué)習(xí)率為0.01。

????????RPN錨點(diǎn)跨越5個(gè)尺度和3個(gè)長(zhǎng)寬比，遵循[27]。為了方便消融，RPN是單獨(dú)訓(xùn)練的，并且不與MaskR-CNN共享特征，除非有特別說(shuō)明。對(duì)于本文中的每一個(gè)條目，RPN和MaskR-CNN都有相同的主干，因此它們是可共享的。

????????Inference: 在測(cè)試時(shí)，C4主干的建議編號(hào)為300（如[36]），FPN的提案編號(hào)為1000（如[27]）。我們?cè)谶@些建議上運(yùn)行盒子預(yù)測(cè)分支，然后使用非最大抑制[14]。然后將掩碼分支應(yīng)用于得分最高的100個(gè)檢測(cè)框。盡管這不同于在訓(xùn)練中使用的并行計(jì)算，但它加快了推理速度并提高了準(zhǔn)確性(由于使用了更少、更準(zhǔn)確的roi)。

????????掩碼分支可以預(yù)測(cè)每個(gè)RoI的K個(gè)掩碼，但我們只使用第k個(gè)掩碼，其中k是分類分支預(yù)測(cè)的類。然后，將m×m浮數(shù)掩模輸出的大小調(diào)整為RoI大小，并在閾值為0.5時(shí)進(jìn)行二值化。

????????請(qǐng)注意，由于我們只計(jì)算前100個(gè)檢測(cè)框上的掩碼，Mask R-CNN為其Faster R-CNN增加了一個(gè)小開銷（例如，典型模型上的～20%）。

4. Experiments: Instance Segmentation

????????我們對(duì)Mask R-CNN進(jìn)行了全面的比較，并對(duì)COCO數(shù)據(jù)集[28]進(jìn)行了全面的消融。我們報(bào)告了標(biāo)準(zhǔn)的COCO指標(biāo)，包括AP(平均超過(guò)IoU閾值)、AP50、AP75和APS、APM、APL(不同尺度上的AP)。除非特別說(shuō)明，AP正在使用掩模IoU進(jìn)行評(píng)估。與之前的工作[5,27]一樣，我們使用80k訓(xùn)練圖像和35k val圖像子集(訓(xùn)練35k)的并集進(jìn)行訓(xùn)練，并報(bào)告剩余5k val圖像（微型）的消融。我們還報(bào)告了測(cè)試開發(fā)[28]的結(jié)果。

4.1. Main Results

????????我們將MaskR-CNN與表1中最先進(jìn)的實(shí)例分割方法進(jìn)行了比較。我們的模型的所有實(shí)例化都優(yōu)于以前最先進(jìn)的模型的基線變體。這包括MNC[10]和FCIS[26]，他們分別是2015年和2016年經(jīng)濟(jì)成本細(xì)分挑戰(zhàn)的贏家。在沒(méi)有附加功能的情況下，具有ResNet-101-FPN骨干的MaskR-CNN的性能優(yōu)于FCIS+++[26]，后者包括多尺度訓(xùn)練/測(cè)試、水平翻轉(zhuǎn)測(cè)試和在線硬示例挖掘(OHEM)[38]。雖然在這項(xiàng)工作的范圍之外，但我們希望許多這樣的改進(jìn)也適用于我們的工作。

? ? ? ? Mask R-CNN輸出如圖2和圖5所示。Mask R-CNN即使在具有挑戰(zhàn)性的條件下也能取得良好的效果。在圖6中，我們比較了MaskR-CNN基線和FCIS+++[26]。FCIS+++在重疊的實(shí)例上表現(xiàn)出了系統(tǒng)的偽影，這表明它受到了實(shí)例分割的基本困難的挑戰(zhàn)。MaskR-CNN沒(méi)有顯示這樣的偽影。

4.2. Ablation Experiments

????????我們運(yùn)行了一些消融來(lái)分析Mask R-CNN。結(jié)果如表2所示，接下來(lái)將進(jìn)行詳細(xì)討論。

????????Architecture:表2a顯示了具有各種骨干的MaskR-CNN。它受益于更深層次的網(wǎng)絡(luò)（50比101）和先進(jìn)的設(shè)計(jì)，包括FPN和ResNeXt。我們注意到，并不是所有的框架都會(huì)自動(dòng)受益于更深層次或高級(jí)的網(wǎng)絡(luò)（參見[21]中的基準(zhǔn)測(cè)試）。????????

????????Multinomial vs. Independent Masks: Mask?R-CNN解耦掩碼和類預(yù)測(cè)：由于現(xiàn)有的box分支預(yù)測(cè)類標(biāo)簽，我們?yōu)槊總€(gè)類生成一個(gè)掩碼，而沒(méi)有類之間的競(jìng)爭(zhēng)(通過(guò)每像素的s型和二進(jìn)制損失)。在表2b中，我們將其與使用每像素的softmax和多項(xiàng)損失(如在FCN[30]中常用的)進(jìn)行了比較。這種選擇將掩模和類預(yù)測(cè)的任務(wù)結(jié)合起來(lái)，并導(dǎo)致掩模AP的嚴(yán)重?fù)p失（5.5）。這表明，一旦實(shí)例被分類為一個(gè)整體（通過(guò)盒子分支），它就足以預(yù)測(cè)一個(gè)二進(jìn)制掩碼，而不考慮類別，這使得模型更容易訓(xùn)練。

????????Class-Specifific vs. Class-Agnostic Masks: 我們的默認(rèn)實(shí)例化預(yù)測(cè)特定于類的掩碼，即每個(gè)類有一個(gè)m×m個(gè)掩碼。有趣的是，帶有類不可知Mask R-CNN（即，無(wú)論類別都預(yù)測(cè)單個(gè)m×m輸出）幾乎同樣有效：它有29.7 AP，而ResNet-50-C4上的類特定對(duì)應(yīng)物為30.3。這進(jìn)一步強(qiáng)調(diào)了在我們的方法中的勞動(dòng)分工，這在很大程度上解耦了分類和分割。

????????RoIAlign：我們提出的RoIAlign層的評(píng)估見表2c。在這個(gè)實(shí)驗(yàn)中，我們使用了ResNet-50-C4主干，它的步幅為16。RoIAlign比RoIPool提高了約3個(gè)百分點(diǎn)，其中大部分收益來(lái)自于高IoU(AP75)。RoIAlign對(duì)最大/平均池不敏感；我們?cè)谡撐牡钠溆嗖糠质褂闷骄怠?/p>

????????此外，我們還與MNC[10]中提出的同樣采用雙線性抽樣的RoIWarp進(jìn)行了比較。如3中所討論的，RoIWarp仍然量化RoI，失去與輸入的對(duì)齊。從表2c中可以看出，RoIWarp的性能與RoIPool相當(dāng)，但比RoIAlign要差得多。這強(qiáng)調(diào)了正確的對(duì)齊是關(guān)鍵

????????我們還評(píng)估了使用ResNet-50-C5主干的RoIAlign，它有更大的步幅，為32像素。我們使用與圖4（右）相同的頭，因?yàn)閞es5頭不適用。表2d顯示，RoIAlign將AP提高了7.3個(gè)百分點(diǎn)，AP75提高了10.5個(gè)百分點(diǎn)（相對(duì)提高了50%）。此外，我們注意到，在RoIAlign中，使用步幅-32C5特征(30.9AP)比使用步幅-16C4特征(30.3AP，表2c)更準(zhǔn)確。RoIAlign在很大程度上解決了長(zhǎng)期以來(lái)使用大步幅特征進(jìn)行檢測(cè)和分割的挑戰(zhàn)。

????????最后，RoIAlign在與FPN一起使用時(shí)顯示了1.5 mask AP和0.5boxAP，具有更精細(xì)的多級(jí)步幅。對(duì)于需要更精細(xì)的對(duì)齊的關(guān)鍵點(diǎn)檢測(cè)，RoIAlign即使在使用FPN時(shí)也顯示出了很大的增益（表6）。

????????Mask Branch: 分割是一個(gè)像素到像素的任務(wù)，我們利用FCN利用掩模的空間布局。在表2e中，我們使用ResNet-50-FPN骨干，比較了多層感知器(MLP)和FCNs。使用FCNs得到的掩模AP增益為2.1。我們注意到，我們選擇這個(gè)主干是為了使FCN頭部的conv層沒(méi)有經(jīng)過(guò)預(yù)先訓(xùn)練，以便與MLP進(jìn)行公平的比較。

4.3. Bounding Box Detection Results

????????我們將MaskR-CNN與表3中最先進(jìn)的COCO邊界框?qū)ο髾z測(cè)進(jìn)行了比較。對(duì)于這個(gè)結(jié)果，即使訓(xùn)練了完整的MaskR-CNN模型，在推理中也只使用分類和框輸出（忽略掩碼輸出）。使用ResNet-101-FPN的MaskR-CNN優(yōu)于之前所有最先進(jìn)模型的基本變體，包括GRMI[21]的單模型變體，COCO2016檢測(cè)挑戰(zhàn)的贏家。使用ResNeXt-101-FPN，MaskR-CNN進(jìn)一步改進(jìn)了結(jié)果，與[39]之前最好的單個(gè)模型條目(使用初始-ResNet-v2-TDM)相比，有3.0point的邊界框AP。?

????????作為進(jìn)一步的比較，我們訓(xùn)練了一個(gè)版本的Mask R-CNN，但沒(méi)有掩碼分支，在表3中用“Faster R-CNN，RoIAlign”表示。由于RoIAlign，該模型的性能不如[27]中提出的模型。另一方面，它比MaskR-CNN低0.9點(diǎn)。因此，MaskR-CNN在盒子檢測(cè)上的差距僅僅是由于多任務(wù)訓(xùn)練的好處。

????????最后，我們注意到MaskR-CNN在mask和boxAP之間之間有一個(gè)小的差距：例如，37.1（mask，表1）和39.8（box，表3）之間有2.7百分點(diǎn)的差距。這表明，我們的方法在很大程度上縮小了目標(biāo)檢測(cè)和更具挑戰(zhàn)性的實(shí)例分割任務(wù)之間的差距。

4.4. Timing????????

???????Inference: 我們訓(xùn)練了一個(gè)ResNet-101-FPN模型，該模型在RPN和MaskR-CNN階段之間共享特征，遵循Faster R-CNN[36]的4步訓(xùn)練。該型號(hào)在Nvidia Tesla??M40GPU上以每張圖像195 ms的速度運(yùn)行(加上15 ms的CPU時(shí)間將輸出調(diào)整為原始分辨率)，并在統(tǒng)計(jì)上實(shí)現(xiàn)了與未共享的相同的掩碼AP。我們還報(bào)告了ResNet-101-C4變體需要～400ms，因?yàn)樗幸粋€(gè)更重的盒頭（圖4），所以我們不建議在實(shí)踐中使用C4變體。?

????????雖然MaskR-CNN速度很快，但我們注意到我們的設(shè)計(jì)并沒(méi)有為速度進(jìn)行優(yōu)化，而且[21]可以實(shí)現(xiàn)更好的速度/精度的權(quán)衡，例如，通過(guò)改變圖像大小和提案號(hào)，這超出了本文的范圍。

? ? ? ? training：MaskR-CNN的訓(xùn)練速度也很快。在我們同步的8-GPU實(shí)現(xiàn)中，使用ResNet-50-FPN進(jìn)行COCO訓(xùn)練需要32小時(shí)（每16個(gè)圖像小批0.72秒），使用ResNet-101-FPN需要44小時(shí)。事實(shí)上，快速的原型設(shè)計(jì)可以在不到一天的時(shí)間內(nèi)完成，當(dāng)在火車上進(jìn)行訓(xùn)練。我們希望這樣的快速培訓(xùn)將消除這一領(lǐng)域的一個(gè)主要障礙，并鼓勵(lì)更多的人對(duì)這個(gè)具有挑戰(zhàn)性的話題進(jìn)行研究。

5. Mask R-CNN for Human Pose Estimation

????????我們的框架可以很容易地?cái)U(kuò)展到人類的姿態(tài)估計(jì)。我們將一個(gè)關(guān)鍵點(diǎn)的位置建模為一個(gè)熱掩模，并采用MaskR-CNN預(yù)測(cè)K個(gè)掩模，每種關(guān)鍵點(diǎn)類型（如左肩、右肘）。這個(gè)任務(wù)有助于演示MaskR-CNN的靈活性。我們注意到，我們的系統(tǒng)利用了人體姿態(tài)的最小領(lǐng)域知識(shí)，因?yàn)閷?shí)驗(yàn)主要是為了證明MaskR-CNN框架的通用性。我們期望領(lǐng)域知識(shí)（例如，建模結(jié)構(gòu)[6]）將是對(duì)我們的簡(jiǎn)單方法的補(bǔ)充。

????????Implementation Details:當(dāng)分割系統(tǒng)適應(yīng)關(guān)鍵點(diǎn)時(shí)，我們對(duì)它做了一些小的修改。對(duì)于一個(gè)實(shí)例的每個(gè)K個(gè)關(guān)鍵點(diǎn)，訓(xùn)練目標(biāo)是一個(gè)one-hot m×m二進(jìn)制掩模，其中只有一個(gè)像素被標(biāo)記為前景。?在訓(xùn)練過(guò)程中，對(duì)于每個(gè)可見的地面真實(shí)關(guān)鍵點(diǎn)，我們最小化了-way?softmax輸出上的交叉熵?fù)p失（這鼓勵(lì)單個(gè)點(diǎn)被檢測(cè)）。我們注意到，在實(shí)例分割中，K個(gè)關(guān)鍵點(diǎn)仍然被獨(dú)立處理。

????????我們采用ResNet-FPN變體，關(guān)鍵點(diǎn)頭結(jié)構(gòu)類似于圖4（右）。關(guān)鍵點(diǎn)頭由8個(gè)3×3 512-dconv層組成，然后是一個(gè)解波層和2×雙線性升級(jí)，產(chǎn)生的輸出分辨率為56×56。我們發(fā)現(xiàn)，一個(gè)相對(duì)較高的分辨率輸出（相對(duì)于掩模）是需要的關(guān)鍵點(diǎn)級(jí)的定位精度。

????????

?????????模型在所有包含注釋關(guān)鍵點(diǎn)的COCO訓(xùn)練35k圖像上進(jìn)行訓(xùn)練。為了減少過(guò)擬合，由于這個(gè)訓(xùn)練集較小，我們使用從[640,800]像素中隨機(jī)采樣的圖像尺度進(jìn)行訓(xùn)練；推理是在800像素的單一尺度上。我們訓(xùn)練90k次迭代，從0.02的學(xué)習(xí)率開始，在60k和80k次迭代中減少10次。我們使用閾值為0.5的邊界框NMS。其他細(xì)節(jié)與3.1中提到的相同。

Main Results and Ablations:我們?cè)u(píng)估了人的關(guān)鍵點(diǎn)AP()，并使用ResNet-50-FPN骨干進(jìn)行了實(shí)驗(yàn)；更多的骨干將在附錄中進(jìn)行研究。表4顯示，我們的結(jié)果(62.7)比使用多階段處理管道的COCO2016關(guān)鍵點(diǎn)檢測(cè)贏家[6]高出0.9個(gè)點(diǎn)（見表4的標(biāo)題）。我們的方法相當(dāng)簡(jiǎn)單、更快。更重要的是，我們有一個(gè)統(tǒng)一的模型，它可以在以5幀/秒的速度運(yùn)行時(shí)，同時(shí)預(yù)測(cè)box、圖像分割和關(guān)鍵點(diǎn)。添加一個(gè)段分支（用于人員類別）可以將的測(cè)試開發(fā)級(jí)別提高到63.1（表4）。多任務(wù)學(xué)習(xí)的應(yīng)用見表5。將mask分支添加到僅限框(即Faster R-CNN)或僅關(guān)鍵點(diǎn)版本中，可以持續(xù)改進(jìn)這些任務(wù)。然而，添加關(guān)鍵點(diǎn)分支會(huì)略微減少box/mask AP，這表明雖然關(guān)鍵點(diǎn)檢測(cè)受益于多任務(wù)訓(xùn)練，但它反過(guò)來(lái)并不能幫助其他任務(wù)。然而，共同學(xué)習(xí)所有三個(gè)任務(wù)可以使一個(gè)統(tǒng)一的系統(tǒng)能夠同時(shí)有效地預(yù)測(cè)所有輸出（圖7）。 ????????我們還研究了RoIAlign對(duì)關(guān)鍵點(diǎn)檢測(cè)的影響（表6）。雖然這個(gè)ResNet-50-FPN主干有更精細(xì)的進(jìn)步（例如，在最好的水平上是4像素），RoIAlign仍然比RoIPool有顯著的改進(jìn)，并將APkp提高了4.4個(gè)點(diǎn)。這是因?yàn)殛P(guān)鍵點(diǎn)檢測(cè)對(duì)定位精度更為敏感。這再次表明，對(duì)齊對(duì)于像素級(jí)定位至關(guān)重要，包括掩模和關(guān)鍵點(diǎn)。 ????????考慮到MaskR-CNN在提取對(duì)象邊界框、掩碼和關(guān)鍵點(diǎn)方面的有效性，我們期望它能成為其他實(shí)例級(jí)任務(wù)的有效框架。

Appendix A: Experiments on Cityscapes

????????我們進(jìn)一步報(bào)告了在城市景觀[7]數(shù)據(jù)集上的實(shí)例分割結(jié)果。該數(shù)據(jù)集對(duì)2975訓(xùn)練集、500張驗(yàn)證集和1525張測(cè)試集圖像都有很好的注釋。它有20k個(gè)粗訓(xùn)練圖像，沒(méi)有實(shí)例注釋，我們不使用這些注釋。所有圖像均為2048×1024像素。實(shí)例分割任務(wù)涉及8個(gè)對(duì)象類別，其在精細(xì)訓(xùn)練集上的實(shí)例數(shù)量為：?

該任務(wù)上的實(shí)例分割性能可以通過(guò)coco-style的mask AP(平均超過(guò)IoU閾值)來(lái)衡量；還報(bào)告了AP50(即IoU為0.5時(shí)的mask AP)。?

????????Implementation: 我們用Mask R-CNN模型應(yīng)用ResNet-FPN-50；我們發(fā)現(xiàn)由于數(shù)據(jù)集大小小，101層對(duì)應(yīng)的性能類似。我們使用從[800,1024]中隨機(jī)采樣的圖像尺度（更短的邊）進(jìn)行訓(xùn)練，這減少了過(guò)擬合；推理是在1024個(gè)像素的單個(gè)尺度上。我們使用每個(gè)GPU1個(gè)圖像的小批量大小(8個(gè)GPU上有8個(gè))，并對(duì)模型進(jìn)行24k迭代訓(xùn)練，從學(xué)習(xí)速率0.01開始，在18k迭代時(shí)將其減少到0.001。在這個(gè)設(shè)置下，在一臺(tái)8-GPU機(jī)器上需要4小時(shí)的訓(xùn)練。

???????Results: 表7將我們的結(jié)果與驗(yàn)證集和測(cè)試集的現(xiàn)狀進(jìn)行了比較。在不使用粗訓(xùn)練集的情況下，我們的方法在測(cè)試中達(dá)到了26.2AP，比之前的最佳條目(DIN[3])相對(duì)提高了30%以上，也優(yōu)于SGN的25.0[29]的并行工作。DIN和SGN都使用精細(xì)的+粗?jǐn)?shù)據(jù)。與僅使用精細(xì)數(shù)據(jù)(17.4AP)的最佳條目相比，我們實(shí)現(xiàn)了～50%的改進(jìn)。

????????對(duì)于個(gè)人和汽車類別，城市景觀數(shù)據(jù)集顯示了大量的類別內(nèi)重疊實(shí)例（平均每張圖片有6人和9輛車）。我們認(rèn)為類別內(nèi)重疊是實(shí)例分割的核心難點(diǎn)。我們的方法在這兩個(gè)類別上有了巨大的改進(jìn)（相對(duì)～從21.8提高到30.5，～從39.4提高到46.9提高了20%），盡管我們的方法沒(méi)有利用粗?jǐn)?shù)據(jù)。

????????城市景觀數(shù)據(jù)集的一個(gè)主要挑戰(zhàn)是在低數(shù)據(jù)狀態(tài)下訓(xùn)練模型，特別是對(duì)于卡車、公共汽車和火車的類別，每個(gè)樣本大約有200-500個(gè)訓(xùn)練樣本。為了部分解決這個(gè)問(wèn)題，我們進(jìn)一步報(bào)告了使用COCO預(yù)培訓(xùn)的結(jié)果。為此，我們從預(yù)先訓(xùn)練過(guò)的COCO MaskR-CNN模型（隨機(jī)初始化騎手）中初始化城市景觀中相應(yīng)的7個(gè)類別。我們對(duì)4k次迭代進(jìn)行微調(diào)，其中3k次迭代時(shí)學(xué)習(xí)率降低，給定COCO模型需要～1小時(shí)的～訓(xùn)練。

????????COCO預(yù)訓(xùn)練的MaskR-CNN模型在測(cè)試中達(dá)到了32.0AP，幾乎比僅精細(xì)的模型提高了6個(gè)points。這表明了訓(xùn)練數(shù)據(jù)的量所發(fā)揮的重要作用。這也表明，城市景觀的方法可能受到其低射學(xué)習(xí)表現(xiàn)的影響。我們表明，使用COCO預(yù)訓(xùn)練是一種有效的策略

????????最后，我們觀察到val和testAP之間的偏差，從[23,4,29]的結(jié)果中也觀察到。我們發(fā)現(xiàn)，這種偏差主要是由卡車、公交車和火車類別引起的，僅精細(xì)模型的驗(yàn)證集/測(cè)試集AP分別為28.8/22.8、53.5/32.2和33.0/18.6。這表明這些類別存在領(lǐng)域轉(zhuǎn)移，這些類別也沒(méi)有訓(xùn)練數(shù)據(jù)。COCO預(yù)訓(xùn)練最有助于提高這些類別的結(jié)果；然而，38.0/30.1、57.5/40.9和41.2/30.9val/測(cè)試AP的領(lǐng)域轉(zhuǎn)移分別持續(xù)存在。請(qǐng)注意，對(duì)于個(gè)人和汽車類別，我們沒(méi)有看到任何這樣的偏差(val/測(cè)試AP在±1分范圍內(nèi))。關(guān)于城市景觀的示例結(jié)果如圖8所示。

????????

Appendix B: Enhanced Results on COCO

?????????作為一個(gè)通用框架，MaskR-CNN與用于檢測(cè)/分割開發(fā)的互補(bǔ)技術(shù)兼容，包括對(duì)快速/快速的R-CNN和FCNs的改進(jìn)。在本附錄中，我們將描述一些改進(jìn)于原始結(jié)果的技術(shù)。由于其通用性和靈活性，MaskR-CNN被COCO2017實(shí)例分割競(jìng)賽中的三個(gè)獲勝團(tuán)隊(duì)使用作為框架，它們都顯著優(yōu)于之前的技術(shù)水平。

Instance Segmentation and Object Detection????????

????????我們?cè)诒?中報(bào)告了MaskR-CNN的一些增強(qiáng)結(jié)果。總的來(lái)說(shuō)，改進(jìn)增加了mask AP 5.1個(gè)points（從36.7增加到41.8）和AP 7.7個(gè)points（從39.6增加到47.3）。每個(gè)模型改進(jìn)都一致地增加了mask? AP和box AP，顯示了Mask R-CNN框架的良好泛化。接下來(lái)，我們將詳細(xì)說(shuō)明這些改進(jìn)的內(nèi)容。這些結(jié)果，以及未來(lái)的更新，可以通過(guò)我們?cè)?span style="color:#ed028c;">https://github.com/facebookresearch/Detectron上發(fā)布的代碼進(jìn)行復(fù)制，并可以作為未來(lái)研究的更高的基線。?

????????Updated baseline: 我們從使用一組不同的超參數(shù)的更新的基線開始。我們將訓(xùn)練時(shí)間延長(zhǎng)到180k次迭代，其中在120k次迭代和160k次迭代時(shí)，學(xué)習(xí)率降低了10次。我們還將NMS閾值更改為0.5（從默認(rèn)值更為0.3）。更新后的基線有37.0Mask AP和40.5box AP。

???????End-to-end training:之前所有的結(jié)果均采用階段訓(xùn)練，即訓(xùn)練RPN作為第一階段，MaskR-CNN作為第二階段。在[37]之后，我們?cè)u(píng)估了聯(lián)合訓(xùn)練RPN和Mask RCNN的端到端(‘e2e’)訓(xùn)練。我們?cè)赱37]中采用了“近似”版本，它只通過(guò)忽略梯度w.r.t.來(lái)計(jì)算RoIAlign層中的部分梯度RoI坐標(biāo)。表8顯示，e2e訓(xùn)練使Mask AP提高了0.6，box AP提高了1.2。

????????ImageNet-5k pre-training: 在[45]之后，我們?cè)贗mageNet的一個(gè)5k類子集上實(shí)驗(yàn)使用預(yù)訓(xùn)練的模型(與標(biāo)準(zhǔn)的1k類子集相比)。訓(xùn)練前數(shù)據(jù)的5×增加改善了mask和box AP。作為參考，[40]使用了～250×更多的圖像(300M)，并報(bào)告了其基線上的2-3盒AP改善。

????????Train-time augmentation:訓(xùn)練時(shí)間的規(guī)模增加進(jìn)一步提高了結(jié)果。在訓(xùn)練過(guò)程中，我們從[640,800]個(gè)像素中隨機(jī)抽取一個(gè)量表，并將迭代次數(shù)增加到260k(在200k和240k迭代時(shí)，學(xué)習(xí)率減少了10次)。列車時(shí)間增強(qiáng)使mask AP提高0.6，box AP提高0.8。

???????Model architecture: 通過(guò)將101層ResNeXt升級(jí)到152層對(duì)應(yīng)的[19]，我們觀察到增加了0.5個(gè)mask AP和0.6個(gè)box AP的增加。這表明，一個(gè)更深層次的模型仍然可以提高COCO的結(jié)果。

????????利用最近提出的非局部(NL)模型[43]，我們實(shí)現(xiàn)了40.3mask AP和45.0box AP。這個(gè)結(jié)果沒(méi)有測(cè)試時(shí)間的增加，該方法在Nvidia Tesla P100 GPU上以3幀每秒的速度運(yùn)行。

????????Test-time augmentation: 我們結(jié)合使用[400,1200]像素的尺度和100，并在它們的水平翻轉(zhuǎn)。這給了我們一個(gè)41.8mask AP和47.3box AP的單模結(jié)果。

????????上述結(jié)果是我們提交COCO2017CO競(jìng)賽的基礎(chǔ)（該競(jìng)賽也使用了一個(gè)集合，這里沒(méi)有討論）。據(jù)報(bào)道，實(shí)例分割任務(wù)的前三個(gè)獲勝團(tuán)隊(duì)都是基于MaskR-CNN框架的擴(kuò)展。

Keypoint Detection??????

????????我們?cè)诒?中報(bào)告了關(guān)鍵點(diǎn)檢測(cè)的增強(qiáng)結(jié)果。作為一個(gè)更新的基線，我們將訓(xùn)練計(jì)劃擴(kuò)展到130k次迭代，其中100k次迭代和120k次迭代的學(xué)習(xí)率降低了10次。這將APkp提高了大約1個(gè)點(diǎn)。用ResNet-101和ResNeXt-101取代ResNet-50，使APkp分別增加到66.1和67.3。

????????通過(guò)最近一種被稱為數(shù)據(jù)蒸餾[35]的方法，我們能夠利用COCO提供的額外的12萬(wàn)張未標(biāo)記圖像。簡(jiǎn)而言之，數(shù)據(jù)蒸餾是一種自我訓(xùn)練策略，它使用在標(biāo)記數(shù)據(jù)上訓(xùn)練的模型來(lái)預(yù)測(cè)未標(biāo)記圖像上的注釋，然后使用這些新的注釋更新模型。MaskR-CNN為這種自我訓(xùn)練策略提供了一個(gè)有效的框架。通過(guò)數(shù)據(jù)蒸餾，MaskR-CNNAPkp提高了1.8個(gè)points，達(dá)到69.1個(gè)points。我們觀察到，MaskR-CNN可以從額外的數(shù)據(jù)中獲益，即使這些數(shù)據(jù)是未標(biāo)記的。

????????通過(guò)使用與實(shí)例分割相同的測(cè)試時(shí)間增強(qiáng)，我們進(jìn)一步將APkp提高到70.4。

總結(jié)

以上是生活随笔為你收集整理的论文精读：Mask R-CNN的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：浅谈APT攻击
下一篇：在查找预编译头时遇到意外的文件结尾。是否