日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文精读:Mask R-CNN

發(fā)布時(shí)間:2023/12/15 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文精读:Mask R-CNN 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Abstract

????????我們提出了一個(gè)概念上簡(jiǎn)單、靈活和通用的對(duì)象實(shí)例分割框架。我們的方法可以有效地檢測(cè)圖像中的對(duì)象,同時(shí)為每個(gè)實(shí)例生成一個(gè)高質(zhì)量的分割掩模。該方法被稱為MaskR-CNN,通過(guò)與現(xiàn)有用于邊界和識(shí)別的分支并行的R-CNN。MaskR-CNN訓(xùn)練很簡(jiǎn)單,只比Faster R-CNN增加了一小部分開銷,以5幀/秒的速度運(yùn)行。此外,Mask R-CNN很容易推廣到其他任務(wù)中,例如,允許我們?cè)谙嗤目蚣芟鹿烙?jì)人體姿態(tài)。我們展示了COCO挑戰(zhàn)套件的所有三個(gè)軌道的頂級(jí)結(jié)果,包括實(shí)例分割、邊界框目標(biāo)檢測(cè)和個(gè)人關(guān)鍵點(diǎn)檢測(cè)。在沒(méi)有花哨功能的情況下,MaskR-CNN在每項(xiàng)任務(wù)上都優(yōu)于所有現(xiàn)有的單模型條目,包括2016年COCO挑戰(zhàn)的獲勝者。我們希望我們的簡(jiǎn)單而有效的方法將作為一個(gè)堅(jiān)實(shí)的基線,并有助于簡(jiǎn)化未來(lái)的實(shí)例級(jí)識(shí)別研究。代碼已在https://github.com/ facebookresearch/Detectron.

1. Introduction

????????視覺(jué)社區(qū)在短時(shí)間內(nèi)快速提高了目標(biāo)檢測(cè)和語(yǔ)義分割的結(jié)果。在很大程度上,這些進(jìn)步是由強(qiáng)大的基線系統(tǒng)驅(qū)動(dòng)的,如分別用于目標(biāo)檢測(cè)和語(yǔ)義分割的Faster RCNN[12,36]和全卷積網(wǎng)絡(luò)(FCN)[30]框架。這些方法在概念上是直觀的,并提供了靈活性和魯棒性,以及快速的訓(xùn)練和推理時(shí)間。我們?cè)谶@項(xiàng)工作中的目標(biāo)是為實(shí)例分割開發(fā)一個(gè)比較可行的框架。????????

????????實(shí)例分割是具有挑戰(zhàn)性的,因?yàn)樗枰_地檢測(cè)圖像中的所有對(duì)象,同時(shí)也需要精確地分割每個(gè)實(shí)例。因此,它結(jié)合了經(jīng)典的對(duì)象檢測(cè)計(jì)算機(jī)視覺(jué)任務(wù)中的元素,其中目標(biāo)是對(duì)單個(gè)對(duì)象進(jìn)行分類,并使用邊界框?qū)γ總€(gè)對(duì)象進(jìn)行定位,以及語(yǔ)義分割,其中目標(biāo)是將每個(gè)像素分類為一組固定的類別,而不區(qū)分對(duì)象實(shí)例。1.有鑒于此,人們可能會(huì)認(rèn)為需要一種復(fù)雜的方法來(lái)獲得良好的結(jié)果。然而,我們證明了一個(gè)驚人的簡(jiǎn)單、靈活和快速的系統(tǒng)可以超越先前的最先進(jìn)的實(shí)例分割結(jié)果。

????????我們的方法,稱為MaskR-CNN,擴(kuò)展了Faster R-CNN[36],通過(guò)添加一個(gè)分支用于預(yù)測(cè)每個(gè)感興趣區(qū)域(RoI)上的分割掩模,與現(xiàn)有的用于分類和邊界盒回歸的分支并行(圖1)。掩模分支是一個(gè)應(yīng)用于每個(gè)RoI的小FCN,以像素-頂像素的方式預(yù)測(cè)分割掩模。MaskR-CNN易于實(shí)現(xiàn)和訓(xùn)練,并且囊括了Faster R-CNN框架,這促進(jìn)了廣泛的靈活的架構(gòu)設(shè)計(jì)。此外,掩模分支只增加了一個(gè)小的計(jì)算開銷,支持一個(gè)快速的系統(tǒng)和快速的實(shí)驗(yàn)。

?????????原則上,Mask R-CNN是對(duì)Faster R-CNN的直觀擴(kuò)展,但正確地構(gòu)建掩碼分支對(duì)于良好的結(jié)果是至關(guān)重要的。最重要的是,Faster RCNN并不是為網(wǎng)絡(luò)輸入和輸出之間的像素對(duì)像素對(duì)齊而設(shè)計(jì)的。這一點(diǎn)最明顯的是RoIPool[18,12],事實(shí)上的處理實(shí)例的核心操作,如何執(zhí)行特征提取的粗空間量化。為了解決這種錯(cuò)位,我們提出了一個(gè)簡(jiǎn)單的、無(wú)量化的層,稱為RoI Align,它忠實(shí)地保留了精確的空間位置。

????????盡管這似乎是一個(gè)微小的變化,但RoI Align有很大的影響:它將掩模精度相對(duì)提高了相對(duì)10%到50%,在更嚴(yán)格的本地化指標(biāo)下顯示出更大的收益。其次,我們發(fā)現(xiàn)解耦掩模和類預(yù)測(cè)是至關(guān)重要的:我們?yōu)槊總€(gè)類獨(dú)立預(yù)測(cè)一個(gè)二進(jìn)制掩模,沒(méi)有類之間的競(jìng)爭(zhēng),并依賴網(wǎng)絡(luò)的RoI分類分支來(lái)預(yù)測(cè)類別。相比之下,FCN通常執(zhí)行每像素的多類分類,這結(jié)合了分割和分類,并且基于我們的實(shí)驗(yàn),例如分割的效果很差。

????????在沒(méi)有花哨功能的情況下,MaskR-CNN超越了COCO實(shí)例分割任務(wù)[28]上所有最先進(jìn)的單模型結(jié)果,包括2016年競(jìng)賽獲勝者的大量作品。作為一個(gè)副產(chǎn)品,我們的方法也擅長(zhǎng)于COCO目標(biāo)檢測(cè)任務(wù)。在消融實(shí)驗(yàn)中,我們?cè)u(píng)估了多個(gè)基本實(shí)例,這使我們能夠證明其穩(wěn)健性,并分析核心因素的影響。

????????我們的模型在GPU上可以以每幀約200 ms的速度運(yùn)行,在一臺(tái)8-GPU機(jī)器上訓(xùn)練COCO需要一到兩天的時(shí)間。我們相信,快速的訓(xùn)練和測(cè)試速度,以及框架的靈活性和準(zhǔn)確性,將有利于和簡(jiǎn)化未來(lái)的實(shí)例分割研究。

????????最后,我們通過(guò)對(duì)COCO關(guān)鍵點(diǎn)數(shù)據(jù)集[28]上的人體姿態(tài)估計(jì)任務(wù),展示了我們的框架的通用性。通過(guò)將每個(gè)關(guān)鍵點(diǎn)視為一個(gè)熱的二進(jìn)制掩碼,用最小的修改,Mask R-CNN可以應(yīng)用于檢測(cè)特定于實(shí)例的姿態(tài)。MaskR-CNN超過(guò)了2016年COCO關(guān)鍵點(diǎn)比賽的獲勝者,同時(shí)以5幀/秒的速度運(yùn)行。因此,MaskR-CNN可以被更廣泛地看作是一個(gè)用于實(shí)例級(jí)識(shí)別的靈活框架,并且可以很容易地?cái)U(kuò)展到更復(fù)雜的任務(wù)。

????????

2. Related Work

????????R-CNN:基于區(qū)域的CNN(R-CNN)的邊界框目標(biāo)檢測(cè)方法[13]是關(guān)注可管理數(shù)量的候選對(duì)象區(qū)域[42,20],并在每個(gè)RoI上獨(dú)立評(píng)估卷積網(wǎng)絡(luò)[25,24]。R-CNN擴(kuò)展了[18,12],允許使用RoIPool在特征圖上關(guān)注RoIs,從而實(shí)現(xiàn)快速的速度和更好的準(zhǔn)確性。Faster R-CNN[36]通過(guò)學(xué)習(xí)區(qū)域建議網(wǎng)絡(luò)(RPN)學(xué)習(xí)注意機(jī)制來(lái)推進(jìn)這一流。Faster R-CNN對(duì)于許多后續(xù)改進(jìn)(例如,[38,27,21])是靈活和健壯的,并且是當(dāng)前幾個(gè)基準(zhǔn)測(cè)試中的領(lǐng)先框架。?

???????Instance Segmentation: :受RCNN的有效性的驅(qū)動(dòng),許多實(shí)例分割的方法都是基于分段建議的。早期的方法[13,15,16,9]采用自下而上的節(jié)段[42,2]。DeepMask[33]和以下工作[34,8]學(xué)習(xí)提出候選片段,然后通過(guò)Fast R-CNN進(jìn)行分類。在這些方法中,分割先于識(shí)別,識(shí)別速度慢,精度較低。同樣,Dai等人[10]提出了一個(gè)復(fù)雜的多階段級(jí)聯(lián),從邊界框建議中預(yù)測(cè)分段建議,然后進(jìn)行分類。相反,我們的方法是基于掩模和類標(biāo)簽的并行預(yù)測(cè),這更簡(jiǎn)單、更靈活。

????????最近,Li等人[26]將[8]中的分割建議系統(tǒng)和[11]中的目標(biāo)檢測(cè)系統(tǒng)相結(jié)合,進(jìn)行“全卷積實(shí)例分割”(FCIS)。[8,11,26]中常見的想法是完全卷積地預(yù)測(cè)一組位置敏感的輸出通道。這些通道同時(shí)處理對(duì)象類、框和掩碼,使系統(tǒng)速度快。但是FCIS在重疊的實(shí)例上表現(xiàn)出了系統(tǒng)的錯(cuò)誤,并產(chǎn)生了虛假的邊緣(圖6),這表明它受到了分割實(shí)例的基本困難的挑戰(zhàn)。

????????另一類實(shí)例分割的解決方案是由語(yǔ)義分割的成功驅(qū)動(dòng)的。從每個(gè)像素的分類結(jié)果(例如,FCN輸出)開始,這些方法試圖將同一類別的像素切割為不同的實(shí)例。與這些方法的分割優(yōu)先策略相比,MaskR-CNN是基于實(shí)例優(yōu)先策略的。我們希望在未來(lái)將對(duì)這兩種策略進(jìn)行更深入的結(jié)合研究。

3. Mask R-CNN

? ? ? ? Mask R-CNN在概念上很簡(jiǎn)單:Faster R-CNN對(duì)每個(gè)候選對(duì)象有兩個(gè)輸出,一個(gè)類標(biāo)簽和一個(gè)邊界框偏移量;對(duì)此,我們添加了第三個(gè)輸出對(duì)象掩碼的分支。因此,Mask R-CNN是一個(gè)自然和直觀的想法。但是附加的掩模輸出不同于類和盒子輸出,需要提取更精細(xì)的對(duì)象空間布局。接下來(lái),我們介紹了MaskR-CNN的關(guān)鍵元素,包括像素對(duì)像素的對(duì)齊,這是Fast/Faster R-CNN的主要缺失部分。

? ? ? ? Faster R-CNN:我們首先簡(jiǎn)要回顧一下Faster R-CNN檢測(cè)器[36]。Faster R-CNN由兩個(gè)階段組成。第一階段,稱為區(qū)域提案網(wǎng)絡(luò)(RPN),提出了候選對(duì)象的邊界框。第二階段,本質(zhì)上是FastR-CNN[12],使用RoIPool從每個(gè)候選框中提取特征,并進(jìn)行分類和邊界框回歸。這兩個(gè)階段所使用的特性可以被共享,以便更快地進(jìn)行推斷。我們建議讀者參考[21],以了解Faster R-CNN和其他框架之間最新、全面的比較

????????MaskR-CNN:MaskR-CNN采用相同的兩階段程序,具有相同的第一階段(即RPN)。在第二階段,與預(yù)測(cè)類和盒偏移量的同時(shí),Mask R-CNN還為每個(gè)RoI輸出一個(gè)二進(jìn)制掩碼。這與最近的系統(tǒng)相反,后者的分類依賴于掩模預(yù)測(cè)(例如[33,10,26])。我們的方法遵循了FastR-CNN[12]的精神,即并行應(yīng)用邊界盒分類和回歸(這在很大程度上簡(jiǎn)化了原始R-CNN[13]的多階段管道)。

????????形式上,在訓(xùn)練期間,我們將每個(gè)采樣RoI上的多任務(wù)損失定義為L(zhǎng)=Lcls+Lbox+Lmask。分類損失Lcls和邊界框損失Lbox與[12]中定義的相同。掩碼分支為每個(gè)RoI有一個(gè)Km二維輸出,它編碼K個(gè)分辨率為m×m的二進(jìn)制掩碼,每個(gè)K個(gè)類一個(gè)。為此,我們應(yīng)用每像素s型,并將Lmask定義為平均二進(jìn)制交叉熵?fù)p失。對(duì)于與地面真實(shí)類k相關(guān)聯(lián)的RoI,Lmask只定義在第k個(gè)掩碼上(其他掩碼輸出不會(huì)造成損失)。

????????我們對(duì)Lmask的定義允許網(wǎng)絡(luò)為每個(gè)類生成掩碼,而無(wú)需類之間的競(jìng)爭(zhēng);我們依賴于專用的分類分支來(lái)預(yù)測(cè)用于選擇輸出掩碼的類標(biāo)簽。這可以解耦掩碼和類預(yù)測(cè)。這與將FCNs[30]應(yīng)用于語(yǔ)義分割時(shí)的常見做法不同,后者通常使用每像素的softmax和多項(xiàng)式交叉熵?fù)p失。在這種情況下,跨類的掩碼相互競(jìng)爭(zhēng);在我們的例子中,對(duì)于每像素的s型和二進(jìn)制損失,它們不會(huì)。實(shí)驗(yàn)結(jié)果表明,該公式是獲得良好的實(shí)例分割結(jié)果的關(guān)鍵。

????????

????????Mask Representation: 掩碼對(duì)輸入對(duì)象的空間布局進(jìn)行編碼。因此,不同于類標(biāo)簽或盒抵消不可避免地被全連接(fc)層分解為短輸出向量,提取掩模的空間結(jié)構(gòu)可以通過(guò)卷積提供的像素-像素對(duì)應(yīng)自然地解決。?

????????具體來(lái)說(shuō),我們使用FCN[30]預(yù)測(cè)每個(gè)RoI的m×m掩模。這允許掩模分支中的每一層維護(hù)顯式的m×m對(duì)象空間布局,而不會(huì)將其折疊為缺乏空間維度的向量表示。與以往采用fc層進(jìn)行掩模預(yù)測(cè)[33,34,10]的方法不同,我們的完全卷積表示需要更少的參數(shù),而且通過(guò)實(shí)驗(yàn)證明,它更準(zhǔn)確。

????????具體來(lái)說(shuō),我們使用FCN[30]預(yù)測(cè)每個(gè)RoI的m×m掩模。這允許掩模分支中的每一層維護(hù)顯式的m×對(duì)象空間布局,而不會(huì)將其折疊為缺乏空間維度的向量表示。與以往采用fc層進(jìn)行掩模預(yù)測(cè)[33,34,10]的方法不同,我們的完全卷積表示需要更少的參數(shù),而且通過(guò)實(shí)驗(yàn)證明,它更準(zhǔn)確。

????????RoIAlign:RoIPool[12]是從每個(gè)RoI中提取一個(gè)小的特征映射(例如,7×7)的標(biāo)準(zhǔn)操作。RoIPool首先將浮動(dòng)數(shù)RoI量化為特征映射的離散粒度,然后這個(gè)量化的RoI被細(xì)分為空間箱子,空間箱子本身被量化,最后每個(gè)箱子覆蓋的特征值被聚合(通常通過(guò)最大池化)量化,例如,通過(guò)計(jì)算[x/16]在連續(xù)坐標(biāo)x上執(zhí)行,其中16是一個(gè)特征圖步幅,[·]是四舍五入;同樣,量化在劃分為箱子時(shí)進(jìn)行量化(例如,7×7)。這些量化引入了RoI和提取的特征之間的失調(diào)。雖然這可能不會(huì)影響分類,因?yàn)榉诸悓?duì)小的翻譯是魯棒性的,但它對(duì)預(yù)測(cè)像素準(zhǔn)確的掩模有很大的負(fù)面影響。

????????為了解決這個(gè)問(wèn)題,我們提出了一個(gè)RoIAlign層,它消除了RoIPool的苛刻量化,將提取的特征與輸入正確對(duì)齊。我們提出的更改很簡(jiǎn)單:我們避免了RoI邊界或bins的任何量化(即,我們使用x/16而不是[x/16])。我們使用雙線性插值[22]來(lái)計(jì)算每個(gè)RoIbin中四個(gè)定期采樣位置的輸入特征的精確值,并將結(jié)果聚合(使用最大值或平均值),詳見圖3。我們注意到,只要不進(jìn)行量化,結(jié)果對(duì)精確的采樣位置或采樣點(diǎn)不敏感。

????????正如我們?cè)?.2中所示,RoI Align導(dǎo)致了很大的改進(jìn)。我們還比較了在[10]中提出的RoI Warp操作。與RoI Align不同,RoI Warp忽略了對(duì)齊問(wèn)題,并在[10]中實(shí)現(xiàn)為量化RoIPool一樣。因此,盡管RoIWarp也采用了由[22]驅(qū)動(dòng)的雙線性重采樣,但它的性能與RoIPool相當(dāng)(更多細(xì)節(jié)見表2c),證明了對(duì)齊的關(guān)鍵作用。

????????Network Architecture: :為了演示我們的方法的通用性,我們用多個(gè)架構(gòu)實(shí)例化了MaskR-CNN。為了清晰起見,我們區(qū)分了:(i)用于整個(gè)圖像的特征提取的卷積主干架構(gòu),以及(ii)用于邊界盒識(shí)別(分類和回歸)和掩碼預(yù)測(cè)的網(wǎng)絡(luò)頭,它們分別應(yīng)用于每個(gè)RoI。

????????我們使用命名法網(wǎng)絡(luò)深度特征來(lái)表示主干架構(gòu)。我們?cè)u(píng)估了深度為50層或101層的ResNet[19]和ResNeXt[45]網(wǎng)絡(luò)。使用ResNets[19]的Faster R-CNN的原始實(shí)現(xiàn)從第4階段的最終卷積層中提取了特征,我們稱之為C4。例如,這個(gè)具有ResNet-50的主干用ResNet-50-C4表示。這是[19,10,21,39]中常用的一種選擇。

????????我們還探索了由Lin等人[27]最近提出的另一個(gè)更有效的主干,稱為特征金字塔網(wǎng)絡(luò)(FPN)。FPN使用一個(gè)帶有橫向連接的自頂向下架構(gòu),從單尺度輸入構(gòu)建一個(gè)網(wǎng)絡(luò)內(nèi)特征金字塔。使用FPN主干的Faster R-CNN根據(jù)其規(guī)模從特征金字塔的不同級(jí)別提取RoI特征,但在此之外,其他方法類似于普通的ResNet。使用ResNet-FPN骨干與Mask RCNN進(jìn)行特征提取,在準(zhǔn)確性和速度上都獲得了極好的收益。有關(guān)FPN的更多細(xì)節(jié),請(qǐng)向讀者參考[27]。

????????對(duì)于網(wǎng)絡(luò)頭,我們密切遵循之前工作中提出的架構(gòu),其中我們添加了一個(gè)完全卷積掩碼預(yù)測(cè)分支。具體來(lái)說(shuō),我們從ResNet[19]和FPN[27]的論文中擴(kuò)展了Faster R-CNN盒頭。詳細(xì)信息如圖4所示。ResNet-C4主干上的頭部包括ResNet的第5階段(即9層的res5‘[19]),這是計(jì)算密集型的。對(duì)于FPN,主干已經(jīng)包括res5,因此允許一個(gè)更有效的頭,使用更少的過(guò)濾器.

????????我們注意到,我們的掩模分支有一個(gè)簡(jiǎn)單的結(jié)構(gòu)。更復(fù)雜的設(shè)計(jì)有潛力提高性能,但這并不是這項(xiàng)工作的重點(diǎn)。

3.1. Implementation Details

????????我們?cè)诂F(xiàn)有的Fast/Faster R-CNN工作[12,36,27]之后設(shè)置超參數(shù)。雖然這些決策是在原始論文[12,36,27]中為目標(biāo)檢測(cè)而做出的,但我們發(fā)現(xiàn)我們的實(shí)例分割系統(tǒng)對(duì)它們具有魯棒性。?

????????Training: :就像在FastR-CNN中一樣,如果一個(gè)IoI有IoU和一個(gè)至少為0.5的地面真值盒,則被認(rèn)為是正的,否則是負(fù)的。掩模丟失Lmask僅在正RoIs上定義。掩碼目標(biāo)是RoI與其相關(guān)的地面真實(shí)掩模之間的交集。

????????我們采用以圖像為中心的訓(xùn)練[12]。圖像的調(diào)整使其比例(較短的邊緣)為800像素[27]。每個(gè)小批每個(gè)GPU有2張圖像,每張圖像有N個(gè)采樣roi,正[12]與負(fù)[12]的比例為1:3。C4主干N為64(如[12,36]),FPN N為512(如[27])。我們?cè)?個(gè)gpu(有效小批量大小為16)上進(jìn)行160k迭代訓(xùn)練,學(xué)習(xí)速率為0.02,在120k迭代時(shí)降低了10。我們使用的權(quán)重衰減為0.0001,動(dòng)量為0.9。使用ResNeXt[45],我們?yōu)槊總€(gè)GPU訓(xùn)練1張圖像和相同次數(shù)的迭代,起始學(xué)習(xí)率為0.01。

????????RPN錨點(diǎn)跨越5個(gè)尺度和3個(gè)長(zhǎng)寬比,遵循[27]。為了方便消融,RPN是單獨(dú)訓(xùn)練的,并且不與MaskR-CNN共享特征,除非有特別說(shuō)明。對(duì)于本文中的每一個(gè)條目,RPN和MaskR-CNN都有相同的主干,因此它們是可共享的。

????????Inference: 在測(cè)試時(shí),C4主干的建議編號(hào)為300(如[36]),FPN的提案編號(hào)為1000(如[27])。我們?cè)谶@些建議上運(yùn)行盒子預(yù)測(cè)分支,然后使用非最大抑制[14]。然后將掩碼分支應(yīng)用于得分最高的100個(gè)檢測(cè)框。盡管這不同于在訓(xùn)練中使用的并行計(jì)算,但它加快了推理速度并提高了準(zhǔn)確性(由于使用了更少、更準(zhǔn)確的roi)。

????????掩碼分支可以預(yù)測(cè)每個(gè)RoI的K個(gè)掩碼,但我們只使用第k個(gè)掩碼,其中k是分類分支預(yù)測(cè)的類。然后,將m×m浮數(shù)掩模輸出的大小調(diào)整為RoI大小,并在閾值為0.5時(shí)進(jìn)行二值化。

????????請(qǐng)注意,由于我們只計(jì)算前100個(gè)檢測(cè)框上的掩碼,Mask R-CNN為其Faster R-CNN增加了一個(gè)小開銷(例如,典型模型上的~20%)。

4. Experiments: Instance Segmentation

????????我們對(duì)Mask R-CNN進(jìn)行了全面的比較,并對(duì)COCO數(shù)據(jù)集[28]進(jìn)行了全面的消融。我們報(bào)告了標(biāo)準(zhǔn)的COCO指標(biāo),包括AP(平均超過(guò)IoU閾值)、AP50、AP75和APS、APM、APL(不同尺度上的AP)。除非特別說(shuō)明,AP正在使用掩模IoU進(jìn)行評(píng)估。與之前的工作[5,27]一樣,我們使用80k訓(xùn)練圖像和35k val圖像子集(訓(xùn)練35k)的并集進(jìn)行訓(xùn)練,并報(bào)告剩余5k val圖像(微型)的消融。我們還報(bào)告了測(cè)試開發(fā)[28]的結(jié)果。

4.1. Main Results

????????我們將MaskR-CNN與表1中最先進(jìn)的實(shí)例分割方法進(jìn)行了比較。我們的模型的所有實(shí)例化都優(yōu)于以前最先進(jìn)的模型的基線變體。這包括MNC[10]和FCIS[26],他們分別是2015年和2016年經(jīng)濟(jì)成本細(xì)分挑戰(zhàn)的贏家。在沒(méi)有附加功能的情況下,具有ResNet-101-FPN骨干的MaskR-CNN的性能優(yōu)于FCIS+++[26],后者包括多尺度訓(xùn)練/測(cè)試、水平翻轉(zhuǎn)測(cè)試和在線硬示例挖掘(OHEM)[38]。雖然在這項(xiàng)工作的范圍之外,但我們希望許多這樣的改進(jìn)也適用于我們的工作。

? ? ? ? Mask R-CNN輸出如圖2和圖5所示。Mask R-CNN即使在具有挑戰(zhàn)性的條件下也能取得良好的效果。在圖6中,我們比較了MaskR-CNN基線和FCIS+++[26]。FCIS+++在重疊的實(shí)例上表現(xiàn)出了系統(tǒng)的偽影,這表明它受到了實(shí)例分割的基本困難的挑戰(zhàn)。MaskR-CNN沒(méi)有顯示這樣的偽影。

4.2. Ablation Experiments

????????我們運(yùn)行了一些消融來(lái)分析Mask R-CNN。結(jié)果如表2所示,接下來(lái)將進(jìn)行詳細(xì)討論

????????Architecture:表2a顯示了具有各種骨干的MaskR-CNN。它受益于更深層次的網(wǎng)絡(luò)(50比101)和先進(jìn)的設(shè)計(jì),包括FPN和ResNeXt。我們注意到,并不是所有的框架都會(huì)自動(dòng)受益于更深層次或高級(jí)的網(wǎng)絡(luò)(參見[21]中的基準(zhǔn)測(cè)試)。????????

????????Multinomial vs. Independent Masks: Mask?R-CNN解耦掩碼和類預(yù)測(cè):由于現(xiàn)有的box分支預(yù)測(cè)類標(biāo)簽,我們?yōu)槊總€(gè)類生成一個(gè)掩碼,而沒(méi)有類之間的競(jìng)爭(zhēng)(通過(guò)每像素的s型和二進(jìn)制損失)。在表2b中,我們將其與使用每像素的softmax和多項(xiàng)損失(如在FCN[30]中常用的)進(jìn)行了比較。這種選擇將掩模和類預(yù)測(cè)的任務(wù)結(jié)合起來(lái),并導(dǎo)致掩模AP的嚴(yán)重?fù)p失(5.5)。這表明,一旦實(shí)例被分類為一個(gè)整體(通過(guò)盒子分支),它就足以預(yù)測(cè)一個(gè)二進(jìn)制掩碼,而不考慮類別,這使得模型更容易訓(xùn)練。

????????Class-Specifific vs. Class-Agnostic Masks: 我們的默認(rèn)實(shí)例化預(yù)測(cè)特定于類的掩碼,即每個(gè)類有一個(gè)m×m個(gè)掩碼。有趣的是,帶有類不可知Mask R-CNN(即,無(wú)論類別都預(yù)測(cè)單個(gè)m×m輸出)幾乎同樣有效:它有29.7 AP,而ResNet-50-C4上的類特定對(duì)應(yīng)物為30.3。這進(jìn)一步強(qiáng)調(diào)了在我們的方法中的勞動(dòng)分工,這在很大程度上解耦了分類和分割。

????????RoIAlign:我們提出的RoIAlign層的評(píng)估見表2c。在這個(gè)實(shí)驗(yàn)中,我們使用了ResNet-50-C4主干,它的步幅為16。RoIAlign比RoIPool提高了約3個(gè)百分點(diǎn),其中大部分收益來(lái)自于高IoU(AP75)。RoIAlign對(duì)最大/平均池不敏感;我們?cè)谡撐牡钠溆嗖糠质褂闷骄怠?/p>

????????此外,我們還與MNC[10]中提出的同樣采用雙線性抽樣的RoIWarp進(jìn)行了比較。如3中所討論的,RoIWarp仍然量化RoI,失去與輸入的對(duì)齊。從表2c中可以看出,RoIWarp的性能與RoIPool相當(dāng),但比RoIAlign要差得多。這強(qiáng)調(diào)了正確的對(duì)齊是關(guān)鍵

????????我們還評(píng)估了使用ResNet-50-C5主干的RoIAlign,它有更大的步幅,為32像素。我們使用與圖4(右)相同的頭,因?yàn)閞es5頭不適用。表2d顯示,RoIAlign將AP提高了7.3個(gè)百分點(diǎn),AP75提高了10.5個(gè)百分點(diǎn)(相對(duì)提高了50%)。此外,我們注意到,在RoIAlign中,使用步幅-32C5特征(30.9AP)比使用步幅-16C4特征(30.3AP,表2c)更準(zhǔn)確。RoIAlign在很大程度上解決了長(zhǎng)期以來(lái)使用大步幅特征進(jìn)行檢測(cè)和分割的挑戰(zhàn)。

????????最后,RoIAlign在與FPN一起使用時(shí)顯示了1.5 mask AP和0.5boxAP,具有更精細(xì)的多級(jí)步幅。對(duì)于需要更精細(xì)的對(duì)齊的關(guān)鍵點(diǎn)檢測(cè),RoIAlign即使在使用FPN時(shí)也顯示出了很大的增益(表6)。

????????Mask Branch: 分割是一個(gè)像素到像素的任務(wù),我們利用FCN利用掩模的空間布局。在表2e中,我們使用ResNet-50-FPN骨干,比較了多層感知器(MLP)和FCNs。使用FCNs得到的掩模AP增益為2.1。我們注意到,我們選擇這個(gè)主干是為了使FCN頭部的conv層沒(méi)有經(jīng)過(guò)預(yù)先訓(xùn)練,以便與MLP進(jìn)行公平的比較。

4.3. Bounding Box Detection Results

????????我們將MaskR-CNN與表3中最先進(jìn)的COCO邊界框?qū)ο髾z測(cè)進(jìn)行了比較。對(duì)于這個(gè)結(jié)果,即使訓(xùn)練了完整的MaskR-CNN模型,在推理中也只使用分類和框輸出(忽略掩碼輸出)。使用ResNet-101-FPN的MaskR-CNN優(yōu)于之前所有最先進(jìn)模型的基本變體,包括GRMI[21]的單模型變體,COCO2016檢測(cè)挑戰(zhàn)的贏家。使用ResNeXt-101-FPN,MaskR-CNN進(jìn)一步改進(jìn)了結(jié)果,與[39]之前最好的單個(gè)模型條目(使用初始-ResNet-v2-TDM)相比,有3.0point的邊界框AP。?

????????作為進(jìn)一步的比較,我們訓(xùn)練了一個(gè)版本的Mask R-CNN,但沒(méi)有掩碼分支,在表3中用“Faster R-CNN,RoIAlign”表示。由于RoIAlign,該模型的性能不如[27]中提出的模型。另一方面,它比MaskR-CNN低0.9點(diǎn)。因此,MaskR-CNN在盒子檢測(cè)上的差距僅僅是由于多任務(wù)訓(xùn)練的好處。

????????最后,我們注意到MaskR-CNN在mask和boxAP之間之間有一個(gè)小的差距:例如,37.1(mask,表1)和39.8(box,表3)之間有2.7百分點(diǎn)的差距。這表明,我們的方法在很大程度上縮小了目標(biāo)檢測(cè)和更具挑戰(zhàn)性的實(shí)例分割任務(wù)之間的差距。

4.4. Timing????????

???????Inference: 我們訓(xùn)練了一個(gè)ResNet-101-FPN模型,該模型在RPN和MaskR-CNN階段之間共享特征,遵循Faster R-CNN[36]的4步訓(xùn)練。該型號(hào)在Nvidia Tesla??M40GPU上以每張圖像195 ms的速度運(yùn)行(加上15 ms的CPU時(shí)間將輸出調(diào)整為原始分辨率),并在統(tǒng)計(jì)上實(shí)現(xiàn)了與未共享的相同的掩碼AP。我們還報(bào)告了ResNet-101-C4變體需要~400ms,因?yàn)樗幸粋€(gè)更重的盒頭(圖4),所以我們不建議在實(shí)踐中使用C4變體。?

????????雖然MaskR-CNN速度很快,但我們注意到我們的設(shè)計(jì)并沒(méi)有為速度進(jìn)行優(yōu)化,而且[21]可以實(shí)現(xiàn)更好的速度/精度的權(quán)衡,例如,通過(guò)改變圖像大小和提案號(hào),這超出了本文的范圍。

? ? ? ? training:MaskR-CNN的訓(xùn)練速度也很快。在我們同步的8-GPU實(shí)現(xiàn)中,使用ResNet-50-FPN進(jìn)行COCO訓(xùn)練需要32小時(shí)(每16個(gè)圖像小批0.72秒),使用ResNet-101-FPN需要44小時(shí)。事實(shí)上,快速的原型設(shè)計(jì)可以在不到一天的時(shí)間內(nèi)完成,當(dāng)在火車上進(jìn)行訓(xùn)練。我們希望這樣的快速培訓(xùn)將消除這一領(lǐng)域的一個(gè)主要障礙,并鼓勵(lì)更多的人對(duì)這個(gè)具有挑戰(zhàn)性的話題進(jìn)行研究。

5. Mask R-CNN for Human Pose Estimation

????????我們的框架可以很容易地?cái)U(kuò)展到人類的姿態(tài)估計(jì)。我們將一個(gè)關(guān)鍵點(diǎn)的位置建模為一個(gè)熱掩模,并采用MaskR-CNN預(yù)測(cè)K個(gè)掩模,每種關(guān)鍵點(diǎn)類型(如左肩、右肘)。這個(gè)任務(wù)有助于演示MaskR-CNN的靈活性。我們注意到,我們的系統(tǒng)利用了人體姿態(tài)的最小領(lǐng)域知識(shí),因?yàn)閷?shí)驗(yàn)主要是為了證明MaskR-CNN框架的通用性。我們期望領(lǐng)域知識(shí)(例如,建模結(jié)構(gòu)[6])將是對(duì)我們的簡(jiǎn)單方法的補(bǔ)充。

????????Implementation Details:當(dāng)分割系統(tǒng)適應(yīng)關(guān)鍵點(diǎn)時(shí),我們對(duì)它做了一些小的修改。對(duì)于一個(gè)實(shí)例的每個(gè)K個(gè)關(guān)鍵點(diǎn),訓(xùn)練目標(biāo)是一個(gè)one-hot m×m二進(jìn)制掩模,其中只有一個(gè)像素被標(biāo)記為前景。?在訓(xùn)練過(guò)程中,對(duì)于每個(gè)可見的地面真實(shí)關(guān)鍵點(diǎn),我們最小化了-way?softmax輸出上的交叉熵?fù)p失(這鼓勵(lì)單個(gè)點(diǎn)被檢測(cè))。我們注意到,在實(shí)例分割中,K個(gè)關(guān)鍵點(diǎn)仍然被獨(dú)立處理。

????????我們采用ResNet-FPN變體,關(guān)鍵點(diǎn)頭結(jié)構(gòu)類似于圖4(右)。關(guān)鍵點(diǎn)頭由8個(gè)3×3 512-dconv層組成,然后是一個(gè)解波層和2×雙線性升級(jí),產(chǎn)生的輸出分辨率為56×56。我們發(fā)現(xiàn),一個(gè)相對(duì)較高的分辨率輸出(相對(duì)于掩模)是需要的關(guān)鍵點(diǎn)級(jí)的定位精度。

????????

?????????模型在所有包含注釋關(guān)鍵點(diǎn)的COCO訓(xùn)練35k圖像上進(jìn)行訓(xùn)練。為了減少過(guò)擬合,由于這個(gè)訓(xùn)練集較小,我們使用從[640,800]像素中隨機(jī)采樣的圖像尺度進(jìn)行訓(xùn)練;推理是在800像素的單一尺度上。我們訓(xùn)練90k次迭代,從0.02的學(xué)習(xí)率開始,在60k和80k次迭代中減少10次。我們使用閾值為0.5的邊界框NMS。其他細(xì)節(jié)與3.1中提到的相同。

Main Results and Ablations:我們?cè)u(píng)估了人的關(guān)鍵點(diǎn)AP(),并使用ResNet-50-FPN骨干進(jìn)行了實(shí)驗(yàn);更多的骨干將在附錄中進(jìn)行研究。表4顯示,我們的結(jié)果(62.7)比使用多階段處理管道的COCO2016關(guān)鍵點(diǎn)檢測(cè)贏家[6]高出0.9個(gè)點(diǎn)(見表4的標(biāo)題)。我們的方法相當(dāng)簡(jiǎn)單、更快。 更重要的是,我們有一個(gè)統(tǒng)一的模型,它可以在以5幀/秒的速度運(yùn)行時(shí),同時(shí)預(yù)測(cè)box、圖像分割和關(guān)鍵點(diǎn)。添加一個(gè)段分支(用于人員類別)可以將的測(cè)試開發(fā)級(jí)別提高到63.1(表4)。多任務(wù)學(xué)習(xí)的應(yīng)用見表5。將mask分支添加到僅限框(即Faster R-CNN)或僅關(guān)鍵點(diǎn)版本中,可以持續(xù)改進(jìn)這些任務(wù)。然而,添加關(guān)鍵點(diǎn)分支會(huì)略微減少box/mask AP,這表明雖然關(guān)鍵點(diǎn)檢測(cè)受益于多任務(wù)訓(xùn)練,但它反過(guò)來(lái)并不能幫助其他任務(wù)。然而,共同學(xué)習(xí)所有三個(gè)任務(wù)可以使一個(gè)統(tǒng)一的系統(tǒng)能夠同時(shí)有效地預(yù)測(cè)所有輸出(圖7)。 ????????我們還研究了RoIAlign對(duì)關(guān)鍵點(diǎn)檢測(cè)的影響(表6)。雖然這個(gè)ResNet-50-FPN主干有更精細(xì)的進(jìn)步(例如,在最好的水平上是4像素),RoIAlign仍然比RoIPool有顯著的改進(jìn),并將APkp提高了4.4個(gè)點(diǎn)。這是因?yàn)殛P(guān)鍵點(diǎn)檢測(cè)對(duì)定位精度更為敏感。這再次表明,對(duì)齊對(duì)于像素級(jí)定位至關(guān)重要,包括掩模和關(guān)鍵點(diǎn)。 ????????考慮到MaskR-CNN在提取對(duì)象邊界框、掩碼和關(guān)鍵點(diǎn)方面的有效性,我們期望它能成為其他實(shí)例級(jí)任務(wù)的有效框架。

Appendix A: Experiments on Cityscapes

????????我們進(jìn)一步報(bào)告了在城市景觀[7]數(shù)據(jù)集上的實(shí)例分割結(jié)果。該數(shù)據(jù)集對(duì)2975訓(xùn)練集、500張驗(yàn)證集和1525張測(cè)試集圖像都有很好的注釋。它有20k個(gè)粗訓(xùn)練圖像,沒(méi)有實(shí)例注釋,我們不使用這些注釋。所有圖像均為2048×1024像素。實(shí)例分割任務(wù)涉及8個(gè)對(duì)象類別,其在精細(xì)訓(xùn)練集上的實(shí)例數(shù)量為:?

該任務(wù)上的實(shí)例分割性能可以通過(guò)coco-style的mask AP(平均超過(guò)IoU閾值)來(lái)衡量;還報(bào)告了AP50(即IoU為0.5時(shí)的mask AP)。?

????????Implementation: 我們用Mask R-CNN模型應(yīng)用ResNet-FPN-50;我們發(fā)現(xiàn)由于數(shù)據(jù)集大小小,101層對(duì)應(yīng)的性能類似。我們使用從[800,1024]中隨機(jī)采樣的圖像尺度(更短的邊)進(jìn)行訓(xùn)練,這減少了過(guò)擬合;推理是在1024個(gè)像素的單個(gè)尺度上。我們使用每個(gè)GPU1個(gè)圖像的小批量大小(8個(gè)GPU上有8個(gè)),并對(duì)模型進(jìn)行24k迭代訓(xùn)練,從學(xué)習(xí)速率0.01開始,在18k迭代時(shí)將其減少到0.001。在這個(gè)設(shè)置下,在一臺(tái)8-GPU機(jī)器上需要4小時(shí)的訓(xùn)練。

???????Results: 表7將我們的結(jié)果與驗(yàn)證集和測(cè)試集的現(xiàn)狀進(jìn)行了比較。在不使用粗訓(xùn)練集的情況下,我們的方法在測(cè)試中達(dá)到了26.2AP,比之前的最佳條目(DIN[3])相對(duì)提高了30%以上,也優(yōu)于SGN的25.0[29]的并行工作。DIN和SGN都使用精細(xì)的+粗?jǐn)?shù)據(jù)。與僅使用精細(xì)數(shù)據(jù)(17.4AP)的最佳條目相比,我們實(shí)現(xiàn)了~50%的改進(jìn)。

????????對(duì)于個(gè)人和汽車類別,城市景觀數(shù)據(jù)集顯示了大量的類別內(nèi)重疊實(shí)例(平均每張圖片有6人和9輛車)。我們認(rèn)為類別內(nèi)重疊是實(shí)例分割的核心難點(diǎn)。我們的方法在這兩個(gè)類別上有了巨大的改進(jìn)(相對(duì)~從21.8提高到30.5,~從39.4提高到46.9提高了20%),盡管我們的方法沒(méi)有利用粗?jǐn)?shù)據(jù)。

????????城市景觀數(shù)據(jù)集的一個(gè)主要挑戰(zhàn)是在低數(shù)據(jù)狀態(tài)下訓(xùn)練模型,特別是對(duì)于卡車、公共汽車和火車的類別,每個(gè)樣本大約有200-500個(gè)訓(xùn)練樣本。為了部分解決這個(gè)問(wèn)題,我們進(jìn)一步報(bào)告了使用COCO預(yù)培訓(xùn)的結(jié)果。為此,我們從預(yù)先訓(xùn)練過(guò)的COCO MaskR-CNN模型(隨機(jī)初始化騎手)中初始化城市景觀中相應(yīng)的7個(gè)類別。我們對(duì)4k次迭代進(jìn)行微調(diào),其中3k次迭代時(shí)學(xué)習(xí)率降低,給定COCO模型需要~1小時(shí)的~訓(xùn)練。

????????COCO預(yù)訓(xùn)練的MaskR-CNN模型在測(cè)試中達(dá)到了32.0AP,幾乎比僅精細(xì)的模型提高了6個(gè)points。這表明了訓(xùn)練數(shù)據(jù)的量所發(fā)揮的重要作用。這也表明,城市景觀的方法可能受到其低射學(xué)習(xí)表現(xiàn)的影響。我們表明,使用COCO預(yù)訓(xùn)練是一種有效的策略

????????最后,我們觀察到val和testAP之間的偏差,從[23,4,29]的結(jié)果中也觀察到。我們發(fā)現(xiàn),這種偏差主要是由卡車、公交車和火車類別引起的,僅精細(xì)模型的驗(yàn)證集/測(cè)試集AP分別為28.8/22.8、53.5/32.2和33.0/18.6。這表明這些類別存在領(lǐng)域轉(zhuǎn)移,這些類別也沒(méi)有訓(xùn)練數(shù)據(jù)。COCO預(yù)訓(xùn)練最有助于提高這些類別的結(jié)果;然而,38.0/30.1、57.5/40.9和41.2/30.9val/測(cè)試AP的領(lǐng)域轉(zhuǎn)移分別持續(xù)存在。請(qǐng)注意,對(duì)于個(gè)人和汽車類別,我們沒(méi)有看到任何這樣的偏差(val/測(cè)試AP在±1分范圍內(nèi))。關(guān)于城市景觀的示例結(jié)果如圖8所示。

????????

?

Appendix B: Enhanced Results on COCO

?????????作為一個(gè)通用框架,MaskR-CNN與用于檢測(cè)/分割開發(fā)的互補(bǔ)技術(shù)兼容,包括對(duì)快速/快速的R-CNN和FCNs的改進(jìn)。在本附錄中,我們將描述一些改進(jìn)于原始結(jié)果的技術(shù)。由于其通用性和靈活性,MaskR-CNN被COCO2017實(shí)例分割競(jìng)賽中的三個(gè)獲勝團(tuán)隊(duì)使用作為框架,它們都顯著優(yōu)于之前的技術(shù)水平。

Instance Segmentation and Object Detection????????

????????我們?cè)诒?中報(bào)告了MaskR-CNN的一些增強(qiáng)結(jié)果。總的來(lái)說(shuō),改進(jìn)增加了mask AP 5.1個(gè)points(從36.7增加到41.8)和AP 7.7個(gè)points(從39.6增加到47.3)。每個(gè)模型改進(jìn)都一致地增加了mask? AP和box AP,顯示了Mask R-CNN框架的良好泛化。接下來(lái),我們將詳細(xì)說(shuō)明這些改進(jìn)的內(nèi)容。這些結(jié)果,以及未來(lái)的更新,可以通過(guò)我們?cè)?span style="color:#ed028c;">https://github.com/facebookresearch/Detectron上發(fā)布的代碼進(jìn)行復(fù)制,并可以作為未來(lái)研究的更高的基線。?

????????Updated baseline: 我們從使用一組不同的超參數(shù)的更新的基線開始。我們將訓(xùn)練時(shí)間延長(zhǎng)到180k次迭代,其中在120k次迭代和160k次迭代時(shí),學(xué)習(xí)率降低了10次。我們還將NMS閾值更改為0.5(從默認(rèn)值更為0.3)。更新后的基線有37.0Mask AP和40.5box AP。

???????End-to-end training:之前所有的結(jié)果均采用階段訓(xùn)練,即訓(xùn)練RPN作為第一階段,MaskR-CNN作為第二階段。在[37]之后,我們?cè)u(píng)估了聯(lián)合訓(xùn)練RPN和Mask RCNN的端到端(‘e2e’)訓(xùn)練。我們?cè)赱37]中采用了“近似”版本,它只通過(guò)忽略梯度w.r.t.來(lái)計(jì)算RoIAlign層中的部分梯度RoI坐標(biāo)。表8顯示,e2e訓(xùn)練使Mask AP提高了0.6,box AP提高了1.2。

????????ImageNet-5k pre-training: 在[45]之后,我們?cè)贗mageNet的一個(gè)5k類子集上實(shí)驗(yàn)使用預(yù)訓(xùn)練的模型(與標(biāo)準(zhǔn)的1k類子集相比)。訓(xùn)練前數(shù)據(jù)的5×增加改善了mask和box AP。作為參考,[40]使用了~250×更多的圖像(300M),并報(bào)告了其基線上的2-3盒AP改善。

????????Train-time augmentation:訓(xùn)練時(shí)間的規(guī)模增加進(jìn)一步提高了結(jié)果。在訓(xùn)練過(guò)程中,我們從[640,800]個(gè)像素中隨機(jī)抽取一個(gè)量表,并將迭代次數(shù)增加到260k(在200k和240k迭代時(shí),學(xué)習(xí)率減少了10次)。列車時(shí)間增強(qiáng)使mask AP提高0.6,box AP提高0.8。

???????Model architecture: 通過(guò)將101層ResNeXt升級(jí)到152層對(duì)應(yīng)的[19],我們觀察到增加了0.5個(gè)mask AP和0.6個(gè)box AP的增加。這表明,一個(gè)更深層次的模型仍然可以提高COCO的結(jié)果。

????????利用最近提出的非局部(NL)模型[43],我們實(shí)現(xiàn)了40.3mask AP和45.0box AP。這個(gè)結(jié)果沒(méi)有測(cè)試時(shí)間的增加,該方法在Nvidia Tesla P100 GPU上以3幀每秒的速度運(yùn)行。

????????Test-time augmentation: 我們結(jié)合使用[400,1200]像素的尺度和100,并在它們的水平翻轉(zhuǎn)。這給了我們一個(gè)41.8mask AP和47.3box AP的單模結(jié)果。

????????上述結(jié)果是我們提交COCO2017CO競(jìng)賽的基礎(chǔ)(該競(jìng)賽也使用了一個(gè)集合,這里沒(méi)有討論)。據(jù)報(bào)道,實(shí)例分割任務(wù)的前三個(gè)獲勝團(tuán)隊(duì)都是基于MaskR-CNN框架的擴(kuò)展。

Keypoint Detection??????

????????我們?cè)诒?中報(bào)告了關(guān)鍵點(diǎn)檢測(cè)的增強(qiáng)結(jié)果。作為一個(gè)更新的基線,我們將訓(xùn)練計(jì)劃擴(kuò)展到130k次迭代,其中100k次迭代和120k次迭代的學(xué)習(xí)率降低了10次。這將APkp提高了大約1個(gè)點(diǎn)。用ResNet-101和ResNeXt-101取代ResNet-50,使APkp分別增加到66.1和67.3。

????????通過(guò)最近一種被稱為數(shù)據(jù)蒸餾[35]的方法,我們能夠利用COCO提供的額外的12萬(wàn)張未標(biāo)記圖像。簡(jiǎn)而言之,數(shù)據(jù)蒸餾是一種自我訓(xùn)練策略,它使用在標(biāo)記數(shù)據(jù)上訓(xùn)練的模型來(lái)預(yù)測(cè)未標(biāo)記圖像上的注釋,然后使用這些新的注釋更新模型。MaskR-CNN為這種自我訓(xùn)練策略提供了一個(gè)有效的框架。通過(guò)數(shù)據(jù)蒸餾,MaskR-CNNAPkp提高了1.8個(gè)points,達(dá)到69.1個(gè)points。我們觀察到,MaskR-CNN可以從額外的數(shù)據(jù)中獲益,即使這些數(shù)據(jù)是未標(biāo)記的。

????????通過(guò)使用與實(shí)例分割相同的測(cè)試時(shí)間增強(qiáng),我們進(jìn)一步將APkp提高到70.4。

總結(jié)

以上是生活随笔為你收集整理的论文精读:Mask R-CNN的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。