當前位置：首頁 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

卷积神经网络——实例分割之Mask R-CNN论文翻译

發(fā)布時間：2023/12/15 卷积神经网络 40 豆豆

生活随笔收集整理的這篇文章主要介紹了卷积神经网络——实例分割之Mask R-CNN论文翻译小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文鏈接
https://arxiv.org/abs/1703.06870

相關(guān)論文翻譯鏈接
R-CNN：https://blog.csdn.net/itlilyer/article/details/107190083
Fast R-CNN：https://blog.csdn.net/itlilyer/article/details/107764472
Faster R-CNN：https://blog.csdn.net/itlilyer/article/details/108049850

Mask R-CNN

0. 摘要

我們提出了一個概念上簡單、靈活、通用的對象實例分割框架。我們的方法可以高效地檢測圖像中的目標，同時為每個實例生成一個高質(zhì)量的分割掩碼。該方法，叫做Mask R-CNN，是對Faster R-CNN的擴展，在Faster R-CNN的基礎(chǔ)上增加了一個與邊框回歸分支并行的分支，該分支用來預測目標的掩碼。Mask R-CNN訓練起來很簡單，只在Faster R-CNN基礎(chǔ)上增加了少量開銷，運行速度為5 fps。此外，Mask R-CNN可以很容易推廣到其他任務(wù)，例如，允許我們使用同一個框架來實現(xiàn)估計人的姿勢。我們展示了在COCO系列挑戰(zhàn)中三條賽道的最好成績，包括：實例分割、邊框目標檢測、人體關(guān)鍵點檢測。在沒有花里胡哨的各種招的加持下(這應(yīng)該指各種數(shù)據(jù)增強和參數(shù)調(diào)優(yōu))，在所有任務(wù)上都勝過所有現(xiàn)有的單一模型，包括2016年COCO挑戰(zhàn)賽獲獎?wù)?。我們希望我們簡單且有效的方法能夠作為一個堅實的基礎(chǔ)并有助于簡化實例級識別的未來研究。代碼獲取：https://github.com/facebookresearch/Detectron

1.緒論

計算機視覺社區(qū)在短時間內(nèi)快速的提升了目標檢測和語義分割的精度(社區(qū)力量大呀)。很大程度上這些進步是通過一些強大的基線系統(tǒng)驅(qū)動的，比如Fast/Faster R-CNN [12, 36]對于目標檢測、全卷積網(wǎng)絡(luò)(FCN)對于語義分割。這些方法在概念上很直觀，并具有靈活性和魯棒性，而且訓練和推理速度也很快。我們這項工作的目標是為實例分割開發(fā)一個可比較的基線框架。

實例分割具有挑戰(zhàn)性，因為它需要正確檢測圖像中的所有對象，同時還要精確地分割每個實例。因此，它結(jié)合了目標檢測的經(jīng)典計算機視覺任務(wù)中的元素和語義分割，目標檢測的目的是對單個對象進行分類并使用邊界框?qū)γ總€對象進行定位；語義分割的目標是在不區(qū)分對象實例的情況下將每個像素分類為一組固定的類別。（如果用常用術(shù)語描述，目標檢測是使用邊框來實現(xiàn)具體物體的檢測而不是mask，語義分割是在不區(qū)分實例的前提下對每個像素進行分類。因此我們說語義分割既是一種語義也是一種檢測個人理解:這里應(yīng)該是指語義分割只是區(qū)分每個像素是不是屬于某個物體）。鑒于此，人們可能會認為需要一種復雜的方法來獲得良好的結(jié)果。然而，我們證明了一個簡單、靈活和快速的系統(tǒng)也可以超越先前最先進的實例分割的結(jié)果，這是個令人驚訝的系統(tǒng)。

我們的方法，叫做Mask R-CNN，在Faster R-CNN的基礎(chǔ)上擴展了一個新的分支來預測每一個興趣區(qū)域(RoI)的分割掩碼(segmentation mask)，該分支與已存在的分類和邊框回歸分支是并行的(圖1)。mask分支是一個作用與每一個RoI的小的FCN網(wǎng)絡(luò)，以像素為單位預測分割掩碼?；贔aster R-CNN框架Mask R-CNN易于實現(xiàn)和訓練，這樣也有助于設(shè)計一個靈活度很大的架構(gòu)。另外，mask分支只增加了很少了計算開銷，這就使系統(tǒng)執(zhí)行速度快和快速的進行實驗成為可能。(Faster R-CNN + mask 分支-----> Mask R-CNN，mask的計算開銷小)

原則上，Mask R-CNN是Faster R-CNN的直接擴展，但正確構(gòu)造mask分支對于獲得良好結(jié)果至關(guān)重要。最重要的是，Faster R-CNN并不是為網(wǎng)絡(luò)輸入和輸出之間的像素到像素對齊而設(shè)計的。(pixel-to-pixel alignment???什么鬼?個人理解:這里像素對齊應(yīng)該指的針對輸入像素輸出對應(yīng)像素的mask,這里涉及到輸入和輸入的像素之間要對應(yīng))這在RoIPool[18，12]為了提取特征如何執(zhí)行大粒度的空間量化中最為明顯，RoIPool是處理實例的核心操作。為了解決不匹配問題，我們提出了一個簡單的非量化層，稱為RoIAlign，它如實地保留了精確的空間位置。盡管RoIAlign看起來只是一個小的變化，但它的作用卻非常明顯：它將mask精度提高了10%到50%，定位指標越嚴格定位越準確roialign還會有更大的收益。其次，我們發(fā)現(xiàn)必須將mask和類別預測解耦：我們?yōu)槊恳粋€類別都預測了一個二元的mask,這個不需要類別競爭，并且依靠網(wǎng)絡(luò)的RoI分類分支來預測類別。(個人理解: 這里為每個框都預測了所有分類的Mask, 二元指mask里面不是0就是1, 預測的mask與類別預測的框是可以對應(yīng)的,這樣就可以確定具體類別了)。相比之下，FCNs通常執(zhí)行每像素的多類別分類，它將分割和分類結(jié)合在一起，并且根據(jù)我們的實驗，在實例分割方面效果不佳。(總結(jié)一下: 使用RoIAlign替代了RoI pool, 預測mask要與預測類別分開執(zhí)行)

在沒有使用任何技巧trick的前提下，Mask R-CNN已經(jīng)超越了在此之前COCO上實例分割任務(wù)最好的單模型結(jié)果，包括2016年競賽冠軍的精心設(shè)計的作品。作為Mask R-CNN的副產(chǎn)品，我們的方法在COCO目標檢測任務(wù)上表現(xiàn)也很出色。在消融實驗中，我們評估了多個基礎(chǔ)實例，這可以讓我們證明我們方法的魯棒性并且分析受那些核心元素的影響。(不僅分割任務(wù)做的好, 檢測也很不錯 : ))

我的方法在一個GPU上每幀的處理時間是200ms，使用一個單機8卡的GPU設(shè)備訓練COCO使用一道兩天的時間。我們相信快速的訓練和測試再加上框架的靈活性和精度，將有助于實例分割的進一步研究。

最后，我們通過在COCO-keypoint數(shù)據(jù)集上的人體姿勢估計任務(wù)來展示我們框架的通用性[28]。通過將每個keypoint看做一個one-hot的二元，只需稍加修改 Mask R-CNN可以應(yīng)用于檢測具體實例的姿態(tài)。Mask R-CNN超過了2016年COCO keypoint 競賽的冠軍，同時處理速度達到了5fps。因此，更一般的講Mask R-CNN可以看做是一個識別實例級別物體的靈活框架，并且可以很容易地擴展到更復雜的任務(wù)中。

我們已經(jīng)發(fā)布了代碼以便于以后的研究。

2. 相關(guān)工作

R-CNN： 基于區(qū)域的CNN網(wǎng)絡(luò)(R-CNN)方法[13]對于邊框目標檢測來說就是處理有限數(shù)量的候選目標區(qū)域[42,20],然后分別對每一個RoI使用卷積網(wǎng)絡(luò)進行評估。通過對R-CNN進行擴展[18，12]，允許使用RoIPool處理特征圖上的ROI，實現(xiàn)了更快的速度和更高的精確度。Faster R-CNN通過使用區(qū)域建議網(wǎng)絡(luò)(RPN)學習了注意力機制，推動了該流程的進一步發(fā)展。Faster R-CNN對于許多后續(xù)改進（例如，[38,27,21]）具有不錯的靈活性和魯棒性，并且是當前幾個基準測試中的領(lǐng)先框架。(介紹了R-CNN的發(fā)展)

實例分割： 受R-CNN良好效果的影響，許多實例分割的方法都以segment proposal為基礎(chǔ)進行。早期的方法[13,15,16,9]需要將segment proposal重新排序為自下而上的segment。DeepMask[33]及后續(xù)的作品[34,8]學著提出了分割候選，這些分割的部分會在后面使用Fast R-CNN進行分類。在這些方法中，分割先于識別執(zhí)行，這樣導致速度慢、精度低。類似的，Dai等人[10]提出了一個復雜的多階段瀑布式模型(一個階段跟一個階段的執(zhí)行)，從預選框中預測分割候選，然后進行分類。相反，我們的方法是基于mask和類別標簽的并行預測，這樣更簡單、更靈活。

最近，Li等人[26]將[8]中的分割候選系統(tǒng)和[11]中的目標檢測系統(tǒng)結(jié)合起來，實現(xiàn)了"全卷積實例分割"(FCIS)。[8,11,26]的共同思想是預測一組位置敏感的全卷積的輸出通道(個人理解:輸出的這一組通道應(yīng)該包含了位置相關(guān)信息)。這寫通道同時處理目標類型、邊框和mask，通過這樣使系統(tǒng)執(zhí)行更快。但是FCIS在重疊實例有系統(tǒng)性的錯誤，并產(chǎn)生虛假邊緣（圖6），這表明它還不能夠徹底解決實例分割的基本困難。(這里簡單介紹了一下FCIS系統(tǒng)及存在的問題)

另一系列實例分割的解決方案[23,4,3,29]是受語義分割成功案例的啟發(fā)。這些方法從每像素分類結(jié)果（例如FCN輸出）開始，然后嘗試將同一類別的像素分割成不同的實例。與這些方法的"分割優(yōu)先"策略不同，Mask R-CNN基于"實例優(yōu)先"策略。我們希望未來兩種策略能夠更好的結(jié)合在一起。

3. Mask R-CNN(核心內(nèi)容,要細看)

Mask R-CNN在概念上很簡單：Faster R-CNN針對每一個候選目標都有兩個輸出：類別標簽和邊界框偏移；在此基礎(chǔ)上我們新增了第三個分支用來輸出目標的mask。因此，Mask R-CNN是一個很自然而且直觀的想法。但是新增的mask輸出與已有的類別和框輸出不同，mask輸出需要目標更精確的空間位置。接下來，我們將介紹Mask R-CNN的關(guān)鍵元素，包括像素到像素的對齊，這是Fast/ Faster R-CNN的主要缺失部分。(Faster R-CNN + mask = Mask R-CNN)

Faster R-CNN： 我們首先簡單回顧一下Faster R-CNN檢測網(wǎng)絡(luò)[36]。Faster R-CNN有兩個階段組成。第一個階段，叫做區(qū)域建議網(wǎng)絡(luò)(RPN)，來處理目標的候選邊框。第二個階段，本質(zhì)上是Fast R-CNN，使用RoIpool為每一個候選框提取特征值，然后執(zhí)行分類和邊框回歸。兩個階段使用的特征可以共享，以便更快地進行推理。關(guān)于Faster R-CNN和其他框架的最新綜合比較，我們建議讀者參考[21]。

Mask R-CNN： Mask R-CNN同樣使用了兩階段的方式，第一階段與Faster R-CNN完全相同(RPN)。在第二階段，與預測類別和邊界框偏移 Mask R-CNN為每一個RoI 并行輸出了一個二元mask。這與最近的大多數(shù)系統(tǒng)不同，后者分類依賴mask的預測結(jié)果(例如 [33, 10, 26])。我們的方法遵循了Faster R-CNN[12]的精神，邊界框的分類和回歸并行實現(xiàn)(這樣就大大簡化了原始R-CNN [13]的多階段流水線的實現(xiàn)方式)。

在訓練期間，我們將抽樣的RoI的多任務(wù)loss正式定義為L = L_cls + L_box + L_mask。分類的loss L_cls 和邊界框回歸的loss L_box與[12]中定義的一致。mask分支每一個RoI對應(yīng)一個Km²維的輸出，它對K個mxm的二元mask進行編碼，K指K個類別。為了達到該目的，我們?yōu)槊總€像素都執(zhí)行了sigmoid，并把L_mask定義為平均二元(也就是二分類)交叉熵損失函數(shù)(這里應(yīng)該指的是sigmoid_cross_entropy_with_logits)。對于類別k的真值框?qū)?yīng)的RoI，L_mask只定義在第k個mask上(其他輸出的mask不會作用到loss上)。

我們定義的L_mask允許網(wǎng)絡(luò)為每個類別生成mask,而不用類別之間競爭；我們依賴分類分支來預測類別用來選擇輸出的mask。(這里要怎么理解呢???)。這就將mask和預測類別進行了解耦。這與使用FCNs進行語義分割的常見做法不同，后者通常為每個像素使用softmax和多項式交叉損失函數(shù)(這里應(yīng)該指的是softmax_cross_entropy_with_logits)。在這種情況下mask需要通過類別競爭確定所屬的類別；在我們的方法中，為每個類別調(diào)用sigmoid和二元損失函數(shù)，不存在類別競爭。實驗結(jié)果表明，該公式是獲得良好的實例分割結(jié)果的關(guān)鍵。

Mask表述： Mask對輸入目標的空間布局進行了編碼。因此與類別標簽和邊框偏移不同，后者是通過全連接層(fc)壓縮成一個比較短的輸出向量；而提取mask的空間結(jié)構(gòu)可以通過卷積提供的像素到像素的對應(yīng)關(guān)系，很自然的得到了解決。

具體地說，我們使用FCN為每個RoI[30]預測一個m×m的mask。這就允許mask分支中的每一層都可以一個清晰的mxm的目標空間布局的矩陣，而不需要將其折疊為一個缺少了空間維度的向量。以前的方法會使用fc層進行mask的預測[33, 34, 10]，我們的方法與此不同我們的全卷積所需的參數(shù)更少，實驗證明精度也更高。(個人理解: 一個vector只能表示一維的數(shù)據(jù),是一條線; 而mxm就包含了一個面的信息,有寬和高)

這種像素到像素的行為要求我們的RoI特征（它們本身就是小的特征映射）能夠很好地對齊，以如實地保持每像素之間明確的空間對應(yīng)關(guān)系。這促使我們開發(fā)了下面的roalign層，它在mask預測中起著關(guān)鍵作用。

RoIAlign： RoIPool是從每個RoI提取一個小特征圖(例如 7x7)的標準操作。RoIPool首先將浮點型的RoI進行量化, 得到特征圖上的一些離散的數(shù)值，然后將這個量化過的RoI分割為多個空間單元，這些空間單元也是經(jīng)過量化的，最后將每個單元覆蓋的特征值進行聚合（通常使用max pooling）。例如，在一個連續(xù)坐標x上執(zhí)行量化，要計算[x/16]，這里16是特征圖的縮放步長(strid)，[·]是取近似值；同樣，在劃分小單元的時候執(zhí)行相同的量化操作(例如,7x7)。這些量化操作導致了RoI和提取特征之間的不匹配問題。這對分類可能沒有影響，分類對小的移動有較好的魯棒性，但是對預測像素級別精度的mask有很大的負面影響。(個人理解: 這里執(zhí)行的量化操作是將RoI的x,y坐標進行量化,也就是除以步長,這樣可以對應(yīng)到特征圖上的對應(yīng)特征值,如果不能夠整除的話要對結(jié)果取整,這樣就會與真實值出現(xiàn)一個偏差,例如:原始圖片大小800x800,RoI大小625x625,stride為32,這樣特征圖為25x25, RoI為625/32=19.53,取整為19;這是第一次量化,然后進行第二次量化時如果不能整除還會出現(xiàn)新的偏差,導致預測的RoI與RoIPool的結(jié)果不對應(yīng),這就是misalignments問題,后面單獨寫一篇文章介紹RoIPool和RoIAlign。文章終于補上了：https://blog.csdn.net/itlilyer/article/details/108666073)

為了解決這一問題，我們提出了一個roalign層，該層去掉了RoIPool的簡單粗暴的量化操作，能夠?qū)⑻崛〉奶卣髋c輸入正確地對齊。我們提議的改變很簡單：我們避免了RoI邊界或區(qū)域的任何量化（即，我們使用x/16而不是[x/16]）。我們使用雙線性插值[22]來計算每個RoI bin中四個固定采樣位置的輸入特征的精確值，然后對結(jié)果進行聚合操作（使用max或average），如圖3所示。我們注意到，只要不進行量化，結(jié)果對采樣的準確位置或采樣的數(shù)量并不敏感。(個人理解:RoIAlign使用雙線性插值來計算原來不存在的點的特征值,不需要取整操作這樣RoI就不會出現(xiàn)偏移)

如4.2章節(jié)說描述的，RoAlign帶來了很大的提升。我們同樣與[10]中提出的RoIWarp的處理方式進行了對比。與RoIAlign不同，RoIWarp忽略了像素不對齊的問題，[10]中對RoI的量化實現(xiàn)與RoIPool類似。因此，盡管RoIWarp也采用了[22]的雙線性重采樣，但其性能與實驗所示的RoIPool不相上下（詳見表2c），說明了對齊的關(guān)鍵作用。

網(wǎng)絡(luò)架構(gòu): 為了證明我們方法的通用性，我們創(chuàng)建了多種架構(gòu)的Mask R-CNN實例。為了區(qū)分清楚,我們以下面幾方面作為區(qū)分：(i)用來給整張圖片提取特征的backbone卷積網(wǎng)絡(luò)架構(gòu)；(ii)用來做邊界框識別(分類和回歸)和為每個RoI預測mask的head網(wǎng)絡(luò)。我們使用網(wǎng)絡(luò)深度特征這一術(shù)語來表示backbone網(wǎng)絡(luò)架構(gòu)。我們評估了深度為50層或101層的ResNet[19]和ResNeXt[45]網(wǎng)絡(luò)。最初使用ResNets實現(xiàn)的Faster R-CNN[19]從第4階段的最后一個卷積層（我們稱之為C4）提取特征。例如，帶有ResNet-50的backbone網(wǎng)絡(luò)用ResNet-50-C4表示。這是[19,10,21,39]中常用的選擇。

我們還探討了Lin等人最近提出的另一種更有效的骨干網(wǎng)(backbone)[27]，稱為特征金字塔網(wǎng)絡(luò)（FPN）。FPN采用自上而下的橫向連接結(jié)構(gòu)，從單個比例輸入構(gòu)建網(wǎng)絡(luò)內(nèi)的特征金字塔。Faster R-CNN使用FPN網(wǎng)絡(luò)從不同層級的特征金字塔根據(jù)該層的尺度提取RoI特征，但是除此之外該方法的其他方面類似于普通的ResNet。將ResNet-FPN作為backbone進行特征提取，給Mask R-CNN的精度和速度上都有很大的提升。有關(guān)FPN的更多詳細信息，請參閱[27]。

對于網(wǎng)絡(luò)的head部分，我們嚴格遵循了前面介紹的架構(gòu)——在Faster R-CNN的基礎(chǔ)上添加一個全卷積的mask預測分支。具體來說，我們根據(jù)ResNet[19]和FPN[27]的論文內(nèi)容擴展了Faster R-CNN的box head部分。詳細信息如圖4所示。ResNet-C4主干上的頭部包括ResNet的第5階段（即9層的“res5”[19]），這是計算密集型的。對于FPN，主干網(wǎng)已經(jīng)包括res5，因此允許使用更少過濾器的更有效的head。

我們注意到我們的mask分支的結(jié)構(gòu)非常簡單。更復雜的設(shè)計可能提高性能，但不是本文的重點。

3.1 實現(xiàn)細節(jié)

我們根據(jù)現(xiàn)有的Fast/Faster R-CNN 網(wǎng)絡(luò)來設(shè)置超參[12，36，27]。雖然這些設(shè)置在論文中[12，36，27]是為目標檢測而選擇的，我們發(fā)現(xiàn)我們的實例分割系統(tǒng)對這些有很好的魯棒性。

訓練： 與Faster R-CNN中一樣，如果RoI與真值框的IoU大于等于0.5則認為是正樣本，否則是負樣本。mask的loss值L_mask只對正樣本有效,也就是只計算正樣本。mask的目標(也就是label)是RoI與對應(yīng)真值框mask的交集。

我們采用以圖像為中心的訓練[12]。對圖像進行縮放，使短邊的尺度變?yōu)?00像素[27]。每個GPU上的mini-batch包含2個圖片，每個圖像采樣N個RoI，正樣本和負樣本比例為1:3[12]。對于C4的骨干網(wǎng)絡(luò)，N取64（如[12，36]），而對于FPN（如[27]）N取512。我們在8個gpu(這樣的話mini-batch就是2x8=16)上訓練160k次迭代，學習率為0.02，在120k次迭代中降低了10%。我們使用0.0001的權(quán)重衰減和0.9的momentum。使用ResNeXt[45]的時候，每個GPU一次只處理一個圖像,然后訓練相同的迭代次數(shù)，初始學習率為0.01。

RPN的錨點一共有5個尺度和3中縱橫比，遵循[27]。為了便于消融實驗，對RPN網(wǎng)絡(luò)進行單獨的訓練，除非特別說明不會與Mask R-CNN共享特征值。本文中的所有章節(jié)，RPN和Mask R-CNN使用相同的backbone，因此他們是可以共享權(quán)重的。

推理： 在測試時，使用C4骨干網(wǎng)絡(luò)的候選框數(shù)量是300(如[36]中描述)，FPN候選框數(shù)量為1000(如[27]中所講)。我們將這些候選框傳給框預測分支，緊跟著一個非極大值抑制[14]。然后將得分最高的100個檢測框傳給mask分支。雖然這與訓練中使用的并行計算不同，但是這樣可以提高推理的速度和精度(因為使用了更少但是更準確的RoI)。mask分支為每個RoI預測K個mask，但是我們只使用第k個mask，這里的k是分類分支預測出的RoI的類別。(也就是說只取該RoI預測類別的mask結(jié)果)輸出的mxm的float類型的mask被縮放到RoI的大小，并且以0.5的閾值設(shè)置其中的0、1值。

請注意，由于我們只計算前100個檢測框的mask，因此Mask R-CNN在Faster R-CNN的對應(yīng)項基礎(chǔ)上增加了一個小開銷（例如，在典型模型上為～20%）。

4. 實驗：實例分割

我們通過在COCO數(shù)據(jù)集上[28]的全面消融實驗將Mask R-CNN和目前性能最好的網(wǎng)絡(luò)進行了徹底的比較。我們發(fā)布了標準的COCO指標，包括：AP (一個閾值范圍內(nèi)的IoU的平均), AP₅₀ ,AP₇₅, and AP_S, AP_M, AP_L(不同尺度的AP)。除非特別說明，AP使用mask IoU來評估。按照前面的描述[5,27]，我們使用80K的訓練圖片與val數(shù)據(jù)集(trainval 35K)的35K張圖片子集進行聯(lián)合訓練，并發(fā)布了在剩余5K張圖片上(minival)上的消融實驗情況。我們同樣發(fā)布了在test-dev[28]上的結(jié)果。

4.1 主要結(jié)果

在表1中,我們將Mask R-CNN與當前性能最好的實例分割方法進行了比較。我們模型的所有實例表現(xiàn)都優(yōu)于先前最先進模型各種變體。這包括MNC[10]和FCIS[26]，它們分別是2015年和2016年COCO分割挑戰(zhàn)賽的冠軍。在不使用任何提升精度技巧的前提下，Mask R-CNN比使用了包括多尺度訓練/測試、水平翻轉(zhuǎn)測試、在線困難樣本挖掘(OHEM) [38]等各項技術(shù)的FCIS+++ [26]表現(xiàn)還要好。雖然超出了本文的范圍，我們希望許多像這樣的提升方式可以應(yīng)用到我們的方法上。

Mask R-CNN輸出如圖2和圖5所示。即使在很嚴苛的條件下Mask R-CNN同樣可以取得很好的結(jié)果。在圖6中，我們比較了Mask R-CNN基線和FCIS++[26]。FCIS+++在重疊實例上表現(xiàn)出系統(tǒng)性的缺點——分割出假物體，說明它仍然受困與實例分割的根本困難。Mask R-CNN沒有顯示這樣的假物體。

4.2 消融實驗

我們進行了多次消融實驗來分析Mask R-CNN。結(jié)果如表2所示，并在下面詳細討論。

架構(gòu)： 表2a中展示了使用不同骨干網(wǎng)(backbone)的Mask R-CNN。它得益于更多層次的網(wǎng)絡(luò)（50 vs 101）和先進的網(wǎng)絡(luò)設(shè)計包括FPN和ResNeXt。

獨立與非獨立mask： Mask R-CNN將mask和類別預測進行了解耦：就像已有的預測類別標簽的分支，我們?yōu)槊總€類別生成一個mask，不存在類別之間的競爭(通過為每一個像素執(zhí)行sigmoid和一個二分類loss)。在表2b中，我們與在每個像素上使用softmax和多項式loss進行比較(就像FCN[30]中常常用到的)。（這里要理解sigmoid和softmax的區(qū)別,在另一篇博客中有介紹: https://blog.csdn.net/itlilyer/article/details/107028833）這個新方法將mask任務(wù)和預測類別的任務(wù)結(jié)合在一起，結(jié)果導致mask AP下降了很多（5.5個百分點）。 這就說明一旦一個實例作為整體預測出了類別(通過預測分支),這就足以預測一個二元的mask,而不同關(guān)注具體的類別,這使模型更容易訓練。

已知類別mask VS 未知類別mask： 我們默認情況下預測特定類的掩碼，即每個類一個m×m的mask。有趣的是，Mask R-CNN使用未知類別的mask(即,預測一個mxm的輸出而且不關(guān)注類別)也得到了接近的結(jié)果：在ResNet-50-C4上取得29.7的mask AP vs 30.3(對應(yīng)的指定類別的mask)。這進一步強調(diào)了我們方法中分工協(xié)作的優(yōu)勢，主要指的是分類和分割的解耦。

RoIAlign： 表2c展示了對我們提出的RoIAlign層的評估。該實驗中我們使用ResNet-50-C4作為backbone，stride取16。RoIAlign在RoIpool的基礎(chǔ)上將AP提高了大約3個百分點，其中在較大IoU時取得了大部分的增益(AP75)。RoIAlign對使用max/average pool并不敏感；在后面的文章中我們使用average pool。

另外，我們還與RoIWarp(在MNC[10]中提出,同樣使用了雙線性采樣)進行了比較。就像第三章節(jié)討論的，RoIWarp仍然會對RoI進行量化，導致輸入和輸出對應(yīng)不上的問題。就像表2c中展示的，RoIWarp與RoIPool的性能不相上下，比RoIAlign差了很多。這進一步說明能夠使輸入輸出正確的對其才是關(guān)鍵。

我們還評估了用ResNet-50-C5作為backbone時RoIAlign的表現(xiàn)，使用了更大的stride(32像素)。我們使用了圖4（右）相同的頭部，因為res5頭部不適用。表2d顯示，RoIAlign將mask AP提高了7.3個百分點，mask AP₇₅提高了10.5個百分點（相對提升了50%）。此外，我們注意到，對于RoIAlign，使用stride=32 C5的特征值（30.9 AP）比使用stride=16 C4的特征值（30.3 AP，表2c）更準確。RoIAlign很大程度上解決了長期以來使用大步長特征進行檢測和分割的難題。

最后，RoIAlign使用FPN的時候可以獲得mask AP 1.5個百分點的提升，box AP 0.5個百分點的提升，FPN有更精細的多級別stride。對于更精準對齊的關(guān)鍵點檢測，RoIAlign使用FPN也獲得了很大的提升(表6)。

Mask 分支： 分割是像素到像素的任務(wù)，我們使用FCN來達到記錄mask空間布局的目的。在表2e中，我們比較多層感知器（MLP）和FCN(使用ResNet-50-FPN作為backbone)。使用FCNs比MLP使mask AP提高了2.1個百分點。我們注意到，我們選擇這個骨干網(wǎng)，這樣FCN頭部的卷積層沒有經(jīng)過預訓練，以便與MLP進行公平的比較。

4.3 邊界框檢測結(jié)果

在表3中我們將Mask R-CNN與目前性能最好的邊界框目標檢測系統(tǒng)進行了比較。對于這個結(jié)果，盡管訓練了一個完整的Mask R-CNN模型，但是在推理時只使用分類和邊框輸出（mask輸出被忽略）。使用ResNet-101-FPN的Mask R-CNN的性能優(yōu)于所有先前最先進模型的基本變體，包括GRMI的單一模型變體[21]，COCO 2016檢測挑戰(zhàn)賽的獲勝者。使用ResNeXt-101-FPN的Mask R-CNN模型性能得到了進一步提升，比[39]中最好的單一模型（使用Inception-ResNet-v2-TDM）box的AP提升了3.0個百分點。

為了做進一步的比較，我們訓練了一個沒有mask分支的Mask R-CNN模型，在表3中記為“Faster R-CNN, RoIAlign”。由于RoIAlign，該模型的性能優(yōu)于[27]中的模型。另一方面，它比Mask R-CNN低0.9個百分點。因此，Mask R-CNN邊框檢測的差距完全得益于多任務(wù)訓練。

最后，我們發(fā)現(xiàn)Mask R-CNN的mask和box AP有一個小差距：例如，(表1中mask)37.1和(表3中box)39.8差了2.7個百分點。這說明我們的方法大大的縮短了目標檢測和更具有挑戰(zhàn)的實例分割任務(wù)的差距。
總結(jié)一下就是, Mask R-CNN不光mask預測的好,box做的也很好

4.4 性能

推理： 我們按照Faster R-CNN的4步訓練方法[36]，訓練了一個ResNet-101-FPN模型，該模型在RPN和Mask R-CNN階段之間共享特征。該模型在Nvidia Tesla M40 GPU上以195ms的速度運行（加上15ms的CPU時間將輸出調(diào)整為原始分辨率），并且在統(tǒng)計上達到了與非共享模型相同的mask AP。我們還說明了，ResNet-101-C4的模型變體需要大約400ms，因為它有一個更復雜的的box head（圖4），因此我們不建議在實踐中使用C4變體。

雖然Mask R-CNN執(zhí)行速度很快，我們注意到我們的設(shè)計并不是為了提升速度而是要達到更好的速度/精度的平衡[21]，例如，通過改變圖像大小和候選框數(shù)量，這超出了本文的范圍。

訓練： Mask R-CNN訓練速度也很快。使用COCO trainval35k的數(shù)據(jù)集訓練ResNet-50-FPN的模型，使用并行的8-GPU花費了32小時( 0.72s/minibatch,minibatch=16張圖片)，訓練ResNet-101-FPN花費了44個小時。實際上，快速版本模型在train數(shù)據(jù)集上不到一天就可以訓練完成。我們希望這種快速的訓練方法可以消除該領(lǐng)域的一個主要障礙，并鼓勵更多的人對這一具有挑戰(zhàn)性的課題進行研究。

5. 將Mask R-CNN用于人體姿態(tài)估計

我們的框架可以很容易地擴展到人體姿態(tài)估計。我們將一個關(guān)鍵點(keypoint)的位置建模為一個one-hot mask，并采用Mask R-CNN來預測K個掩模，每個K個關(guān)鍵點類型（如左肩、右肘）各一個。這個任務(wù)有助于展示掩模R-CNN的靈活性。

我們注意到我們的系統(tǒng)利用了人體姿態(tài)很少的領(lǐng)域知識，因為實驗主要是為了證明Mask R-CNN框架的通用性。我們期望領(lǐng)域知識（例如建模結(jié)構(gòu)[6]）能夠與我們的簡單方法互補。

實現(xiàn)細節(jié)： (這是重點) 我們對分割系統(tǒng)做了一些小的修改，使系統(tǒng)可以實現(xiàn)關(guān)鍵點預測。對于每個實例的K個關(guān)鍵點，每個關(guān)鍵點的訓練目標都是一個one-hot的m×m二元mask，其中只有一個像素被標記為前景。在訓練過程中，對于每個可見的真值關(guān)鍵點，我們在m₂路的softmax輸出上最小化交叉熵損失（這鼓勵檢測單個點）。我們注意到在實例分割中，K個關(guān)鍵點仍然是獨立處理的。

我們采用ResNet FPN的模型變體，keypoint head架構(gòu)類似于圖4（右圖）。keypoint head由八個3×3 512-d的卷積層組成，接著是一個解卷層和2×雙線性上采樣，輸出分辨率為56×56。我們發(fā)現(xiàn)對于關(guān)鍵點的定位精度，需要一個相對較高的分辨率輸出（與mask相比）。

模型使用整個COCO trainval35k圖像進行訓練，這些圖像包含有keypoint的標簽。為了減少過度擬合，因為這個訓練集比較小，我們使用從[640,800]像素隨機抽樣的圖像尺度進行訓練；推理是在800像素的單一尺度上進行的。我們訓練90k次迭代，使用0.02的學習率開始訓練，在60k和80k個迭代時將其減少10%。我們使用閾值為0.5的邊界框NMS。其他細節(jié)與§3.1相同。

主要成果和消融實驗： 我們評估了人體關(guān)鍵點AP(AP^kp)，使用ResNet-50-FPN作為backbone進行實驗；其他backbone請參見附錄。表4展示了我們的結(jié)果(62.7 AP^kp)比COCO 2016 關(guān)鍵點檢測的冠軍[6]高了0.9個百分點,他們使用了一個多階段的流水線(見表4的標題)。我們的方法更加的簡單和快速。

更重要的是，我們的模型是一種統(tǒng)一的模型，它可以以5 fps的速度運行時同時預測邊框、分割和關(guān)鍵點。添加一個分割分支（只針對人的類別）將test-dev上的AP^kp提高到63.1（表4）。關(guān)于minival多任務(wù)學習的更多內(nèi)容見表5。將mask分支添加到只有框分支（即Faster R-CNN，包含分類和框回歸）或只有keypoint版本的模型上都可以使這些任務(wù)得到提升。但是添加keypoint 分支使box/mask AP都稍微的下降了一些，這表明雖然關(guān)鍵點檢測可以從多任務(wù)訓練中獲益，但它并不能反過來幫助其他任務(wù)。然而，同時訓練這三個任務(wù)可以得到一個統(tǒng)一系統(tǒng)，能夠同時有效地預測所有輸出（圖7）。

我們還研究了roalign對keypoint檢測的影響（表6）。盡管這種ResNet-50-FPN主干具有更小的跨距（例如，在最小的級別上是4個像素），但RoIAlign仍然顯示出比RoIPool更好的性能，AP^kp提高了4.4個點。這是因為關(guān)鍵點檢測對定位精度更為敏感。這再次表明對齊對于像素級的定位是必不可少的，包括mask和keypoint。

鑒于Mask R-CNN在提取對象邊界框、mask和keypoint方面的有效性，我們希望它能成為其他實例級任務(wù)的有效框架。

附錄A：城市景觀實驗

我們進一步發(fā)布了Cityscapes[7]數(shù)據(jù)集的實例分割結(jié)果。這個數(shù)據(jù)集有2975張訓練圖片、500張驗證圖片和1525個測試圖片,圖片都有對應(yīng)的精準標注。它有20k個粗略的訓練圖像，沒有實例注釋，我們沒有使用。所有圖像均為2048×1024像素。實例分割任務(wù)涉及8個對象類別，其在精準標注訓練集中的實例數(shù)為：
此任務(wù)的實例分割性能由COCO風格的mask AP（IoU閾值上的平均值）來衡量；AP₅₀（即IoU為0.5時的mask AP）也會發(fā)布。

實現(xiàn)： 我們將我們的Mask R-CNN模型使用ResNet-FPN-50作為骨干網(wǎng)；我們發(fā)現(xiàn)101層的骨干網(wǎng)對應(yīng)的模型由于數(shù)據(jù)集大小較小表現(xiàn)出的性能與50層接近。我們使用從[800, 1024]隨機抽樣的圖像尺度（短邊）進行訓練，這減少了過度擬合；推斷是在1024像素的單一尺度上進行的。我們使用每個GPU 的mini-batchsize取1（8個GPU batchsize就是8）并訓練了24k個迭代，從0.01的學習率開始，在18k次迭代時將其降低到0.001。在此設(shè)置下，在單個8-GPU機器上需要訓練大約4個小時。

結(jié)果： 表7將我們在val和test數(shù)據(jù)集上的結(jié)果與新年最好的模型進行了比較。在不使用粗訓練集的情況下，我們的方法在測試中AP達到了26.2，比之前的最佳實例（DIN[3]）的相對提高了30%以上，也優(yōu)于同期SGN的25.0[29]。DIN和SGN都使用精準標注數(shù)據(jù)+粗數(shù)據(jù)。與僅使用精準標注數(shù)據(jù)的最佳實例（17.4ap）相比，我們達到了大約50%的提升。

對于個人和汽車類別，Cityscapes數(shù)據(jù)集顯示了大量類別內(nèi)重疊的實例（每個圖像平均6個人和9輛車）。我們認為類別內(nèi)重疊是實例分割的核心難點。我們的方法顯示，與其他最佳模型實例相比，這兩個類別有了巨大的改進（從21.8到30.5，人的相對提高了40%，汽車從39.4提高到46.9），即使我們的方法沒有利用粗略的數(shù)據(jù)。

Cityscapes數(shù)據(jù)集的一個主要挑戰(zhàn)是在缺少數(shù)據(jù)情況下訓練模型，尤其是針對卡車、公共汽車和火車這三類，每個類別都有大約200-500個訓練樣本。為了部分解決這個問題，我們進一步發(fā)布了使用COCO預培訓的結(jié)果。為此，我們從一個預先訓練好的COCO-Mask R-CNN模型（騎手進行隨機初始化）初始化城市景觀中相應(yīng)的7個類別。我們對這個模型進行了4K個迭代的微調(diào)，在第3k個迭代時學習率降低，訓練指定的COCO模型需要大約1小時。

COCO預訓練的Mask R-CNN模型在測試中達到了32.0 AP，幾乎比精細的同類產(chǎn)品提高了6個百分點。這說明了訓練數(shù)據(jù)量的重要性。研究還表明，城市景觀的方法可能會受到low shot訓練的影響。我們證明在這個數(shù)據(jù)集上使用COCO預訓練是一種有效的策略。

最后，我們觀察到val和test數(shù)據(jù)集 AP之間存在偏差，這也從[23，4，29]的結(jié)果中觀察到。我們發(fā)現(xiàn)，這種偏差主要是由卡車、公共汽車和火車類別造成的，僅使用精準數(shù)據(jù)集訓練的模型的val/test AP分別為28.8/22.8、53.5/32.2和33.0/18.6。這表明在這些類別上有一個領(lǐng)域的轉(zhuǎn)變，這些類別也幾乎沒有訓練數(shù)據(jù)。COCO預訓練最有助于改善這些類別的結(jié)果；然而，領(lǐng)域轉(zhuǎn)移持續(xù)存在， val/test AP分別為38.0/30.1、57.5/40.9和41.2/30.9。注意，對于人員和車輛類別，我們沒有看到任何此類偏差（val/test AP在±1百分點內(nèi)）。

城市景觀的示例結(jié)果如圖8所示。

附錄B: 在COCO數(shù)據(jù)集上增強后的結(jié)果

作為一個通用框架，Mask R-CNN與用于檢測/分割的補充技術(shù)兼容，包括對Fast/Faster R-CNN和FCNs的改進。在本附錄中，我們描述了一些對我們的原始結(jié)果有一定提升的技術(shù)。由于其通用性和靈活性，Mask R-CNN被COCO 2017實例分割大賽的三個獲獎團隊用作框架，其表現(xiàn)都大大超過了之前的水平。

實例分割與目標檢測

我們在表8中展示了一些Mask R-CNN增強后的結(jié)果。總的來說，這些改進提高了Mask AP 5.1個百分點（從36.7%提高到41.8%）和box AP 7.7個百分點（從39.6%提高到47.3%）。每一個模型的改進都一致地提高了mask-R-CNN框架的mask-AP和box-AP。接下來我們將詳細介紹做了哪些改進。這些結(jié)果以及未來的更新可以通過我們發(fā)布的代碼(在https://github.com/facebooksresearch/Detectron)進行重現(xiàn),可作為未來研究的更高的標準基線。

更新的基線： 我們從一個更新的基線開始，使用一組不同的超參數(shù)。我們將訓練延長到180k次迭代，在120k次和160k次迭代中學習率降低10個點。我們還將NMS閾值更改為0.5（從默認值0.3）。更新后的基線maks AP為37.0和box AP 40.5。

端到端訓練： 所有先前的結(jié)果都采用階段性訓練，即第一階段訓練RPN，第二階段訓練Mask R-CNN。在[37]之后，我們評估了端到端（e2e）訓練，將RPN和Mask R-CNN聯(lián)合起來一起訓練。我們采用[37]中的“近似”版本，它只計算RoIAlign層中的部分梯度，忽略w.r.t.RoI坐標的梯度。表8顯示e2e訓練將mask AP提高了0.6，box AP提高1.2。

ImageNet-5k預訓練： 在[45]之后，我們用ImageNet的5k類別的子集（與標準的1k類子集不同）對模型進行了預訓練。這5倍的預訓練數(shù)據(jù)是mask和box的AP提升了1個點。作為參考，[40]使用了大約250倍的圖像（300M），在他們基線的基礎(chǔ)上有AP 有 2-3個百分點的提升。

增加訓練迭代次數(shù)： 訓練時增加訓練的迭代次數(shù)可以進一步提高結(jié)果。在訓練過程中，我們從[640, 800]像素隨機抽樣，并將迭代次數(shù)增加到260k（在200k和240k迭代時，學習率降低了10個點）。訓練迭代次數(shù)的增加使mask AP提高0.6，box AP提高0.8。

模型結(jié)構(gòu)： 通過將101層的ResNeXt升級到152層[19]，我們發(fā)現(xiàn)mask AP提升了0.5和box AP 提升了0.6。這表明更深層次的模型仍然可以改善COCO的結(jié)果。

利用最近提出的非局部（NL）模型[43]，mask AP達到了40.3和box AP達到了45.0。這個結(jié)果沒有增加測試時間，并且該方法在Nvidia Tesla P100 GPU上以3fps的速度運行。

測試時數(shù)據(jù)增強： 我們從[400,1200]范圍以步長100取圖像的尺度，并進行水平翻轉(zhuǎn)來評估模型的結(jié)果。這使我們達到了41.8的 mask AP和47.3 的box AP的單模型結(jié)果。

以上結(jié)果是我們提交給COCO 2017競賽的基礎(chǔ)。據(jù)報道，前三個在實例分割任務(wù)中獲勝的團隊都是基于Mask R-CNN框架的擴展。

關(guān)鍵點檢測
我們在表9中展示了關(guān)鍵點檢測的增強結(jié)果。作為一個更新的基線，我們將訓練擴展到130k次迭代，其中100k次和120k次迭代的學習率降低了10個百分點。這使AP_kp提高了大約1個點。用ResNet-101和ResNeXt-101替換ResNet-50，AP-kp分別提高到66.1和67.3。

通過最近的一種稱為數(shù)據(jù)蒸餾的方法[35]，我們能夠利用COCO提供的額外120k個未標記圖像。簡言之，數(shù)據(jù)蒸餾是一種自訓練策略，它使用基于標記數(shù)據(jù)的模型來預測未標記圖像上的標簽，然后使用這些新注釋更新模型。maskr-CNN為這種自我訓練策略提供了一個有效的框架。通過數(shù)據(jù)蒸餾，Mask R-CNN AP_kp提高了1.8個百分點，達到69.1。我們觀察到Mask R-CNN可以從額外的數(shù)據(jù)中獲益，即使這些數(shù)據(jù)是未標記的。

通過使用與實例分割相同的測試時數(shù)據(jù)增強，我們進一步將AP_kp提高到70.4。

致謝： 我們要感謝Ilija Radosavovic對代碼發(fā)布和增強結(jié)果的貢獻，以及Caffe2團隊對工程支持的貢獻。

參考文獻

[1] M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele. 2D human pose estimation: New benchmark and state of the art analysis. In CVPR, 2014. 8
[2] P. Arbeláez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014. 2
[3] A. Arnab and P. H. Torr. Pixelwise instance segmentation with a dynamically instantiated network. In CVPR, 2017. 3, 9
[4] M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. In CVPR, 2017. 3, 9
[5] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016. 5
[6] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In CVPR, 2017. 7, 8
[7] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The Cityscapes dataset for semantic urban scene understanding. In CVPR, 2016. 9
[8] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016. 2
[9] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015. 2
[10] J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. In CVPR, 2016. 2, 3,
4, 5, 6
[11] J. Dai, Y. Li, K. He, and J. Sun. R-FCN: Object detection via region-based fully convolutional networks. In NIPS, 2016. 2
[12] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 3, 4, 6
[13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic
segmentation. In CVPR, 2014. 2, 3
[14] R. Girshick, F. Iandola, T. Darrell, and J. Malik. Deformable part models are convolutional neural networks. In CVPR,
2015. 4
[15] B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV. 2014. 2
[16] B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik. Hyper-columns for object segmentation and fine-grained localiza-
tion. In CVPR, 2015. 2
[17] Z. Hayder, X. He, and M. Salzmann. Shape-aware instance segmentation. In CVPR, 2017. 9
[18] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In
ECCV. 2014. 1, 2
[19] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 2, 4, 7, 10
[20] J. Hosang, R. Benenson, P. Dollár, and B. Schiele. What makes for effective detection proposals? PAMI, 2015. 2
[21] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. In CVPR, 2017. 2, 3, 4, 6, 7
[22] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In NIPS, 2015. 4
[23] A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and C. Rother. Instancecut: from edges to instances with multi-cut. In CVPR, 2017. 3, 9
[24] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012. 2
[25] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E.Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989. 2
[26] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional instance-aware semantic segmentation. In CVPR, 2017. 2, 3, 5, 6
[27] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 2, 4, 5, 7
[28] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014. 2, 5
[29] S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequential grouping networks for instance segmentation. In ICCV, 2017. 3, 9
[30] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 3, 6
[31] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010. 4
[32] G. Papandreou, T. Zhu, N. Kanazawa, A. Toshev, J. Tompson, C. Bregler, and K. Murphy. Towards accurate multi-person pose estimation in the wild. In CVPR, 2017. 8
[33] P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to segment object candidates. In NIPS, 2015. 2, 3
[34] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollár. Learning to refine object segments. In ECCV, 2016. 2, 3
[35] I. Radosavovic, P. Dollár, R. Girshick, G. Gkioxari, and K. He. Data distillation: Towards omni-supervised learning. arXiv:1712.04440, 2017. 10
[36] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 1, 2, 3, 4, 7
[37] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In TPAMI, 2017. 10
[38] A. Shrivastava, A. Gupta, and R. Girshick. Training region-based object detectors with online hard example mining. In CVPR, 2016. 2, 5
[39] A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta. Beyond skip connections: Top-down modulation for object detection. arXiv:1612.06851, 2016. 4, 7
[40] C. Sun, A. Shrivastava, S. Singh, and A. Gupta. Revisiting unreasonable effectiveness of data in deep learning era. In ICCV, 2017. 10
[41] C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. In ICLR Workshop, 2016. 7
[42] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013. 2
[43] X. Wang, R. Girshick, A. Gupta, and K. He. Non-local neural networks. arXiv:1711.07971, 2017. 10
[44] S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016. 8
[45] S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. In CVPR,
2017. 4, 10

總結(jié)

以上是生活随笔為你收集整理的卷积神经网络——实例分割之Mask R-CNN论文翻译的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： php注册用cdn,国外免费CDN加速
下一篇：经典的卷积神经网络简介