论文阅读—图像分割方法综述(二)(arXiv:[cs:cv]20200410)
上一篇章,主要介紹了目前圖像分割領(lǐng)域常用的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),以及總結(jié)了十大圖像分割算法,本節(jié)繼續(xù)介紹剩余算法。
論文閱讀—圖像分割方法綜述(一)(arXiv:[cs:cv]20200410)
論文閱讀—圖像分割方法綜述(三)(arXiv:[cs:cv]20200410)
4.3 Encoder-Decoder Based Models
另一個(gè)流行的用于圖像分割的深度模型系列基于卷積編碼器-解碼器體系結(jié)構(gòu)。 大多數(shù)基于DL的分割工作都使用某種編碼器/解碼器模型,我們將這些工作分為兩類(lèi):用于一般分割的編碼器-解碼器模型和用于醫(yī)學(xué)圖像分割的編碼器/解碼器模型(以更好地區(qū)分應(yīng)用)。
3.4.1 Encoder-Decoder Models for General Segmentation
Noh等[43]發(fā)表了有關(guān)基于反卷積(也稱(chēng)為轉(zhuǎn)置卷積)的語(yǔ)義分割的早期論文。 他們的模型(圖11)由兩部分組成,一個(gè)是使用VGG16的卷積層作為編碼器,另一個(gè)解碼器是將特征向量作為輸入并生成像素級(jí)類(lèi)別概率圖的反卷積網(wǎng)絡(luò)。 反卷積網(wǎng)絡(luò)由反卷積層和反池化層組成,這些層識(shí)別逐個(gè)像素的類(lèi)標(biāo)簽并預(yù)測(cè)分割掩碼。 該網(wǎng)絡(luò)在PASCAL VOC 2012數(shù)據(jù)集上取得了可喜的性能,并且在當(dāng)時(shí)沒(méi)有外部數(shù)據(jù)訓(xùn)練的方法中獲得了最高的準(zhǔn)確性(72.5%)。
在另一個(gè)被稱(chēng)為SegNet的有前途的工作中,Badrinarayanan等人[44]提出了一種用于圖像分割的卷積編碼器-解碼器架構(gòu)(圖12)。類(lèi)似于反卷積網(wǎng)絡(luò),SegNet的核心可訓(xùn)練分段引擎包括一個(gè)編碼器網(wǎng)絡(luò)(在拓?fù)渖吓cVGG16網(wǎng)絡(luò)中的13個(gè)卷積層相同),以及一個(gè)相應(yīng)的解碼器網(wǎng)絡(luò),其后是按像素分類(lèi)層。 SegNet的主要新穎之處在于解碼器對(duì)其較低分辨率的輸入特征圖進(jìn)行升采樣。具體來(lái)說(shuō),它使用在相應(yīng)編碼器的最大池化步驟中計(jì)算出的合并索引來(lái)執(zhí)行非線(xiàn)性上采樣,從而無(wú)需學(xué)習(xí)上采樣。然后,將(稀疏的)上采樣圖與可訓(xùn)練的濾波器進(jìn)行卷積以生成密集的特征圖。與其他競(jìng)爭(zhēng)性體系結(jié)構(gòu)相比,SegNet的可訓(xùn)練參數(shù)數(shù)量也明顯更少。同一作者還提出了貝葉斯版本的SegNet,以對(duì)卷積編碼器-解碼器網(wǎng)絡(luò)用于場(chǎng)景分割的固有不確定性建模[45]。
此類(lèi)別中的另一個(gè)流行模型是最近開(kāi)發(fā)的分割網(wǎng)絡(luò),高分辨率網(wǎng)絡(luò)(HRNet)[119]圖13。除了像DeConvNet,SegNet,U-Net和V-Net中那樣恢復(fù)高分辨率表示之外,HRNet還會(huì)保持較高的通過(guò)并行連接高到低分辨率卷積流,并在分辨率之間反復(fù)交換信息,通過(guò)編碼過(guò)程實(shí)現(xiàn)分辨率表示。
4.3.2 Encoder-Decoder Models for Medical and Biomedical Image Segmentation
最初開(kāi)發(fā)了幾種用于醫(yī)學(xué)/生物醫(yī)學(xué)圖像分割的模型,這些模型受FCN和編碼器-解碼器模型的啟發(fā)。 U-Net [50]和V-Net [51]是兩個(gè)眾所周知的此類(lèi)體系結(jié)構(gòu),現(xiàn)在也已在醫(yī)療領(lǐng)域之外使用。
Ronneberger等[50]提出了用于分割生物顯微鏡圖像的U-Net。他們的網(wǎng)絡(luò)和訓(xùn)練策略依靠數(shù)據(jù)增強(qiáng)來(lái)更有效地從可用的帶注釋的圖像中學(xué)習(xí)。 U-Net體系結(jié)構(gòu)(圖14)包括兩個(gè)部分,一個(gè)用于捕獲上下文的收縮路徑,以及一個(gè)能夠?qū)崿F(xiàn)精確定位的對(duì)稱(chēng)擴(kuò)展路徑。下采樣或壓縮部分具有類(lèi)似于FCN的體系結(jié)構(gòu),可通過(guò)3x3卷積提取特征。上采樣或擴(kuò)展部分使用上卷積,在增加特征圖尺寸的同時(shí)減少了特征圖的數(shù)量。來(lái)自網(wǎng)絡(luò)下采樣部分的特征圖將復(fù)制到上采樣部分,以避免丟失模式信息。最后,1x1卷積處理特征圖,以生成對(duì)輸入圖像的每個(gè)像素進(jìn)行分類(lèi)的分割圖。 U-Net接受了30幅透射光顯微鏡圖像的培訓(xùn),并且在2015年贏得了ISBI細(xì)胞跟蹤挑戰(zhàn)賽的冠軍。
4.4 Multi-Scale and Pyramid Network Based Models
多尺度分析是圖像處理中的一個(gè)相當(dāng)古老的想法,已被部署在各種神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)中。 這種最突出的模型之一是Lin等人提出的特征金字塔網(wǎng)絡(luò)(FPN)。它主要是為目標(biāo)檢測(cè)而開(kāi)發(fā)的,但后來(lái)也應(yīng)用于分割。 深度卷積神經(jīng)網(wǎng)絡(luò)固有的多尺度金字塔層次結(jié)構(gòu)用于以少量額外成本構(gòu)建特征金字塔。 為了合并低分辨率和高分辨率功能,FPN由自下而上的路徑,自上而下的路徑和橫向連接組成。 然后,通過(guò)3x3卷積處理級(jí)聯(lián)的特征圖,以生成每個(gè)階段的輸出。 最終,自頂向下路徑的每個(gè)階段都會(huì)生成預(yù)測(cè)以檢測(cè)物體。 對(duì)于圖像分割,作者使用兩個(gè)多層感知器(MLP)生成MASKS。圖16顯示了橫向連接和自上而下的方式路徑通過(guò)加法合并。
趙等[57]提出了金字塔場(chǎng)景解析網(wǎng)絡(luò)(PSPN),這是一個(gè)多尺度網(wǎng)絡(luò),可以更好地學(xué)習(xí)場(chǎng)景的全局上下文表示(圖17)。使用殘差網(wǎng)絡(luò)(ResNet)作為特征提取器得到特征圖。 然后將這些特征圖輸入金字塔池模塊,以區(qū)分不同比例的特征圖,它們以四個(gè)不同的比例合并,每個(gè)比例對(duì)應(yīng)于一個(gè)金字塔等級(jí),并由1x1卷積層處理以減小其維度。 金字塔等級(jí)的輸出被上采樣并與初始特征圖連接,以捕獲本地和全局上下文信息。 最后,使用卷積層生成逐像素預(yù)測(cè)。
Ghiasi和Fowlkes [58]提出了一種基于拉普拉斯金字塔的多分辨率重建結(jié)構(gòu),該結(jié)構(gòu)使用了來(lái)自高分辨率特征圖的跳躍連接和乘性門(mén)控,以逐步完善從低分辨率圖重建的分割邊界。 他們表明,盡管卷積特征圖的表觀(guān)空間分辨率較低,但高維特征表示卻包含重要的子像素定位信息。
還有其他使用多尺度分析進(jìn)行細(xì)分的模型,例如DM-Net(動(dòng)態(tài)多尺度過(guò)濾器網(wǎng)絡(luò))[59],上下文對(duì)比網(wǎng)絡(luò)和門(mén)控多尺度聚合(CCN)[60],自適應(yīng)金字塔上下文網(wǎng)絡(luò)(APC- Net)[61],多尺度上下文交織(MSCI)[62]和顯著對(duì)象分割[63]。
4.5 R-CNN Based Models (for Instance Segmentation)
區(qū)域卷積網(wǎng)絡(luò)(R-CNN)及其系列Fast R-CNN,Faster R-CNN,Mask-RCNN在目標(biāo)檢測(cè)應(yīng)用中被證明是成功的。 R-CNN的某些擴(kuò)展已被廣泛用于解決實(shí)例分割問(wèn)題。 即同時(shí)執(zhí)行對(duì)象檢測(cè)和語(yǔ)義分割的任務(wù)。 特別是,為目標(biāo)檢測(cè)而提出的Faster R-CNN [64]結(jié)構(gòu)(圖18)使用區(qū)域建議網(wǎng)絡(luò)(RPN)生成候選框。RPN提取感興趣區(qū)域(RoI),RoIPool層從這些建議框中計(jì)算特征,以推斷出邊界框坐標(biāo)和對(duì)象的類(lèi)別。
該模型的一個(gè)擴(kuò)展中He等人[65]提出了一種用于對(duì)象實(shí)例分割的Mask R-CNN,它在許多COCO挑戰(zhàn)方面都超過(guò)了以前的所有基準(zhǔn)。 該模型有效地檢測(cè)圖像中的對(duì)象,同時(shí)為每個(gè)實(shí)例生成高質(zhì)量的分割MASK。 MASK R-CNN本質(zhì)上是具有3個(gè)輸出分支的Faster RCNN(圖19)-第一個(gè)計(jì)算邊界框坐標(biāo),第二個(gè)計(jì)算關(guān)聯(lián)的類(lèi),第三個(gè)計(jì)算binary mask以分割對(duì)象。 MASK R-CNN損失函數(shù)將邊界框坐標(biāo),預(yù)測(cè)類(lèi)和 segmentation mask的損失合并在一起,并共同訓(xùn)練它們。 圖20顯示了一些樣本圖像上的Mask-RCNN結(jié)果。
Liu等人提出的路徑聚合網(wǎng)絡(luò)(PANet)[66]基于Mask R-CNN和FPN模型(圖21)。 網(wǎng)絡(luò)的特征提取器使用FPN架構(gòu),具有新的增強(qiáng)的自下而上的路徑,從而改善了低層功能的傳播。 第三條路徑的每個(gè)階段都將前一階段的特征圖作為輸入,并使用3x3卷積層對(duì)其進(jìn)行處理。 使用橫向連接將輸出添加到自頂向下路徑的同一階段特征圖,這些特征圖將饋入下一個(gè)階段。 與Mask RCNN中一樣,自適應(yīng)特征池化層的輸出將饋入三個(gè)分支。 前兩個(gè)使用全連接層來(lái)生成邊界框坐標(biāo)和關(guān)聯(lián)對(duì)象類(lèi)別的預(yù)測(cè)。,第三部分使用FCN處理RoI以預(yù)測(cè)object mask。
Dai等[67]提出了一個(gè)多任務(wù)網(wǎng)絡(luò),用于實(shí)例感知的語(yǔ)義分割,它由三個(gè)網(wǎng)絡(luò)組成,分別區(qū)分實(shí)例,估計(jì)掩碼estimating masks和對(duì)對(duì)象進(jìn)行分類(lèi)。 這些網(wǎng)絡(luò)形成一個(gè)級(jí)聯(lián)結(jié)構(gòu),旨在共享它們的卷積特征。 Hu等[68]提出了一種新的部分監(jiān)督的訓(xùn)練范例,以及一個(gè)新穎的權(quán)重傳遞函數(shù),該訓(xùn)練范例使訓(xùn)練實(shí)例分割模型可以基于大量類(lèi)別,所有類(lèi)別都具有框注,但是只有一小部分具有mask annotations。
Chen等通過(guò)基于Faster R-CNN的語(yǔ)義和方向特征完善對(duì)象檢測(cè),提出了一個(gè)實(shí)例分割模 MaskLab(圖22)。 該模型產(chǎn)生三個(gè)輸出,框檢測(cè),語(yǔ)義分割和方向預(yù)測(cè)。 在Faster-RCNN對(duì)象檢測(cè)器的基礎(chǔ)上,預(yù)測(cè)框提供了對(duì)象實(shí)例的精確定位。 在每個(gè)感興趣的區(qū)域內(nèi),MaskLab通過(guò)組合語(yǔ)義和方向預(yù)測(cè)來(lái)執(zhí)行前景/背景分割。
另一個(gè)有趣的模型是Chen等人提出的Tensormask [70],這是基于密集的滑動(dòng)窗口實(shí)例分割。 他們將密集實(shí)例分割視為4D張量上的預(yù)測(cè)任務(wù),并提出了一個(gè)通用框架,該框架使4D張量上的新型算子成為可能。 他們證明張量視圖可以帶來(lái)比基線(xiàn)大的收益,并且產(chǎn)生的結(jié)果與Mask R-CNN相當(dāng)。 TensorMask在密集對(duì)象分割上取得了可喜的結(jié)果(圖23)。
已經(jīng)有許多基于R-CNN的實(shí)例分割模型被提出,例如那些mask proposal的模型,包括R-FCN [71],DeepMask [72],SharpMask [73],PolarMask [74]和邊界感知實(shí)例分割[75]。 值得注意的是,還有另一個(gè)有希望的研究方向,它試圖通過(guò)學(xué)習(xí)用于自下而上的分割的分組線(xiàn)索來(lái)解決實(shí)例分割問(wèn)題,例如深度分水嶺變換[76]和通過(guò)深度度量學(xué)習(xí)的語(yǔ)義實(shí)例分割[77]。
4.6 Dilated Convolutional Models and DeepLab Family
擴(kuò)張卷積(空洞卷積)為卷積層引入了另一個(gè)參數(shù),即擴(kuò)張率。 信號(hào)x(i)的擴(kuò)張卷積(圖24)定義為 y i = ∑ k x [ i + r k ] w [ k ] y_i = \sum _{k}x [i + rk] w [k] yi?=∑k?x[i+rk]w[k],其中r是定義內(nèi)核權(quán)重w之間的間距的擴(kuò)張率 。 例如,具有2的膨脹率的3x3核將具有與5 5核相同的大小感受野,而僅使用9個(gè)參數(shù),因此在不增加計(jì)算成本的情況下擴(kuò)大了感受野。 空洞卷積在實(shí)時(shí)分割領(lǐng)域中很流行,并且許多最近的出版物報(bào)道了這種技術(shù)的使用。 其中最重要的一些包括DeepLab系列[78], multiscale context aggregation [79], dense upsampling convolution and hybrid dilatedconvolution (DUC-HDC) [80], densely79 connected Atrous Spatial Pyramid Pooling (DenseASPP) [81],and the efficient neural network (ENet) [82]。
DeepLabv1 [38]和DeepLabv2 [78]是Chen等人提出的一些最受歡迎的圖像分割方法。后者具有三個(gè)關(guān)鍵功能。首先是使用空洞卷積來(lái)解決網(wǎng)絡(luò)中分辨率下降的問(wèn)題(這是由最大池化和步幅引起的)。其次是多孔空間金字塔池化(ASPP),它以多種采樣率使用過(guò)濾器探測(cè)傳入的卷積特征層,從而以多種比例捕獲對(duì)象以及圖像上下文,從而以多種比例可靠地分割對(duì)象。第三是通過(guò)結(jié)合深層CNN和概率圖形模型的方法來(lái)改進(jìn)對(duì)象邊界的定位。 最好的DeepLab(使用ResNet-101作為骨干)在2012年P(guān)ASCAL VOC挑戰(zhàn)賽中達(dá)到79.7%的mIoU分?jǐn)?shù),在PASCAL-Context挑戰(zhàn)賽中達(dá)到45.7%的mIoU分?jǐn)?shù),在Cityscapes挑戰(zhàn)賽中達(dá)到70.4%的mIoU分?jǐn)?shù)。圖25說(shuō)明了Deeplab模型,該模型類(lèi)似于[38],主要區(qū)別在于使用了擴(kuò)展卷積和ASPP??。
隨后陳等[12]提出了DeepLabv3,它結(jié)合了空洞卷積的級(jí)聯(lián)和并行模塊。 并行卷積模塊在ASPP中分組。 在ASPP中添加了1x1卷積和批處理歸一化(BN)。 所有輸出通過(guò)另一個(gè)1x1卷積進(jìn)行級(jí)聯(lián)和處理,以創(chuàng)建具有每個(gè)像素logit的最終輸出。
2018年Chen等[83]發(fā)布了Deeplabv3 +,該版本使用了編碼器-解碼器體系結(jié)構(gòu)(圖26),包括無(wú)空間可分卷積,由深度卷積(輸入每個(gè)通道的空間卷積)和點(diǎn)向卷積(深度卷積為1x1卷積) 作為輸入)。 他們使用DeepLabv3框架作為編碼器。 最相關(guān)的模型具有經(jīng)過(guò)修改的Xception骨架,具有更多層,擴(kuò)展的深度可分離卷積,而不是最大池化和批量歸一化。在COCO和JFT數(shù)據(jù)集上預(yù)訓(xùn)練的最佳DeepLabv3 +在2012年P(guān)ASCAL VOC挑戰(zhàn)中獲得了89.0%的mIoU分?jǐn)?shù)。
4.7 Recurrent Neural Network Based Models
盡管CNN很自然地適合解決計(jì)算機(jī)視覺(jué)問(wèn)題,但它們并不是唯一的可能性。 RNN在建模像素之間的短期/長(zhǎng)期依存關(guān)系方面很有用,以改善分割圖的估計(jì)。使用RNN,可以將像素鏈接在一起并進(jìn)行順序處理以建模全局上下文并改善語(yǔ)義分割。 但是,挑戰(zhàn)之一是圖像的自然2D結(jié)構(gòu)。
Visin等[84]提出了一種基于RNN的語(yǔ)義分割模型ReSeg。 該模型主要基于另一項(xiàng)研究ReNet [85],該研究是為圖像分類(lèi)而開(kāi)發(fā)的。 每個(gè)ReNet層(圖27)由四個(gè)RNN組成,它們?cè)趦蓚€(gè)方向上水平和垂直掃描圖像,編碼補(bǔ)丁/激活并提供相關(guān)的全局信息。 為了使用ReSeg模型進(jìn)行圖像分割(圖28),ReNet層堆疊在提取通用局部特征的預(yù)訓(xùn)練VGG-16卷積層之上。 然后,在ReNet層之后是上采樣層,以在最終預(yù)測(cè)中恢復(fù)原始圖像分辨率。 使用門(mén)控循環(huán)單元(GRU)是因?yàn)樗鼈冊(cè)趦?nèi)存使用和計(jì)算能力之間提供了良好的平衡。
在另一項(xiàng)工作中,Byeon等 [86]使用長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)開(kāi)發(fā)了場(chǎng)景圖像的像素級(jí)分割和分類(lèi)。 他們研究了自然場(chǎng)景圖像的二維(2D)LSTM網(wǎng)絡(luò),同時(shí)考慮了標(biāo)簽的復(fù)雜空間依賴(lài)性。 在這項(xiàng)工作中,分類(lèi),分割和上下文集成都由2D LSTM網(wǎng)絡(luò)執(zhí)行,從而允許在單個(gè)模型中學(xué)習(xí)紋理和空間模型參數(shù)。 [29]中提出的用于圖像分割的2D LSTM網(wǎng)絡(luò)的框圖如圖29所示。
Hu等[89]開(kāi)發(fā)了一種基于自然語(yǔ)言表達(dá)的語(yǔ)義分割算法,結(jié)合使用CNN編碼圖像和LSTM編碼其自然語(yǔ)言描述。這與圖30不同。圖LSTM模型與傳統(tǒng)的像素級(jí)RNN模型之間的比較。從傳統(tǒng)語(yǔ)義分割到一組預(yù)定義的語(yǔ)義類(lèi),例如短語(yǔ)“兩個(gè)人坐在正確的長(zhǎng)凳上”只將正確的長(zhǎng)凳上的兩個(gè)人分開(kāi),沒(méi)有人站立或坐在另一個(gè)長(zhǎng)凳上。為了產(chǎn)生用于語(yǔ)言表達(dá)的逐像素細(xì)分,他們提出了一種端到端可訓(xùn)練的遞歸和卷積模型,該模型共同學(xué)習(xí)處理視覺(jué)和語(yǔ)言信息(圖33)。在考慮的模型中,使用遞歸LSTM網(wǎng)絡(luò)將參考表達(dá)編碼為矢量表示,并使用FCN從圖像中提取空間特征圖并輸出目標(biāo)對(duì)象的空間響應(yīng)圖。該模型的示例分割結(jié)果(針對(duì)查詢(xún)“穿著藍(lán)色外套的人”)如圖34所示。
4.8 Attention-Based Models
多年來(lái),人們一直在計(jì)算機(jī)視覺(jué)中探索注意力機(jī)制,因此,找到將此類(lèi)機(jī)制應(yīng)用于語(yǔ)義分割的文章也就不足為奇了。
Chen等 [90]提出了一種注意力機(jī)制,可以學(xué)習(xí)在每個(gè)像素位置輕柔地加權(quán)多尺度特征。 他們采用了強(qiáng)大的語(yǔ)義分割模型,并結(jié)合多尺度圖像和注意力模型對(duì)其進(jìn)行了訓(xùn)練(圖35)。 注意機(jī)制的性能優(yōu)于平均池化和最大池化,它使模型能夠評(píng)估不同位置和比例下特征的重要性。
與其他訓(xùn)練卷積分類(lèi)器以學(xué)習(xí)標(biāo)記對(duì)象的代表性語(yǔ)義特征的工作相反,Huang等人[91]提出了一種使用逆向注意機(jī)制的語(yǔ)義分割方法。其逆向注意網(wǎng)絡(luò)(RAN)架構(gòu)(圖36)也訓(xùn)練模型以捕獲相反的概念(即與目標(biāo)類(lèi)不相關(guān)的功能)。 RAN是一個(gè)三分支網(wǎng)絡(luò),可同時(shí)執(zhí)行直接注意和反向注意學(xué)習(xí)過(guò)程。
Li等[92]開(kāi)發(fā)了一個(gè)用于語(yǔ)義分割的金字塔注意網(wǎng)絡(luò)。 該模型利用了全局上下文信息在語(yǔ)義分割中的影響,將注意力機(jī)制和空間金字塔相結(jié)合,以提取精確的密集特征進(jìn)行像素標(biāo)記,而不是使用復(fù)雜的空洞卷積和人工設(shè)計(jì)的解碼器網(wǎng)絡(luò)。
最近傅等人 [93]提出了一種用于場(chǎng)景分割的雙重注意力網(wǎng)絡(luò),它可以基于自關(guān)注機(jī)制捕獲豐富的上下文相關(guān)性。 具體來(lái)說(shuō),它們?cè)跀U(kuò)張的FCN頂部附加了兩種類(lèi)型的注意模塊,分別針對(duì)空間和通道維度的語(yǔ)義相互依賴(lài)性進(jìn)行建模。位置注意模塊通過(guò)所有位置的特征加權(quán)總和選擇性地聚合每個(gè)位置的特征。雙重注意力網(wǎng)絡(luò)的體系結(jié)構(gòu)如圖37所示。
其他各種工作也探索了語(yǔ)義分割的注意力機(jī)制,例如OCNet [94],該機(jī)制提出了受自我注意力機(jī)制啟發(fā)的目標(biāo)內(nèi)容上下文池化,期望最大化注意力(EMANet)[95],跨交叉注意力網(wǎng)絡(luò)(CCNet)[96]。具有經(jīng)常注意的端到端實(shí)例分割[97],用于場(chǎng)景解析的逐點(diǎn)空間注意網(wǎng)絡(luò)[98]和區(qū)分性特征網(wǎng)絡(luò)(DFN)[99],其中包括兩個(gè)子網(wǎng)絡(luò):平滑網(wǎng)絡(luò) (包含一個(gè)通道注意塊和全局平均池化以選擇更具區(qū)別性的特征)和一個(gè)邊界網(wǎng)絡(luò)(以使邊界的雙邊特征可區(qū)分)。
4.9 Generative Models and Adversarial Training
Luc等提出了一種對(duì)抗訓(xùn)練的語(yǔ)義分割方法。 他們訓(xùn)練了一個(gè)卷積語(yǔ)義分割網(wǎng)絡(luò)(圖38),以及一個(gè)對(duì)抗網(wǎng)絡(luò),該網(wǎng)絡(luò)將真實(shí)分割圖與由分割網(wǎng)絡(luò)生成的圖區(qū)分開(kāi)來(lái)。 他們表明,對(duì)抗訓(xùn)練方法可以提高Stanford Background和PASCAL VOC 2012數(shù)據(jù)集的準(zhǔn)確性。
圖39顯示了對(duì)來(lái)自斯坦福背景數(shù)據(jù)集的一幅示例圖像進(jìn)行對(duì)抗訓(xùn)練所帶來(lái)的改進(jìn)。
在另一項(xiàng)工作中,洪等人提出了一個(gè)使用對(duì)抗網(wǎng)絡(luò)的半監(jiān)督語(yǔ)義分割框架。 他們?cè)O(shè)計(jì)了FCN判別器,以考慮空間分辨率,將預(yù)測(cè)的概率圖與真實(shí)分割圖分布區(qū)分開(kāi)。 該模型考慮的損失函數(shù)包含三個(gè)術(shù)語(yǔ):基于分割的真實(shí)交叉熵?fù)p失,判別器網(wǎng)絡(luò)的對(duì)抗損失和基于置信度圖的半監(jiān)督損失;以及判別器的輸出。 Hung及其同事的模型架構(gòu)如圖40所示。
薛等[103]提出了一種具有多尺度L1損失的對(duì)抗網(wǎng)絡(luò),用于醫(yī)學(xué)圖像分割。 他們使用FCN作為分割器來(lái)生成分割標(biāo)簽圖,并提出了一種具有多尺度L1損失函數(shù)的新型對(duì)抗性評(píng)價(jià)(critic)網(wǎng)絡(luò),以迫使critic and segmentor 學(xué)習(xí)捕獲了兩者之間長(zhǎng)距離和短距離空間關(guān)系的全局和局部特征像素。 分割器和注釋器網(wǎng)絡(luò)的框圖如圖41所示。
4.10 CNN Models With Active Contour Models
醫(yī)學(xué)相關(guān)不做介紹
4.11 Other Models
除上述模型外,還有幾種其他流行的用于分割的DL架構(gòu),例如:上下文編碼網(wǎng)絡(luò)(EncNet),它使用基本的特征提取器并將特征映射饋送到上下文編碼模塊[116]。 RefineNet [117]是一個(gè)多路徑優(yōu)化網(wǎng)絡(luò),它明確利用降采樣過(guò)程中的所有可用信息,以實(shí)現(xiàn)使用遠(yuǎn)程殘差連接的高分辨率預(yù)測(cè)。 Seednet [118]引入了具有深度強(qiáng)化學(xué)習(xí)功能的自動(dòng)種子生成技術(shù),該技術(shù)學(xué)會(huì)了解決交互式分割問(wèn)題的方法。Feedforward-Net [124]將圖像超像素映射到從一系列遞增的嵌套區(qū)域中提取的豐富特征表示中 擴(kuò)展并利用圖像和標(biāo)簽空間中的統(tǒng)計(jì)結(jié)構(gòu),而無(wú)需建立明確的結(jié)構(gòu)化預(yù)測(cè)機(jī)制。
全景分割[137]也是另一個(gè)有趣的(以及較新的)分割問(wèn)題,而且普及程度不斷提高,并且在這個(gè)方向上已經(jīng)有一些有趣的工作,包括全景特征金字塔網(wǎng)絡(luò)[138],用于全景分割的注意力指導(dǎo)網(wǎng)絡(luò)[139], 和無(wú)縫場(chǎng)景分割[140]。
Figure 42 illustrates the timeline of popular DL-based works for semantic segmentation, as well as instance segmentation since 2014. Given the large number of works developed in the last few years, we only show some of the most representative ones.
該章總結(jié):主要介紹了一些基于不同網(wǎng)絡(luò)架構(gòu)的典型分割算法,粗略地了解他們的工作原理,可以看到有很多值得思考研究的地方,后面我們?cè)倮^續(xù)介紹圖像分割領(lǐng)域中的常用數(shù)據(jù)集。
未完待續(xù)…
總結(jié)
以上是生活随笔為你收集整理的论文阅读—图像分割方法综述(二)(arXiv:[cs:cv]20200410)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 据说是国内“最黑”的十大风景名胜区
- 下一篇: 模具设计的四个步骤总结