全景分割
全景分割
Panoptic Segmentation
論文鏈接:
http://openaccess.thecvf.com/content_CVPR_2019/papers/Kirillov_Panoptic_Segmentation_CVPR_2019_paper.pdf
摘要
本文提出并研究了一個(gè)稱為全景分割(PS)的任務(wù)。全景分割結(jié)合了語義分割(為每個(gè)像素指定一個(gè)類標(biāo)簽)和實(shí)例分割(檢測并分割每個(gè)對象實(shí)例)這兩個(gè)典型的不同任務(wù)。提出的任務(wù)要求生成一個(gè)豐富而完整的連貫場景分割,這是邁向現(xiàn)實(shí)世界視覺系統(tǒng)的重要一步。雖然計(jì)算機(jī)視覺的早期工作解決了相關(guān)的圖像/場景解析任務(wù),但這些任務(wù)目前并不流行,可能是由于缺乏適當(dāng)?shù)亩攘炕蛳嚓P(guān)的識(shí)別挑戰(zhàn)。為了解決這個(gè)問題,本文提出了一種新的全景質(zhì)量(PQ)度量,它以可解釋和統(tǒng)一的方式捕獲所有類(東西和事物)的性能。使用所提出的度量,本文在三個(gè)現(xiàn)有數(shù)據(jù)集上對PS的人和機(jī)器性能進(jìn)行了嚴(yán)格的研究,揭示了關(guān)于該任務(wù)的有趣見解。本文的工作目標(biāo)是在一個(gè)更統(tǒng)一的圖像分割的觀點(diǎn)中恢復(fù)專業(yè)社區(qū)的興趣。
- Introduction
在本文的工作中,本文的目標(biāo)是恢復(fù)這一方向。本文提出的任務(wù)是:
(1)包含材料和材料類,
(2)使用簡單但通用的輸出格式,并且
(3)引入統(tǒng)一的評估指標(biāo)。
為了清楚地消除與先前工作的歧義,本文將得到的任務(wù)稱為全景分割(PS)。“全景”的定義是“包括在一個(gè)視圖中可見的所有內(nèi)容”,在本文的上下文中,全景指的是一個(gè)統(tǒng)一的全局分割視圖。
本文采用的全景圖分割的任務(wù)格式很簡單:圖像中的每個(gè)像素都必須分配一個(gè)語義標(biāo)簽和一個(gè)實(shí)例id,標(biāo)簽和id相同的像素屬于同一個(gè)對象,而對于素材標(biāo)簽,實(shí)例id被忽略。請參見圖1d中的可視化。這種格式以前已經(jīng)被采用,特別是那些產(chǎn)生非重疊實(shí)例分段的方法[18,28,2]。本文采用它來完成本文的共同任務(wù),包括一些相關(guān)素材。全景分割的一個(gè)基本方面是用于評估的任務(wù)度量。雖然許多現(xiàn)有的度量標(biāo)準(zhǔn)對于語義或?qū)嵗指疃己芰餍?#xff0c;但這些度量標(biāo)準(zhǔn)分別最適合于內(nèi)容或事物,但不能同時(shí)適用于兩者。本文認(rèn)為,不相交度量的使用是社區(qū)通常孤立地研究素材內(nèi)容分割的主要原因之一。
為了解決這個(gè)問題,本文在第4節(jié)中引入了全景質(zhì)量(PQ)指標(biāo)。PQ是一種簡單而信息豐富的方法,最重要的是它可以以統(tǒng)一的方式測量事物和事物的性能。本文希望,擬議的聯(lián)合指標(biāo)將有助于更廣泛地通過聯(lián)合任務(wù)。全景分割任務(wù)包括語義和實(shí)例分割,但引入了新的算法挑戰(zhàn)。與語義分割不同,它需要區(qū)分單個(gè)對象實(shí)例;這對完全卷積網(wǎng)絡(luò)提出了挑戰(zhàn)。與實(shí)例分割不同,對象段必須是不重疊的;這對獨(dú)立操作每個(gè)對象的基于區(qū)域的方法提出了挑戰(zhàn)。產(chǎn)生連貫的圖像分割來解決東西之間的不一致是邁向現(xiàn)實(shí)世界的重要一步。
由于PS算法的地面真值和算法格式必須具有相同的形式,因此本文可以對全景分割中的人類一致性進(jìn)行詳細(xì)的研究。這使本文能夠更詳細(xì)地理解PQ度量,包括識(shí)別與分割、事物與性能的詳細(xì)分類。此外,測量人的PQ有助于本文理解機(jī)器的性能。這一點(diǎn)很重要,因?yàn)檫@將使本文能夠監(jiān)控PS的各種數(shù)據(jù)集上的性能飽和。最后,本文對機(jī)器性能進(jìn)行了初步研究
為了做到這一點(diǎn),本文定義了一個(gè)簡單且可能是次優(yōu)的啟發(fā)式方法,通過一系列的后處理步驟將兩個(gè)獨(dú)立的語義和實(shí)例分割系統(tǒng)的輸出合并起來(本質(zhì)上是一種復(fù)雜的非最大抑制形式)。本文的啟發(fā)式方法為PS建立了一個(gè)基線,并讓本文深入了解它提出的主要算法挑戰(zhàn)。本文在三個(gè)流行的分割數(shù)據(jù)集上研究了人和機(jī)器的性能,這些數(shù)據(jù)集都有東西注釋。這包括城市景觀[6]、ADE20k[55]和地圖遠(yuǎn)景[35]數(shù)據(jù)集。對于這些數(shù)據(jù)集,本文直接從挑戰(zhàn)組織者那里獲得了最新方法的結(jié)果。
在未來,本文將把本文的分析擴(kuò)展到COCO[25]上,在COCO[25]上對內(nèi)容進(jìn)行注釋[4]。這些數(shù)據(jù)集上的本文的結(jié)果形成了一個(gè)堅(jiān)實(shí)的基礎(chǔ)研究人類和機(jī)器性能的全景分割。COCO[25]和Mapillary Vistas[35]在ECCV2018的識(shí)別挑戰(zhàn)中都將全景分割任務(wù)作為其中一個(gè)軌跡。本文希望,在這些流行的識(shí)別數(shù)據(jù)集上,將PS與實(shí)例和語義分割軌跡一起使用,將有助于更廣泛地采用規(guī)范的合作任務(wù)。
- Panoptic Segmentation Format
Task format.
Stuff and thing labels.
Relationship to semantic segmentation.
Relationship to instance segmentation.
Con?dence scores.
- Panoptic Segmentation Metric
在這一節(jié)中,本文介紹了一種新的全景分割度量。本文首先注意到,現(xiàn)有的度量標(biāo)準(zhǔn)是專門用于語義或?qū)嵗侄蔚?#xff0c;不能用于評估同時(shí)涉及stuff和thing類的聯(lián)合任務(wù)。先前關(guān)于聯(lián)合分割的工作通過使用獨(dú)立的度量標(biāo)準(zhǔn)(例如[51,41,42,40])來評估材料和事物的性能,從而避開了這個(gè)問題。
然而,這給算法開發(fā)帶來了挑戰(zhàn),使得比較更加困難,并且阻礙了通信。本文希望引入一個(gè)統(tǒng)一的東西和事物度量將鼓勵(lì)對統(tǒng)一任務(wù)的研究。在進(jìn)一步討論細(xì)節(jié)之前,本文首先確定以下適合PS度量的設(shè)計(jì):完整性。度量標(biāo)準(zhǔn)應(yīng)該以統(tǒng)一的方式處理類和類,捕獲任務(wù)的所有方面。可解釋性。本文尋求一個(gè)具有明確含義的指標(biāo),以促進(jìn)溝通和理解。
簡單。
此外,該指標(biāo)應(yīng)易于定義和實(shí)施。這提高了透明度,便于重新實(shí)施。與此相關(guān)的是,該指標(biāo)應(yīng)能有效計(jì)算,以實(shí)現(xiàn)快速評估。在這些原理的指導(dǎo)下,本文提出了一種新的全景質(zhì)量(PQ)度量方法。PQ測量與地面真實(shí)度相關(guān)的預(yù)定全景分割的質(zhì)量。 它包括兩個(gè)步驟:(1)分段匹配和(2)給定匹配的pq計(jì)算。本文描述下一步的每個(gè)步驟,然后返回到與現(xiàn)有度量的比較。
- Panoptic Segmentation Datasets
Cityscapes
ADE20k
Mapillary Vistas
- Human Consistency Study
全景分割的一個(gè)優(yōu)點(diǎn)是它能夠測量人類符號(hào)的一致性。除了這本身作為一個(gè)有趣的目的外,人類一致性研究允許本文詳細(xì)了解任務(wù),包括本文提出的度量標(biāo)準(zhǔn)的細(xì)節(jié)以及人類一致性在各個(gè)軸上的分解。這使本文能夠洞察任務(wù)帶來的內(nèi)在挑戰(zhàn),而不會(huì)因算法選擇而影響本文的分析。此外,人類研究有助于地面機(jī)器性能(在第7節(jié)中討論),并允許本文校準(zhǔn)對任務(wù)的理解。
Humanan notations.
Human consistency.
Stuff vs. things.
Small vs. large objects.
IoU threshold.
- Machine Performance Baselines
本文現(xiàn)在提出一個(gè)簡單的機(jī)器基線進(jìn)行全景分割。本文對三個(gè)問題感興趣:(1)高性能實(shí)例和語義分割系統(tǒng)的啟發(fā)式組合是如何實(shí)現(xiàn)全局分割的?(2) PQ與AP和IoU等現(xiàn)有指標(biāo)相比如何?(3)
機(jī)器的結(jié)果和本文之前展示的人類結(jié)果相比如何?
Algorithms and data.
Instance segmentation.
Panoptic segmentation.
Human vs. machine panoptic segmentation.
- Future of Panoptic Segmentation
本文的目標(biāo)是通過邀請專業(yè)社團(tuán)探索新的全景分割任務(wù)來推動(dòng)研究的創(chuàng)新方向。本文認(rèn)為,擬議的任務(wù)可以帶來預(yù)期和意外的創(chuàng)新。最后,本文討論了其中一些可能性和本文未來的計(jì)劃。由于算法簡單,本文提出的PS算法是基于最優(yōu)實(shí)例輸出和語義分割系統(tǒng)的啟發(fā)式組合。這種方法是基本的第一步,但本文希望引入更多有趣的算法。具體來說,本文希望看到PS至少在兩個(gè)領(lǐng)域推動(dòng)創(chuàng)新:
(1)深度集成的端到端模型,同時(shí)解決了PS的雙重特性和事物特性。許多實(shí)例分割方法包括[28,2,3,18]被設(shè)計(jì)成產(chǎn)生非重疊的實(shí)例預(yù)測,并且可以作為這種系統(tǒng)的基礎(chǔ)。
(2)由于一個(gè)PS不能有重疊的片段,一些更高層次的“推理”形式可能是有益的,例如,基于擴(kuò)展可學(xué)習(xí)的NMS[7,16]到PS。本文希望全景分割任務(wù)將激勵(lì)這些領(lǐng)域的研究,導(dǎo)致令人興奮的視覺新突破。最后,本文注意到COCO[25]和Mapillary Vistas[35]都將全景分割任務(wù)作為一個(gè)挑戰(zhàn)軌跡,并且提議的任務(wù)已經(jīng)開始在專業(yè)社團(tuán)中獲得吸引力(例如[23、48、49、27、22、21、17])。
總結(jié)
- 上一篇: Yolo:实时目标检测实战(下)
- 下一篇: 微信架构 支付架构(上)