當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【CV】图像分割二十年，盘点影响力最大的10篇论文

發(fā)布時間：2025/3/8 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了【CV】图像分割二十年，盘点影响力最大的10篇论文小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

編輯丨極市平臺

極市導(dǎo)讀

圖像分割（image segmentation）技術(shù)是計算機(jī)視覺領(lǐng)域的重要的研究方向，近些年，圖像分割技術(shù)迅猛發(fā)展，在多個視覺研究領(lǐng)域都有著廣泛的應(yīng)用。本文盤點(diǎn)了近20年來影響力最大的 10 篇論文。

注：這里的影響力以Web of Science上顯示的論文的引用量排序，截止時間為2020年9月27日。

-TOP10-

Mask R-CNN?

被引頻次：1839

作者：Kaiming He，Georgia Gkioxari，Piotr Dollar，Ross Girshick.
發(fā)布信息: 2017，16th IEEE International Conference on Computer Vision (ICCV)
論文：https://arxiv.org/abs/1703.06870
代碼：https://github.com/facebookresearch/Detectron

Mask R-CNN作為非常經(jīng)典的實(shí)例分割（Instance segmentation）算法，在圖像分割領(lǐng)域可謂“家喻戶曉”。Mask R-CNN不僅在實(shí)例分割任務(wù)中表現(xiàn)優(yōu)異，還是一個非常靈活的框架，可以通過增加不同的分支完成目標(biāo)分類、目標(biāo)檢測、語義分割、實(shí)例分割、人體姿勢識別等多種不同的任務(wù)。

-TOP9-

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

被引頻次：1937

作者: Vijay Badrinarayanan，Alex Kendall，Roberto Cipolla
發(fā)布信息：2015，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE
論文：https://arxiv.org/pdf/1511.00561.pdf
代碼：https://github.com/aizawan/segnet

SegNet是用于進(jìn)行像素級別圖像分割的全卷積網(wǎng)絡(luò)。SegNet與FCN的思路較為相似，區(qū)別則在于Encoder中Pooling和Decoder的Upsampling使用的技術(shù)。Decoder進(jìn)行上采樣的方式是Segnet的亮點(diǎn)之一，SegNet主要用于場景理解應(yīng)用，需要在進(jìn)行inference時考慮內(nèi)存的占用及分割的準(zhǔn)確率。同時，Segnet的訓(xùn)練參數(shù)較少，可以用SGD進(jìn)行end-to-end訓(xùn)練。

-TOP8-

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

被引頻次：2160

作者: Chen Liang-Chieh，Papandreou George，Kokkinos Iasonas等.
發(fā)布信息：2018，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE

DeepLabv1：https://arxiv.org/pdf/1412.7062v3.pdf
DeepLabv2：https://arxiv.org/pdf/1606.00915.pdf
DeepLabv3：https://arxiv.org/pdf/1706.05587.pdf
DeepLabv3+：https://arxiv.org/pdf/1802.02611.pdf
代碼：https://github.com/tensorflow/models/tree/master/research/deeplab

DeepLab系列采用了Dilated/Atrous Convolution的方式擴(kuò)展感受野，獲取更多的上下文信息，避免了DCNN中重復(fù)最大池化和下采樣帶來的分辨率下降問題。2018年，Chen等人發(fā)布Deeplabv3+，使用編碼器-解碼器架構(gòu)。DeepLabv3+在2012年pascal VOC挑戰(zhàn)賽中獲得89.0%的mIoU分?jǐn)?shù)。

DeepLabv3+

-TOP7-

Contour Detection and Hierarchical Image Segmentation

被引頻次：2231

作者: Arbelaez Pablo，Maire Michael，Fowlkes Charless等.
發(fā)布信息：2011，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE
論文和代碼：https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html

Contour Detection and Hierarchical Image Segmentation通過檢測輪廓來進(jìn)行分割，以解決不加交互的圖像分割問題，是分割領(lǐng)域中非常重要的一篇文章，后續(xù)很多邊緣檢測算法都利用了該模型。

-TOP6-

Efficient graph-based image segmentation

被引頻次：3302

作者：Felzenszwalb PF，Huttenlocher DP
發(fā)布信息：2004，INTERNATIONAL JOURNAL OF COMPUTER VISION
論文和代碼：http://cs.brown.edu/people/pfelzens/segment/

Graph-Based Segmentation 是經(jīng)典的圖像分割算法，作者Felzenszwalb也是提出DPM算法的大牛。該算法是基于圖的貪心聚類算法，實(shí)現(xiàn)簡單。目前雖然直接用其做分割的較少，但許多算法都用它作為基石。

-TOP5-

SLIC Superpixels Compared to State-of-the-Art Superpixel Methods

被引頻次：4168

作者: Radhakrishna Achanta，Appu Shaji，Kevin Smith，Aurelien Lucchi，Pascal Fua，Sabine Susstrunk.
發(fā)布信息：2012，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE
論文和代碼：https://ivrlwww.epfl.ch/supplementary_material/RK_SLICSuperpixels/index.html

SLIC 算法將K-means 算法用于超像素聚類，是一種思想簡單、實(shí)現(xiàn)方便的算法，SLIC算法能生成緊湊、近似均勻的超像素，在運(yùn)算速度，物體輪廓保持、超像素形狀方面具有較高的綜合評價，比較符合人們期望的分割效果。

-TOP4-

U-Net: Convolutional Networks for Biomedical Image Segmentation

被引頻次：6920

作者: Ronneberger Olaf，Fischer Philipp，Brox Thomas
發(fā)布信息：2015，18th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI)?
代碼：https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

U-Net是一種基于深度學(xué)習(xí)的圖像語義分割方法，在醫(yī)學(xué)圖像分割領(lǐng)域表現(xiàn)尤為優(yōu)異。它基于FCNs做出改進(jìn)，相較于FCN多尺度信息更加豐富，同時適合超大圖像分割。作者采用數(shù)據(jù)增強(qiáng)（data augmentation），通過使用在粗糙的3*3點(diǎn)陣上的隨機(jī)取代向量來生成平緩的變形，解決了可獲得的訓(xùn)練數(shù)據(jù)很少的問題。并使用加權(quán)損失（weighted loss）以解決對于同一類的連接的目標(biāo)分割。

-TOP3-

Mean shift: A robust approach toward feature space analysis

被引頻次：6996

作者: Comaniciu D，Meer P
發(fā)布信息：2002，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE

Meanshift是基于像素聚類的代表方法之一，是一種特征空間分析方法。密度估計(Density Estimation) 和mode 搜索是Meanshift的兩個核心點(diǎn)。對于圖像數(shù)據(jù)，其分布無固定模式可循，所以密度估計必須用非參數(shù)估計，選用的是具有平滑效果的核密度估計（Kernel density estimation，KDE）。Meanshift 算法的穩(wěn)定性、魯棒性較好，有著廣泛的應(yīng)用。但是分割時所包含的語義信息較少，分割效果不夠理想，無法有效地控制超像素的數(shù)量，且運(yùn)行速度較慢，不適用于實(shí)時處理任務(wù)。

-TOP2-

Normalized cuts and image segmentation

被引頻次：8056

作者：Shi JB，Malik J
發(fā)布信息：2000，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 論文：https://ieeexplore.ieee.org/abstract/document/1000236

NormalizedCut是基于圖論的分割方法代表之一，與以往利用聚類的方法相比，更加專注于全局解的情況，并且根據(jù)圖像的亮度，顏色，紋理進(jìn)行劃分。

-Top1-

Fully Convolutional Networks for Semantic Segmentation

被引頻次：8170

作者: Long Jonathan，Shelhamer Evan，Darrell Trevor
發(fā)布信息：2015，IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
代碼：https://github.com/shelhamer/fcn.berkeleyvision.org

FCN是圖像分割領(lǐng)域里程碑式論文。作為語義分割的開山之作，FCN是當(dāng)之無愧的TOP1。它提出了全卷積網(wǎng)絡(luò)(FCN)的概念，針對語義分割訓(xùn)練了一個端到端，點(diǎn)對點(diǎn)的網(wǎng)絡(luò)，它包含了三個CNN核心思想：

（1）不含全連接層(fc)的全卷積(fully conv)網(wǎng)絡(luò)。可適應(yīng)任意尺寸輸入。
（2）增大數(shù)據(jù)尺寸的反卷積(deconv)層。能夠輸出精細(xì)的結(jié)果。
（3）結(jié)合不同深度層結(jié)果的跳級(skip)結(jié)構(gòu)。同時確保魯棒性和精確性。

參考
[1]FCN的學(xué)習(xí)及理解（Fully Convolutional Networks for Semantic Segmentation），CSDN
[2]mean shift 圖像分割 (一)，CSDN
[3]https://zhuanlan.zhihu.com/p/49512872
[4]圖像分割—基于圖的圖像分割（Graph-Based Image Segmentation），CSDN
[5]https://www.cnblogs.com/fourmi/p/9785377.html

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識星球優(yōu)惠券，復(fù)制鏈接直接打開：https://t.zsxq.com/662nyZF本站qq群704220115。加入微信群請掃碼進(jìn)群（如果是博士或者準(zhǔn)備讀博士請說明）：

總結(jié)

以上是生活随笔為你收集整理的【CV】图像分割二十年，盘点影响力最大的10篇论文的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【数学基础】算法工程师必备的机器学习--
下一篇：【小白学PyTorch】15.TF2实现