CVPR 2019 | PoolNet:基于池化技术的显著性目标检测
作者丨文永亮
學校丨哈爾濱工業大學(深圳)
研究方向丨目標檢測、GAN
研究動機
這是一篇發表于 CVPR 2019 的關于顯著性目標檢測的 paper,在 U 型結構的特征網絡中,高層富含語義特征捕獲的位置信息在自底向上的傳播過程中可能會逐漸被稀釋,另外卷積神經網絡的感受野大小與深度是不成正比的。
目前很多流行方法都是引入 Attention(注意力機制),但是本文是基于 U 型結構的特征網絡研究池化對顯著性檢測的改進,具體步驟是引入了兩個模塊GGM (Global Guidance Module,全局引導模塊) 和 FAM (Feature Aggregation Module,特征整合模塊),進而銳化顯著物體細節,并且檢測速度能夠達到 30FPS。因為這兩個模塊都是基于池化做的改進所以作者稱其為 PoolNet,并且放出了源碼:
https://github.com/backseason/PoolNet
模型架構
兩個模塊
GGM(全局引導模塊)
我們知道高層語義特征對挖掘顯著對象的詳細位置是很有幫助的,但是中低層的語義特征也可以提供必要的細節。因為在 top-down 的過程中,高層語義信息被稀釋,而且實際上的感受野也是小于理論感受野,所以對于全局信息的捕捉十分的缺乏,導致顯著物體被背景吞噬。
因此作者提出了 GGM 模塊,GGM 其實是 PPM(Pyramid Pooling module,金字塔池化模塊)的改進并且加上了一系列的 GGFs(Global Guiding Flows,全局引導流),這樣做的好處是,在特征圖上的每層都能關注到顯著物體,另外不同的是,GGM 是一個獨立的模塊,而 PPM 是在 U 型架構中,在基礎網絡(backbone)中參與引導全局信息的過程。?
其實這部分論文說得并不是很清晰,沒有說 GGM 的詳細結構,我們可以知道 PPM [7] 的結構如下:
該 PPM 模塊融合了 4 種不同金字塔尺度的特征,第一行紅色是最粗糙的特征–全局池化生成單個 bin 輸出,后面三行是不同尺度的池化特征。為了保證全局特征的權重,如果金字塔共有 N 個級別,則在每個級別后使用 1×1 的卷積將對于級別通道降為原本的 1/N。再通過雙線性插值獲得未池化前的大小,最終 concat 到一起。?
如果明白了這個的話,其實 GGM 就是在 PPM 的結構上的改進,PPM?是對每個特征圖都進行了金字塔池化,所以作者說是嵌入在 U 型結構中的,但是他加入了 global guiding flows(GGFs),即 Fig1 中綠色箭頭,引入了對每級特征的不同程度的上采樣映射(文中稱之為 identity mapping),所以可以是個獨立的模塊。
簡單地說,作者想要 FPN 在 top-down 的路徑上不被稀釋語義特征,所以在每次橫向連接的時候都加入高層的語義信息,這樣做也是一個十分直接主觀的想法。?
FAM(特征整合模塊)
特征整合模塊也是使用了池化技巧的模塊,如下圖,先把 GGM 得到的高層語義與該級特征分別上采樣之后橫向連接一番得到 FAM 的輸入 b,之后采取的操作是先把 b 用 {2,4,8} 的三種下采樣得到藍綠紅特征圖然后 avg pool(平均池化)再上采樣回原來尺寸,最后藍綠紅紫(紫色是 FAM 的輸入 b)四個分支像素相加得到整合后的特征圖。
FAM 有以下兩個優點:?
1. 幫助模型降低上采樣(upsample)導致的混疊效應(aliasing);
2. 從不同的多角度的尺度上縱觀顯著物體的空間位置,放大整個網絡的感受野。?
第二點很容易理解,從不同角度看,不同的放縮尺度看待特征,能夠放大網絡的感受野。對于第一點降低混疊效應的理解,用明珊師姐說的話,混疊效應就相當于引入雜質,GGFs 從基礎網絡最后得到的特征圖經過金字塔池化之后需要最高是 8 倍上采樣才能與前面的特征圖融合,這樣高倍數的采樣確實容易引入雜質。
作者就是因為這樣才會提出 FAM,進行特征整合,先把特征用不同倍數的下采樣,池化之后,再用不同倍數的上采樣,最后疊加在一起。因為單個高倍數上采樣容易導致失真,所以補救措施就是高倍數上采樣之后,再下采樣,再池化上采樣平均下來可以彌補錯誤。
上圖就是為了說明 FAM 的優點的,經過高倍上采樣之后的圖像(b)和(d)容易引入許多雜質,致使邊緣不清晰,但是經過 FAM 模塊之后的特征圖就能降低混疊效應。
實驗結果
論文在常用的 6 種數據集上做了實驗,有 ECSSD [8], PASCALS [9], DUT-OMRON [10], HKU-IS [11], SOD [12] 和 DUTS [13], 使用二值交叉熵做顯著性檢測,平衡二值交叉熵(balanced binary cross entropy)[14] 作為邊緣檢測(edge detection)。
以下是文章方法跟目前 state-of-the-arts 的方法的對比效果,綠框是 GT,紅框是本文效果。可以看到無論在速度還是精度上都有很大的優勢。
論文還針對三個改進的技術 PPM、GGFs 和 FAMs 的不同組合做了實驗,(a) 是原圖,(b) 是 Ground truth,(c) 是 FPN 的結果,(d) 是 FPN+FAMs,(e) 是 FPN+PPM,(f) 是 FPN+GGM,(g) 是 FPN+GGM+FAMs。
總結
該 paper 提出了兩種基于池化技術的模塊 GGM(全局引導模塊)和 FAM(特征整合模塊),改進 FPN 在顯著性檢測的應用,而且這兩個模塊也能應用在其他金字塔模型中,具有普遍性,但是 FAM 的整合過程我認為有點像是用平均中和了上采樣帶來的混疊效應,但是不夠優雅,先下采樣池化再上采樣帶來的損失可能代價太大。
參考文獻
[1]. Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, 2017. 1, 3.?
[2]. Tiantian Wang, Ali Borji, Lihe Zhang, Pingping Zhang, and Huchuan Lu. A stagewise refinement model for detecting salient objects in images. In ICCV, pages 4019–4028, 2017. 1, 3, 6, 7, 8.
[3].Nian Liu and Junwei Han. Dhsnet: Deep hierarchical saliency network for salient object detection. In CVPR, 2016.1, 2, 3, 7, 8.?
[4]. Qibin Hou, Ming-Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, and Philip Torr. Deeply supervised salient object detection with short connections. IEEE TPAMI, 41(4):815–828, 2019. 1, 2, 3, 5, 6, 7, 8.?
[5]. Tiantian Wang, Ali Borji, Lihe Zhang, Pingping Zhang, and Huchuan Lu. A stagewise refinement model for detecting salient objects in images. In ICCV, pages 4019–4028, 2017. 1, 3, 6, 7, 8.?
[6]. Tiantian Wang, Lihe Zhang, Shuo Wang, Huchuan Lu, Gang Yang, Xiang Ruan, and Ali Borji. Detect globally, refine locally: A novel approach to saliency detection. In CVPR, pages 3127–3135, 2018. 1, 3, 6, 7, 8.?
[7]. Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, 2017. 1, 3.?
[8]. Qiong Yan, Li Xu, Jianping Shi, and Jiaya Jia. Hierarchical saliency detection. In CVPR, pages 1155–1162, 2013. 1, 5, 8.
[9]. Yin Li, Xiaodi Hou, Christof Koch, James M Rehg, and Alan L Yuille. The secrets of salient object segmentation. In CVPR, pages 280–287, 2014. 5, 7, 8.?
[10]. Chuan Yang, Lihe Zhang, Huchuan Lu, Xiang Ruan, and Ming-Hsuan Yang. Saliency detection via graph-based manifold ranking. In CVPR, pages 3166–3173, 2013. 5, 6, 7, 8.
[11]. Guanbin Li and Yizhou Yu. Visual saliency based on multiscale deep features. In CVPR, pages 5455–5463, 2015. 2, 5, 6, 7, 8.?
[12]. Vida Movahedi and James H Elder. Design and perceptual validation of performance measures for salient object segmentation. In CVPR, pages 49–56, 2010. 5, 6, 7, 8.?
[13]. Lijun Wang, Huchuan Lu, Yifan Wang, Mengyang Feng, Dong Wang, Baocai Yin, and Xiang Ruan. Learning to detect salient objects with image-level supervision. In CVPR, pages 136–145, 2017. 5, 7, 8.
[14]. Saining Xie and Zhuowen Tu. Holistically-nested edge detection. In ICCV, pages 1395–1403, 2015. 6.
點擊以下標題查看更多往期內容:?
PFLD:簡單高效的實用人臉關鍵點檢測算法
CVPR 2019 | 實體零售場景下密集商品的精確探測
CVPR 2019 | STGAN: 人臉高精度屬性編輯模型
從動力學角度看優化算法:GAN的第三個階段
CVPR 2019 | 基于高清表示網絡的人體姿態估計
免費中文深度學習全書:理論詳解加代碼分析
目標檢測小tricks之樣本不均衡處理
小米拍照黑科技:基于NAS的圖像超分辨率算法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的CVPR 2019 | PoolNet:基于池化技术的显著性目标检测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 我终于拿到CMU的offer了!
- 下一篇: 商汤 AI TECH DAY丨见大咖、拿