當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

显著性检测学习笔记（3）：CPFP_CVPR_2019

發(fā)布時(shí)間：2024/3/24 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了显著性检测学习笔记（3）：CPFP_CVPR_2019 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection

1 簡介
- 1.1 github：
- 1.2 動(dòng)機(jī)和貢獻(xiàn)
2 提出的模型
- 2.1 Feature-enhanced module(FEM)
- - 2.1.1 Contrast-enhancedNet(CEN)
  - 2.1.2 Cross-modal Fusion
- Fluid Pyramid Integration(FPI)
消融試驗(yàn)
總結(jié)

1 簡介

這是一篇程明明團(tuán)隊(duì)在2019年cvpr上發(fā)表的RGB-D顯著性檢測文章。超越了此前的9個(gè)SOTA方法。

1.1 github：

https://github.com/JXingZhao/ContrastPrior

1.2 動(dòng)機(jī)和貢獻(xiàn)

文章認(rèn)為RGBD顯著性檢測面臨兩大挑戰(zhàn)：1.缺乏高質(zhì)量的深度圖。并且深度圖的噪聲更大，且沒有紋理。也沒有像ImageNet這樣的大規(guī)模深度圖數(shù)據(jù)集，缺乏訓(xùn)練良好的BACKBONE
2.多尺度交叉模型融合是次優(yōu)的。depth和RGB有非常不同的屬性，例如綠色和草有很大的相關(guān)性，但是深度圖沒有。因此做出一個(gè)有效的多尺度融合模型是困難的。

貢獻(xiàn)：
1.設(shè)計(jì)了一種對(duì)比度損失來應(yīng)用于對(duì)比度先驗(yàn)，該先驗(yàn)已被廣泛用于基于非深度學(xué)習(xí)的方法中，用于增強(qiáng)深度圖。基于RGBD的SOD模型成功利用了傳統(tǒng)對(duì)比技術(shù)和深層CNN功能的優(yōu)勢。
2.提出了一種流體金字塔集成策略，以更好地利用多尺度交叉模式特征，其有效性已通過實(shí)驗(yàn)驗(yàn)證。

2 提出的模型

框架的整體模型如下圖：

Feature-enhanced module(FEM)和fluid pyramid integration 被應(yīng)用在VGG-16中。

2.1 Feature-enhanced module(FEM)

為了調(diào)制深度信息，文章提出了一種新穎的FEM模型。FEM由一個(gè)ContrastEnhanceNet 和一個(gè) Cross-Modal Fusion strategy 組成。FEM獨(dú)立于RGB主干網(wǎng)絡(luò)，FEM模塊穿插在每一個(gè)卷積塊的輸出后面去獲得增強(qiáng)特征。

2.1.1 Contrast-enhancedNet(CEN)

首先，增強(qiáng)的圖應(yīng)與前景和背景對(duì)象的原始深度圖保持一致。因此，對(duì)于生成的增強(qiáng)圖，前景對(duì)象分布損失 l_f 和背景分布損失 l_b 可以表示為Eqn.1： $lf=?log?(1?4?∑(i,j)∈F(pi,j?p^f)2Nf)lb=?log?(1?4?∑(i,j)∈B(pi,j?p^b)2Nb)\begin{array}{l}{l_{f}=-\log \left(1-4 * \sum_{(i, j) \in F} \frac{\left(p_{i, j}-\hat{p}_{f}\right)^{2}}{N_{f}}\right)} \\ {l_{b}=-\log \left(1-4 * \sum_{(i, j) \in B} \frac{\left(p_{i, j}-\hat{p}_{b}\right)^{2}}{N_{b}}\right)}\end{array}$
F 和 B 是真值圖的顯著目標(biāo)區(qū)域和背景。 N_f 和 N_b 分別表示顯著物體和背景中的像素?cái)?shù)。類似地， $p^f\hat{p}_{f}$ 和 $p^b\hat{p}_{b}$ 分別表示增強(qiáng)圖的前景和背景中的值的平均值Eqn.2: $p^f=∑(i,j)∈Fpi,jNf,p^b=∑(i,j)∈Bpi,jNb\hat{p}_{f}=\sum_{(i, j) \in F} \frac{p_{i, j}}{N_{f}}, \hat{p}_{b}=\sum_{(i, j) \in B} \frac{p_{i, j}}{N_{b}}$
Eqn.1 對(duì)顯著目標(biāo)和背景的方差進(jìn)行建模以提升和原depth圖的一致性。一個(gè)sigmoid層用來把CEN的輸出壓縮到[0,1]。因此，內(nèi)部的最大方差為0.25，所以在Eqn.1中將方差 × 4 是為了確保 log 函數(shù)的范圍在0~1之間。

接著， 應(yīng)增強(qiáng)前景物體與背景物體之間的對(duì)比。因此，我們將整個(gè)深度圖像分布損失 l_w 定義為Eqn.3：
$lw=?log?(p^f?p^b)2l_{w}=-\log \left(\hat{p}_{f}-\hat{p}_{b}\right)^{2}$
通過對(duì)均差進(jìn)行建模，可以確保前景目標(biāo)和背景的對(duì)比度盡可能大。 $p^f\hat{p}_{f}$ 和 $p^b\hat{p}_{b}$ 在0到1之間，因此log函數(shù)中的參數(shù)值范圍從0到1。

最后，對(duì)比度損失lc可以表示為 Eqn.4 : $lc=α1lf+α2lb+α3lwl_{c}=\alpha_{1} l_{f}+\alpha_{2} l_{b}+\alpha_{3} l_{w}$ 其中，α₁ ，α₂ 和α₃是預(yù)定義參數(shù)，文章說建議分別定位5，5，1。
增強(qiáng)后的圖片，相比于原來的深度圖對(duì)比度更高，前、后景分布更為均勻。

2.1.2 Cross-modal Fusion

Cross-modal Fusion 是增強(qiáng)模塊的一個(gè)子模塊，用于通過增強(qiáng)的depth圖來調(diào)制RGB特征。單通道增強(qiáng)圖的作用類似于注意圖，具體來說，我們將每個(gè)塊的RGB特征圖乘以增強(qiáng)的深度圖，以增強(qiáng)顯著區(qū)域和非顯著區(qū)域之間的特征對(duì)比度。用殘差鏈接來保留原始RGB的特征。這些特征圖為增強(qiáng)特征 $F~\tilde{F}$ ，其計(jì)算公式為 Eqn.5： $F~=F+F?DE\tilde{F}=F+F \otimes D_{E}$
其中， $F$ 是原始RGB特征， $D_{E}$ 是增強(qiáng)后的深度圖 $?\otimes$ 表示逐像素相乘。通過將增強(qiáng)功能的模塊插入每個(gè)塊的末端，分別獲得五個(gè)不同尺度的增強(qiáng)功能，分別為 $F1~\tilde{F_1}$ ~ $F5~\tilde{F_5}$

Fluid Pyramid Integration(FPI)

feature compatibility（特征兼容）是處理跨模式信息的關(guān)鍵，而Fluid Pyramid Integration(FPI) 可以很好的確保這一點(diǎn)。
具體來說，金字塔有5層。第一層由5個(gè)節(jié)點(diǎn)組成，并且每個(gè)節(jié)點(diǎn)都是一系列不同尺度的增強(qiáng)特征。然后，通過把 $F2~\tilde{F_2}$ ~ $F5~\tilde{F_5}$ 上采樣到和 $F1~\tilde{F_1}$ 相同尺寸并且把這些上采樣特征累加在一起，構(gòu)造第二層的第一個(gè)節(jié)點(diǎn)。類似的，把 $F3~\tilde{F_3}$ ~ $F5~\tilde{F_5}$ 上采樣到和 $F2~\tilde{F_2}$ 一樣的尺寸，并且把這些特征累加在一起，來構(gòu)造第二層的第二個(gè)節(jié)點(diǎn)。
Fluid Pyramid Integration(FPI)在多尺度級(jí)別和跨模式級(jí)別都集成了信息。
總的loss $L$ 為，Eqn.6:
$L=ls+∑i=15lciL=l_{s}+\sum_{i=1}^{5} l_{c_{i}}$
其中 $l_s~$ 是預(yù)測圖和真值圖之間的 cross-entropy loss 。 $l_{c_{i}}$ 是第 $i$ 個(gè)特征增強(qiáng)模塊的對(duì)比度損失contrast loss，contrast loss 在之前已經(jīng)寫過，cross-entropy loss定義為Eqn.7：
$l_{f}=Y \log P+(1-Y) \log (1-P)$
其中 $P$ 和 $Y$ 分別代表預(yù)測圖和真值圖。

消融試驗(yàn)

不同的融合模型：

試驗(yàn)對(duì)比：

總結(jié)

這篇文章的關(guān)鍵在于FEM，通過不斷的增強(qiáng)每一個(gè)VGG模塊輸出的特征，增強(qiáng)深度圖的對(duì)比度，并且不斷的疊加每一個(gè)level的特征，從而引導(dǎo)RGB圖生成salient image。這個(gè)增強(qiáng)模塊可以拿去用用試試。至于Fluid Pyramid Integration,是融合不同level的好的策略，對(duì)于既需要空間信息，又需要語義特征的情況應(yīng)該很好用。

總結(jié)

以上是生活随笔為你收集整理的显著性检测学习笔记（3）：CPFP_CVPR_2019的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

学习笔记

上一篇： ADODB 入门学习基础教程[多图]
下一篇： fanuc c语言编程实例,FANUC机