RGB-D Salient Object Detection with Cross-Modality Modulation and Selection
RGB-D Salient Object Detection with Cross-Modality Modulation and Selection
具有跨模態(tài)調(diào)制和選擇的 RGB-D 顯著目標(biāo)檢測(cè)
一、Motivation
two challenge:
1)如何有效地整合來(lái)自 RGB 圖像及其對(duì)應(yīng)的深度圖的互補(bǔ)信息;
2)如何自適應(yīng)地選擇更多與顯著性相關(guān)的特征。
二、Solutions
(1) cross-modality feature modulation (cmFM) 模塊,通過(guò)將深度特征作為先驗(yàn)來(lái)增強(qiáng)RGB特征表示,所提出的調(diào)制設(shè)計(jì)通過(guò)特征轉(zhuǎn)換實(shí)現(xiàn)了多模態(tài)信息的有效整合。
(2) adaptive feature selection (AFS) 模塊,選擇與顯著性相關(guān)的特征并抑制劣質(zhì)特征。 該模塊突出了不同通道特征在自模態(tài)和跨模態(tài)中的重要性,同時(shí)以門(mén)控方式融合了多模態(tài)空間特征。
(3) saliency-guided position-edge attention (sg-PEA) 模塊,強(qiáng)調(diào)與顯著性相關(guān)的位置和邊緣,該模塊從預(yù)測(cè)的顯著性圖和顯著性邊緣圖中收集其注意力權(quán)重。
上述模塊作為一個(gè)整體,稱為 cmMS 塊,有助于以粗到細(xì)的方式細(xì)化顯著性特征。再加上自下而上的推理,精細(xì)的顯著性特征可實(shí)現(xiàn)準(zhǔn)確且邊緣保留的 SOD。
三、Methods
????????輸入是RGB圖像及其depth圖。輸入到VGG的5個(gè) level 的 backbone 里面,將每個(gè)level的特征分別輸入到cmMS(跨模態(tài)調(diào)制和選擇)模塊中來(lái)進(jìn)行跨模態(tài)信息的融合以及調(diào)制和優(yōu)化。同時(shí),它是一個(gè)由低到高的形勢(shì)下進(jìn)行的多級(jí)串聯(lián),得到最終的預(yù)測(cè)結(jié)果。
????????cmMS模塊由cmFM模塊,AFS模塊和sg-PEA模塊組成。這里,sg-PEA模塊還包含一個(gè)S-Pre和一個(gè)E-Pre。
? ? ? ? 首先,通過(guò)cmFM跨模態(tài)特征調(diào)制來(lái)融合跨模態(tài)特征調(diào)制,通過(guò)AFS自適應(yīng)特征選擇模塊來(lái)選擇出與顯著性相關(guān)的特征來(lái)進(jìn)行最終的預(yù)測(cè)。最后,通過(guò)S-pe和E-pe(位置和邊緣)的顯著性引導(dǎo)的注意力機(jī)制來(lái)細(xì)化強(qiáng)調(diào)準(zhǔn)確定位和邊緣,最終得到 level 的顯著圖。
‘Conv n’ 表示輸出 n 個(gè)特征圖的卷積層,其中 n 是輸入特征圖的一半(降維)。. “A”、“M”和“C”分別表示元素加法、元素乘法和連接以及通道維度。“Up”表示向上采樣塊。粉線表示 2× 線性插值。Fs 表示 cmMS 塊之后的細(xì)化特征,而 Fsup 是Fs經(jīng)過(guò)“Up”塊的上采樣結(jié)果。在這個(gè)圖中,每個(gè)卷積層后面都是 ReLU 激活。我們的網(wǎng)絡(luò)最終生成了 5 個(gè)顯著性圖(SmapL)和 5 個(gè)顯著性邊緣圖(SedgeL),分辨率范圍為 14×14 到 224×224,比例為 2。L 表示級(jí)別。我們將Smap1視為最終結(jié)果。
?????????在傳統(tǒng)的RGB 和 depth 的融合過(guò)程,一般情況下是通過(guò)級(jí)聯(lián)或者是相加或者相乘的方式來(lái)簡(jiǎn)單的堿性融合。
? ? ? ? 在這篇論文中,對(duì)整個(gè)SOD任務(wù)來(lái)說(shuō),depth特征相對(duì)于RGB特征是輔助信息,作者希望通過(guò)depth的特征對(duì)RGB 特征進(jìn)行增強(qiáng),所以把depth 特征做成調(diào)制的形式來(lái)得到仿射變換的系數(shù)和來(lái)對(duì)RGB的特征進(jìn)行增強(qiáng)。
?具體過(guò)程,把RGB和depth特征輸入到cmFM模塊中,然后depth學(xué)習(xí)M的映射,得到?和?兩個(gè)仿射變換參數(shù),然后利用這個(gè)參數(shù)對(duì)RGB的特征進(jìn)行增強(qiáng),從而得到調(diào)制后的特征。
????????有了這樣的一些特征之后,包括了RGB特征、depth特征、調(diào)制特征和上一級(jí)經(jīng)過(guò)cmMS塊最終輸出的(如果有)經(jīng)過(guò)上采樣的高層特征之后,這些特征之間,它們既存在相關(guān)性,但是它們也存在大量的冗余,如何去從這些大量的信息中去自適應(yīng)選擇出與顯著性相關(guān)的特征對(duì)SOD任務(wù)來(lái)說(shuō)是非常重要的。
? ? ? ? 作者就設(shè)計(jì)了這樣的自適應(yīng)選擇模塊,在這個(gè)部分中,主要包含了兩個(gè)方面,一個(gè)是空間信息的選擇,另一個(gè)是通道信息的選擇。
? ? ? ? 一開(kāi)始輸入的特征是包含很多模態(tài)的,在傳統(tǒng)方法進(jìn)行通道選擇的時(shí)候通常可以采樣一些通道注意力的方式,在本文中,作者構(gòu)建了一種 channel attention on channel attention的一種形式,不僅需要建模輸入特征的每一單模態(tài)上的通道之間的相互依賴關(guān)系,同時(shí)還希望這樣的選擇過(guò)程可以建模不同的跨模態(tài)之間的相關(guān)性,所以,首先,把不同模態(tài)的特征經(jīng)過(guò)SE-Net網(wǎng)絡(luò)提取通道注意力,然后將多個(gè)模態(tài)輸出的特征進(jìn)行級(jí)聯(lián),之后再經(jīng)過(guò)注意力機(jī)制來(lái)進(jìn)行多模態(tài)之間的通道之間的特征建模和提取,這樣,就形成了人CA-on-CA的通道選擇的部分。
?????????除了要選擇有利的通道來(lái)進(jìn)行SOD外,還需要保持空間特征的一些有效信息,所以提出了這樣一種空間選擇過(guò)程把它建模成一個(gè)門(mén)控注意力引導(dǎo)的多模態(tài)信息融合過(guò)程。首先把跨模態(tài)特征級(jí)聯(lián)之后來(lái)學(xué)習(xí)像素級(jí)的權(quán)重,然后在權(quán)重的引導(dǎo)下,將不同模態(tài)的信息進(jìn)行加權(quán)融合,來(lái)保留下更加反應(yīng)顯著性信息的特征。
? ? ? ? 最后將通道特征和空間特征進(jìn)行級(jí)聯(lián)之后,最終得到與顯著相關(guān)的特征。
? ? ? ? 最后,有了這樣一些特征之后,我們還需要約束網(wǎng)絡(luò)能夠精準(zhǔn)的定位顯著目標(biāo),同時(shí)預(yù)測(cè)結(jié)果具有比較清晰的形式,所以引入了一個(gè)顯著性引導(dǎo)的位置和邊緣的注意力模塊,它們是共享相同的網(wǎng)絡(luò)來(lái)約束生成更加完整的顯著圖和更加清晰的邊緣圖。
?
?????????它的具體過(guò)程,首先把RGB特征、depth特征、調(diào)制特征和高級(jí)特征首先經(jīng)過(guò)邊緣預(yù)測(cè)過(guò)程(E-pre)得到SedgeL顯著邊緣圖,之后把選擇之后的特征利用上個(gè)level生成的saliency作為注意力的信息,對(duì)當(dāng)前選擇出來(lái)的AFS的輸出進(jìn)行修正,然后得到更加關(guān)注顯著性目標(biāo)的F^poa L 特征。
? ? ? ? 然后,再利用剛才生成的顯著邊緣特征SedgeL作為注意力的加權(quán)來(lái)對(duì)空間位置特征修正,得到用于顯著性檢測(cè)的F SL特征,最后,特征經(jīng)過(guò)S-pre顯著預(yù)測(cè)得到當(dāng)前l(fā)evel最終顯著圖。
? ? ? ? 如上圖,邊緣信息和背景得到抑制。
總結(jié)
以上是生活随笔為你收集整理的RGB-D Salient Object Detection with Cross-Modality Modulation and Selection的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 企业即时通讯软件有哪些功能?对企业有什么
- 下一篇: 2014网络红人彭伟个人资料及照片