日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【图像超分辨率】RS Image SR Based on Visual Saliency Analysis

發(fā)布時(shí)間:2023/12/15 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【图像超分辨率】RS Image SR Based on Visual Saliency Analysis 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Remote-Sensing Image Superresolution Based on Visual Saliency Analysis and Unequal Reconstruction Networks

    • 摘要
    • I. 引言
    • II. 相關(guān)研究
      • A. 經(jīng)典圖像SR
        • 1) 頻域算法
        • 2)空間域算法
        • 3)基于實(shí)例的算法
      • B. 基于深度學(xué)習(xí)的SR
        • 1)架構(gòu)。
        • 2) 損失函數(shù)。
      • C. RSI的SR技術(shù)
    • III. 方法
      • A. 多尺度梯度顯著分析
      • B. 顯著性驅(qū)動(dòng)的門條件生成對(duì)抗網(wǎng)絡(luò)
        • 1)對(duì)抗學(xué)習(xí)。
        • 2)網(wǎng)絡(luò)結(jié)構(gòu)。
        • 2) Saliency-Weighted Perceptual Loss:
        • 3)對(duì)抗性損失:
      • D. 與先進(jìn)方法的比較
        • 1) 目標(biāo)比較。
        • 2) 數(shù)量比較。
        • 3)主觀評(píng)價(jià)。
    • V. 討論
      • A. 不等價(jià)策略的效率
      • B. 歸一化內(nèi)容損失的效率
      • C. 關(guān)于權(quán)衡的討論
    • VI. 結(jié)論

摘要

遙感圖像(RSI)通常具有很強(qiáng)的表面特征的空間特性。各種地面物體,如住宅區(qū)、道路、森林和河流,都有很大的不同。根據(jù)這一視覺注意力特征,具有復(fù)雜紋理特征的區(qū)域需要更多的現(xiàn)實(shí)細(xì)節(jié),以反映對(duì)地形的更好描述,而農(nóng)田等區(qū)域應(yīng)該是光滑的,并且噪聲較小。

然而,大多數(shù)現(xiàn)有的單圖像超級(jí)分辨率(SISR)方法未能充分利用這些特性,因此對(duì)整個(gè)圖像采用統(tǒng)一的重建策略。在這篇文章中,我們提出了一種新穎的突出性驅(qū)動(dòng)的不等價(jià)單幅圖像重建網(wǎng)絡(luò),其中超級(jí)分辨率(SR)過(guò)程中各個(gè)區(qū)域的需求由突出性地圖來(lái)區(qū)分。

首先,我們?cè)O(shè)計(jì)了一種新的基于梯度的顯著性分析方法,以產(chǎn)生更準(zhǔn)確的具有圖像明智注釋的顯著性地圖。該方法利用多接收?qǐng)龅膬?yōu)勢(shì)來(lái)提取高層次特征和低層次特征。

其次,我們提出了一種新型的顯著性驅(qū)動(dòng)門條件生成式對(duì)抗網(wǎng)絡(luò),在整個(gè)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,顯著性圖被視為一種媒介。顯著性圖被看作是生成器中的一個(gè)像素條件,以提高網(wǎng)絡(luò)的訓(xùn)練能力。

此外,我們?cè)O(shè)計(jì)了一個(gè)新的損失函數(shù),結(jié)合了歸一化內(nèi)容損失、顯著性驅(qū)動(dòng)的感知損失和門控對(duì)抗損失,以進(jìn)一步細(xì)化RSI的紋理復(fù)雜區(qū)域的細(xì)節(jié)。

我們?cè)u(píng)估了我們算法的性能,并使用遙感數(shù)據(jù)集將其與許多其他最先進(jìn)的SR方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,我們的方法在突出的區(qū)域達(dá)到了最佳效果。我們的方法在全局質(zhì)量和視覺性能方面達(dá)到了最佳效果。

關(guān)鍵詞:深度學(xué)習(xí),生成對(duì)抗網(wǎng)絡(luò),遙感,顯著性,單幅圖像超級(jí)分辨率(SISR),不平等重建。

I. 引言

具有明顯細(xì)節(jié)的高分辨率(HR)遙感圖像(RSI)對(duì)許多重要的遙感應(yīng)用是有意義的,例如物體探測(cè)和圖像解釋。然而,由于成像設(shè)備和信號(hào)傳輸?shù)南拗?#xff0c;獲取高分辨率遙感圖像仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

因此,研究人員試圖用某些技術(shù)來(lái)提高圖像分辨率,這些技術(shù)通常被稱為圖像超分辨率(SR)。SR的目的是恢復(fù)退化過(guò)程中丟失的信息。然而,恢復(fù)丟失的內(nèi)容是一個(gè)棘手的問(wèn)題,因?yàn)橐粋€(gè)低分辨率(LR)圖像可以由多個(gè)HR圖像生成。

由于對(duì)計(jì)算機(jī)視覺研究的極大關(guān)注,已經(jīng)提出了許多最先進(jìn)的SR方法。這些方法主要依賴于這樣的假設(shè):大部分高頻信息是冗余的,可以從低頻成分中恢復(fù)。研究人員試圖設(shè)計(jì)新的統(tǒng)計(jì)模型來(lái)模擬LR和HR之間的對(duì)應(yīng)關(guān)系。

對(duì)于多圖像SR[1],同一場(chǎng)景的多個(gè)圖像從不同角度被用來(lái)恢復(fù)HR圖像,并利用隱藏在多個(gè)幀中的先驗(yàn)空間仿生知識(shí)來(lái)提高重建質(zhì)量。然而,受時(shí)間變化的光線和有限能力的設(shè)備的影響,獲得同一場(chǎng)景的多個(gè)RSI通常是困難的。

另一種流行的算法是單圖像超級(jí)分辨率(SISR)。SISR技術(shù)已經(jīng)取得了實(shí)質(zhì)性的進(jìn)展,從插值方法到稀疏表示方法[2],[3]到基于大量訓(xùn)練樣本的深度學(xué)習(xí)方法[4]-[10]。這些技術(shù)試圖揭示大量自然數(shù)據(jù)中的內(nèi)在冗余,以恢復(fù)LR實(shí)例中丟失的高頻細(xì)節(jié)。對(duì)于這些方法,我們?cè)诘诙?jié)中做了詳細(xì)介紹。

盡管它們?nèi)〉昧撕芎玫男阅?#xff0c;但這些方法的主要特點(diǎn)是沒有充分利用圖像的視覺注意力特征。視覺注意力的概念[11]最早出現(xiàn)在認(rèn)知心理學(xué)領(lǐng)域。一個(gè)可觀察到的模式是,人們通常以HR模式聚焦于圖片的特定區(qū)域,用LR感知周圍的區(qū)域,并不斷調(diào)整聚焦區(qū)域。這種機(jī)制有助于人們有效地捕捉場(chǎng)景中最重要的部分,這些部分被稱為興趣區(qū)域(ROI)。

例如,RSI中的住宅區(qū)[12]、[13]、機(jī)場(chǎng)[14]、[15]、船舶[16]、[17]和飛機(jī)[18],由于其復(fù)雜的細(xì)節(jié)或主導(dǎo)地位,很容易吸引人們的注意力。顯著性分析來(lái)自于對(duì)視覺注意機(jī)制的研究,它可以生成顯著性圖并提取ROI。這種突出區(qū)提取技術(shù)已經(jīng)被廣泛地應(yīng)用于各種計(jì)算機(jī)視覺應(yīng)用中[11], [19]-[21]。除了不同的意義,各種區(qū)域在SR過(guò)程中的需求也是多樣的。細(xì)節(jié)豐富的區(qū)域總是需要更多的空間分辨率增強(qiáng)來(lái)明確紋理和邊緣。

在RSI SR領(lǐng)域,具有不同紋理復(fù)雜性的區(qū)域往往代表不同的類別。例如,大多數(shù)具有復(fù)雜而集中的紋理特征的區(qū)域?qū)儆诔鞘械貐^(qū)。相比之下,大多數(shù)光滑的區(qū)域是山區(qū)、農(nóng)場(chǎng)和水區(qū)。大多數(shù)現(xiàn)有的SR方法沒有考慮這些區(qū)域的區(qū)別,而是對(duì)整個(gè)圖像采用統(tǒng)一的重建策略,這既沒有考慮到紋理區(qū)域的感知質(zhì)量,也沒有考慮到整個(gè)圖像的客觀測(cè)量。

為了解決這個(gè)問(wèn)題,我們提出了一個(gè)基于不平等重建策略的RSI的顯著性驅(qū)動(dòng)門條件生成對(duì)抗網(wǎng)絡(luò)(SD-GCAN),我們引入了RSI中不同區(qū)域的顯著性變化來(lái)驅(qū)動(dòng)SISR。基于上述分析,在我們的SISR框架中,具有復(fù)雜而集中的紋理特征的區(qū)域,如住宅區(qū),被確定為突出區(qū)域。擬議的網(wǎng)絡(luò)中包括兩個(gè)關(guān)鍵步驟:弱監(jiān)督的突出性分析和突出性驅(qū)動(dòng)的SR網(wǎng)絡(luò)。

近年來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的突出性分析方法[22],[23]由于其高泛化能力而顯示出優(yōu)越性。由于這些框架是基于像素?fù)p失函數(shù)進(jìn)行優(yōu)化的,它們令人滿意的表現(xiàn)與大量的注釋數(shù)據(jù)是分不開的。依靠弱監(jiān)督注釋的弱監(jiān)督方法,可以被看作是解決基于完全監(jiān)督的CNN方法的局限性的一種手段。

在這篇文章中,我們開發(fā)了一種弱監(jiān)督的顯著性分析技術(shù),以結(jié)合這兩類方法的優(yōu)點(diǎn)。圖像范圍的標(biāo)簽被用來(lái)訓(xùn)練一個(gè)分類CNN,它也負(fù)責(zé)生成梯度顯著性地圖。隨著各層深度的增加,感受野也隨之增加。因此,這些地圖可以同時(shí)提取局部和全局的突出特征,從而產(chǎn)生更準(zhǔn)確的結(jié)果。我們?yōu)槿?#xff08;Pan)RSI提出了一種新穎的不等價(jià)SISR策略,其中突出性地圖被視為衡量不同區(qū)域的不同需求的指導(dǎo)。

條件生成對(duì)抗網(wǎng)絡(luò)(C-GAN)因其圖像生成能力而被用作重建網(wǎng)絡(luò)的基線。

對(duì)于生成器網(wǎng)絡(luò),我們?cè)O(shè)計(jì)了一個(gè)新的條件殘差密集塊來(lái)突出中間卷積層的顯著特征,這可以提高顯著區(qū)域的細(xì)節(jié)質(zhì)量。

對(duì)于鑒別器部分,我們提出了一種門控結(jié)構(gòu),可以直接修改網(wǎng)絡(luò)訓(xùn)練目標(biāo),自適應(yīng)地實(shí)現(xiàn)不同的重建階段。

提出了一個(gè)新的損失函數(shù),它結(jié)合了歸一化內(nèi)容損失、顯著性驅(qū)動(dòng)的感知損失和門控對(duì)抗性損失,來(lái)訓(xùn)練整個(gè)框架。歸一化內(nèi)容損失通過(guò)特征分解提高了高頻的重建質(zhì)量,顯著性驅(qū)動(dòng)的感知損失保持了突出區(qū)域的語(yǔ)義特征,而門控對(duì)抗損失由于突出了突出區(qū)域的GAN損失而更真實(shí)地呈現(xiàn)了紋理特征。

本文的研究重點(diǎn)介紹如下。

1)我們提出了一種基于不平等重建策略的RSI的新型SR方案。通過(guò)弱監(jiān)督的顯著性地圖考慮不同區(qū)域的多樣化需求,針對(duì)不同的需求設(shè)計(jì)不同的重建策略。

2)為了實(shí)現(xiàn)不等價(jià)重建,考慮用顯著性地圖來(lái)區(qū)分不同區(qū)域的不同需求和要求,進(jìn)行自適應(yīng)重建。在這方面,我們?cè)O(shè)計(jì)了一種新的弱監(jiān)督的顯著性分析方法,在該方法中,使用圖像上的注釋來(lái)獲得像素上的顯著性地圖。

3)對(duì)于SR網(wǎng)絡(luò),我們采用C-GAN作為基線模型,其中突出度圖被作為一個(gè)附加條件。為了充分利用多尺度的層次信息,我們?cè)诨贑NN的生成器模塊中引入了剩余的密集連接結(jié)構(gòu)。

4)對(duì)于前面提到的C-GAN的生成器網(wǎng)絡(luò),我們將顯著性驅(qū)動(dòng)的約束與知覺損失相結(jié)合,幫助網(wǎng)絡(luò)更好地保持ROI的語(yǔ)義特征。此外,我們開發(fā)了一種創(chuàng)新的歸一化均方誤差(N-MSE)來(lái)衡量像素級(jí)的內(nèi)容損失,并解決了基于MSE的目標(biāo)優(yōu)化中的域效應(yīng)問(wèn)題。

5)為了在ROI中產(chǎn)生更真實(shí)的結(jié)果,我們?cè)O(shè)計(jì)了一個(gè)閘門判別器。顯著性圖被用作門,以控制對(duì)輸入圖像像素的訪問(wèn)。鑒別器網(wǎng)絡(luò)優(yōu)先學(xué)習(xí)復(fù)雜區(qū)域的特征分布,以確定輸入樣本是真的還是假的。

本文的組織結(jié)構(gòu)如下。在第二節(jié),我們介紹了圖像SR的代表性模型。第三節(jié)描述了我們的不平等SR框架的實(shí)現(xiàn)。第四節(jié)介紹了實(shí)驗(yàn)結(jié)果和分析,第五節(jié)進(jìn)行了討論,第六節(jié)介紹了結(jié)論。

II. 相關(guān)研究

A. 經(jīng)典圖像SR

1) 頻域算法

圖像SR是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)經(jīng)典問(wèn)題,并且已經(jīng)開發(fā)了許多技術(shù)來(lái)解決這個(gè)問(wèn)題。最早的SR概念是由Harris[24]在60年代提出的。然而,它在當(dāng)時(shí)并沒有得到廣泛的認(rèn)可。自20世紀(jì)80年代以來(lái),特別是在Tsai和Huang[25]提出了一種基于頻域圖像序列的方法之后,SR技術(shù)取得了突破性進(jìn)展。在不考慮模糊和噪聲的影響下,Tsai認(rèn)為圖像的退化是由下采樣過(guò)程中的頻率混疊引起的。通過(guò)恢復(fù)混疊信息,圖像分辨率可以得到改善。這個(gè)想法很容易理解,但模型太簡(jiǎn)單了。Kim和Kwon[26]考慮了模糊和噪聲的影響,應(yīng)用加權(quán)遞歸最小平方法來(lái)解決頻譜重疊問(wèn)題,進(jìn)一步提高了重建質(zhì)量。繼前述研究之后,Su和Kim[27]提出了一種使用局部頻譜分析的SR方法,用于運(yùn)動(dòng)補(bǔ)償?shù)闹丿B圖像序列。

2)空間域算法

前面提到的頻域算法僅限于運(yùn)動(dòng)和退化模型,缺乏先驗(yàn)信息,并且不包括該研究領(lǐng)域的主流研究。基于空間域的方法,可以建立總體觀測(cè)模型并引入空間先驗(yàn)信息,引起了研究人員的興趣。Brown[28]提出了非均勻插值算法。他們計(jì)算了圖像和參考之間的所有運(yùn)動(dòng)段米。所有LR圖像通過(guò)運(yùn)動(dòng)參數(shù)被投影到相應(yīng)的HR網(wǎng)格上,其他缺失的點(diǎn)被插值。對(duì)于幾何運(yùn)動(dòng)引起的模糊問(wèn)題,Stark和Oskoui[29]提出了投影到凸集(POCS)的方法,將先驗(yàn)知識(shí)陸續(xù)納入修復(fù)過(guò)程。Irani和Peleg[30]提出了一種基于貪婪的SR方法,名為迭代背投(IBP)。在他們的模型中,圖像序列中的相對(duì)位移被用來(lái)迭代完善當(dāng)前的估計(jì)以實(shí)現(xiàn)SR。Schultz和Stevenson[31]將最大后驗(yàn)(MAP)引入SR領(lǐng)域。他們假設(shè)HR和LR圖像是隨機(jī)信號(hào),在已知LR序列的條件下,統(tǒng)計(jì)估計(jì)最大后驗(yàn)概率的結(jié)果是HR。受此啟發(fā),Elad和Feuer[32]提出了一種來(lái)自MAP和POCS的混合方法,提取POCS中的先驗(yàn)約束,并將其應(yīng)用于MAP的迭代優(yōu)化過(guò)程中,以實(shí)現(xiàn)上規(guī)模的重建。

3)基于實(shí)例的算法

空間域的方法主要依賴于從LR圖像中提取的先驗(yàn)知識(shí)。然而,如果縮放系數(shù)過(guò)大,有意義的信息就不足以提供高頻的細(xì)節(jié)。基于學(xué)習(xí)的SR技術(shù),可以通過(guò)豐富的樣本學(xué)習(xí)獲得高頻信息,值得稱贊地彌補(bǔ)了這個(gè)缺陷。Freeman等人[33]采用馬爾可夫隨機(jī)場(chǎng)來(lái)描述HR和LR圖像之間的關(guān)系。有了這種關(guān)系,通過(guò)尋找重建圖像塊的最佳馬爾可夫位置,就可以恢復(fù)HR圖像。受流形學(xué)習(xí)的啟發(fā),Chang等人[34]產(chǎn)生了一種局部線性嵌入方法,該方法將流形學(xué)習(xí)中的局部線性嵌入整合到圖像重建中。Huang等人[35]通過(guò)擴(kuò)展內(nèi)部補(bǔ)丁搜索空間進(jìn)一步擴(kuò)展了基于自我嵌入的SR方法。在沒有任何外部訓(xùn)練數(shù)據(jù)集的情況下,他們的模型取得了令人滿意的性能。隨著壓縮傳感理論的發(fā)展,Yang等人[36]將稀疏表示法應(yīng)用于圖像SR,并提出LR圖像可以被表示為超完整字典中基本元素的稀疏表示,該字典與大量相應(yīng)的LR和HR圖像塊共同訓(xùn)練。Zeyde等人[37]在Yang的工作基礎(chǔ)上做了一些改進(jìn)。在字典訓(xùn)練中,用K-SVD(K-singular value decomposition)算法來(lái)代替特征符號(hào)搜索(FSS)算法,這不僅加快了訓(xùn)練速度,而且提高了重建性能。Timofte等人[38]將局部嵌入和稀疏表示相結(jié)合,提出了調(diào)整后的錨定鄰居回歸(A+),預(yù)先計(jì)算了映射關(guān)系矩陣,迅速加快了運(yùn)行速度。

B. 基于深度學(xué)習(xí)的SR

1)架構(gòu)。

CNN已經(jīng)表現(xiàn)出極大的普及性,已經(jīng)成功應(yīng)用于各個(gè)領(lǐng)域,如圖像分類[39]-[41]、目標(biāo)檢測(cè)[42]、[43]和圖像去噪[44]、[45]。研究人員為將這一強(qiáng)大的手段應(yīng)用于SISR做出了大量努力[4]-[10]。

Cui等人[46]提出在他們的SISR框架中嵌入?yún)f(xié)作的局部自動(dòng)編碼器,逐層將超解的LR圖像逐步轉(zhuǎn)化為HR圖像。所提出的網(wǎng)絡(luò)沒有被設(shè)計(jì)成一個(gè)端到端的模型,因?yàn)榧?jí)聯(lián)模型的每一層都需要獨(dú)立的優(yōu)化,這需要更多的計(jì)算資源。

相反,Dong等人[4]直接學(xué)習(xí)了一個(gè)用于彩色圖像的端到端超分辨率(CNN)(SRCNN)。他們通過(guò)一個(gè)三層深度全卷積網(wǎng)絡(luò)[47]對(duì)輸入圖像進(jìn)行上采樣,該網(wǎng)絡(luò)包含補(bǔ)丁提取、非線性表示和重建部分。

Kim等人[5]發(fā)現(xiàn),增加深度可以顯著提高性能,但訓(xùn)練收斂得太慢。他們提出了一個(gè)非常深的網(wǎng)絡(luò),通過(guò)殘差學(xué)習(xí)預(yù)測(cè)圖像細(xì)節(jié)[48]。在輸入層和輸出層之間的跳轉(zhuǎn)連接的幫助下,網(wǎng)絡(luò)的深度可以增加到20層。此外,峰值信噪比(PSNR)和視覺效果都有明顯改善。隨著網(wǎng)絡(luò)深度和參數(shù)數(shù)量的增加,需要大量的數(shù)據(jù)來(lái)防止過(guò)擬合。

Kim等人[6]試圖設(shè)計(jì)一個(gè)深度遞歸卷積網(wǎng)絡(luò)(DRCN)來(lái)解決這個(gè)問(wèn)題,并在不增加模型容量的情況下遞歸地拓寬了感受野。遞歸層[49]的反復(fù)應(yīng)用增加了層的深度,而沒有增加參數(shù)的數(shù)量。在以前的研究中,LR圖像被放大為HR圖像,該圖像在重建網(wǎng)絡(luò)之前通常采用雙三次插值。在預(yù)處理過(guò)程中提高分辨率會(huì)增加計(jì)算的復(fù)雜性。二次方插值沒有提供任何額外的有用信息來(lái)解決不理想的重建問(wèn)題。

Shi等人[7]提議通過(guò)采用高效的子像素卷積層,只在網(wǎng)絡(luò)的末端提高圖像分辨率。由于子像素卷積層降低了計(jì)算的復(fù)雜性,因此所提出的框架滿足了1080p視頻的實(shí)時(shí)SR。

2) 損失函數(shù)。

像素?fù)p失函數(shù),如MSE,已經(jīng)在以前的研究中被廣泛使用[4]-[7]。這個(gè)函數(shù)測(cè)量生成的HR圖像和目標(biāo)HR圖像之間的差異。然而,恢復(fù)高頻的細(xì)節(jié),如紋理,是很困難的。因此,重建的圖像通常過(guò)于光滑,感知質(zhì)量差[8],[50]。

研究人員已經(jīng)設(shè)計(jì)了新的損失函數(shù)[8]來(lái)測(cè)量高層次的語(yǔ)義特征。由于AlexNet[39]和VGGNet[40]在ImageNet挑戰(zhàn)賽中表現(xiàn)出卓越的性能,Johnson等人[8]和Dosovitskiy和Brox[50]引入了這些模型來(lái)提取高層特征。

Johnson等人[8]根據(jù)從VGG19[40]網(wǎng)絡(luò)中提取的高層特征設(shè)計(jì)了新的感知損失函數(shù)。這些損失函數(shù)比像素?fù)p失函數(shù)更穩(wěn)健地測(cè)量圖像的相似性。

Dosovitskiy和Brox[50]設(shè)計(jì)了一個(gè)由AlexNet[39]提取的語(yǔ)義特征之間的新距離。新的損失函數(shù)在感覺上更好地探索了圖像之間的相似性,并產(chǎn)生了更令人愉快的重建結(jié)果。

Bruna等人[9]建議使用吉布斯分布,其中足夠的統(tǒng)計(jì)數(shù)據(jù)是由深度CNN給出的。作者假設(shè)網(wǎng)絡(luò)計(jì)算出的特征對(duì)局部變形是穩(wěn)定的。

傳統(tǒng)上,SR方法的有效性是由PSNR來(lái)衡量的,而PSNR與人類的感知相關(guān)性很差。具有高PSNR的重建圖像往往看起來(lái)并不真實(shí)[10]。生成對(duì)抗網(wǎng)絡(luò)[51]是一種流行的技術(shù),在豐富的圖像生成任務(wù)中有助于產(chǎn)生真實(shí)的結(jié)果。

最近,少數(shù)基于GAN的SR框架被設(shè)計(jì)出來(lái),以獲得具有更好視覺效果的圖像[10],[52]。Ledig等人[10]提出了一個(gè)新的SR生成對(duì)抗網(wǎng)絡(luò)(SRGAN),以從嚴(yán)重降采樣的圖像中恢復(fù)逼真的紋理。他們采用了一個(gè)帶有跳過(guò)連接的深度殘差網(wǎng)絡(luò)(ResNet)[48]。損失函數(shù)由感知損失和對(duì)抗損失組成,前者評(píng)估與感知相關(guān)特征的解決方案,后者鼓勵(lì)生成在感知上難以與HR參考圖像區(qū)分的HR圖像。

Sajjadi等人[52]提出了一個(gè)紋理合成網(wǎng)絡(luò),它結(jié)合了對(duì)抗性學(xué)習(xí)和知覺損失,以產(chǎn)生一個(gè)具有大比例系數(shù)的現(xiàn)實(shí)紋理特征。他們利用VGG19[40]來(lái)捕捉低級(jí)和高級(jí)特征。紋理匹配損失被設(shè)計(jì)為產(chǎn)生具有與目標(biāo)HR圖像中紋理相同的局部紋理的生成圖像。VGG19在高縮放系數(shù)下實(shí)現(xiàn)了定量和定性評(píng)估的顯著提升。

C. RSI的SR技術(shù)

在遙感領(lǐng)域,大多數(shù)SR技術(shù)依賴于傳統(tǒng)的插值和壓縮感應(yīng)理論來(lái)提升LR圖像的尺度。Yuan等人[53]開發(fā)了一個(gè)區(qū)域空間自適應(yīng)總變化(RSATV)模型,其中應(yīng)用了兩個(gè)濾波程序來(lái)抑制總變化正則化的偽邊效應(yīng)。在[54]中,提出了一種基于可變像素線性重建(VPLR)算法的SR方法。該算法根據(jù)每個(gè)像素的統(tǒng)計(jì)意義對(duì)輸入的LR RSI進(jìn)行加權(quán),并消除了幾何畸變對(duì)圖像形狀和光度的影響。

Li等人[55]設(shè)計(jì)了一種新的SR方法,該方法是基于RSI的通用隱馬爾可夫樹(HMT)模型。由于圖像的小波系數(shù)具有混合高斯分布,HMT模型可以獲得多尺度小波系數(shù)之間的關(guān)聯(lián)性。

對(duì)于高光譜RSI,Gu等人[56]和Mianji等人[57]將空間-光譜信息與基于學(xué)習(xí)的SR映射算法相結(jié)合,以提高HR圖像的質(zhì)量。在Li等人的文章[58]中,作者將IBP方法作為基線。作者對(duì)其進(jìn)行了修改,以有效地處理圖像內(nèi)的局部仿生變換,用于SR。

Yuan等人[59]提出了一個(gè)基于RSI的RSATV模型,該模型改進(jìn)了偽邊。通過(guò)對(duì)空間紋理和分類信息的兩個(gè)過(guò)濾過(guò)程,偽邊得到了抑制。該模型將總變異正則化從基于像素的轉(zhuǎn)變?yōu)榛趨^(qū)域的。

Huang等人[60]提出了一種通過(guò)字典學(xué)習(xí)和空間-光譜正則化的新型SR方法,用于高光譜RSI。受壓縮傳感(CS)框架的啟發(fā),作者對(duì)圖像斑塊進(jìn)行了更強(qiáng)的稀疏性,并促進(jìn)所學(xué)字典和傳感矩陣之間更小的一致性。

隨著深度學(xué)習(xí)的發(fā)展,一些基于CNN的SR重建方法已經(jīng)被開發(fā)出來(lái)。Lei等人[61]提出了一種用于RSI的局部-全球組合網(wǎng)絡(luò)(LGCNet)。提出的結(jié)構(gòu)旨在學(xué)習(xí)包括局部細(xì)節(jié)和全局環(huán)境先驗(yàn)的多層次表征。Yuan等人[62]提出了一種方法,學(xué)習(xí)在自然圖像上訓(xùn)練的LR和HR圖像之間的映射,并通過(guò)轉(zhuǎn)移學(xué)習(xí)對(duì)高光譜圖像的映射進(jìn)行微調(diào)。

III. 方法

RSI的特點(diǎn)是紋理豐富,自我相似度高,適合用深度CNN處理。失真是指生成的HR圖像與參考圖像之間的不相似性,而感知質(zhì)量則衡量生成的HR圖像的視覺質(zhì)量。基于失真和感知的定義,現(xiàn)有的基于深度CNN的SISR方法一般可分為兩類:像素?fù)p失最小化和特征損失最小化。前者可以重建失真度低但細(xì)節(jié)模糊的圖像,而后者可以產(chǎn)生具有更高感知質(zhì)量的圖像。以前的研究已經(jīng)驗(yàn)證了RSI中的不同物體需要不同程度的空間分辨率和光譜分辨率[63]。例如,住宅區(qū)和機(jī)場(chǎng)等區(qū)域有豐富的紋理和明顯的邊界,需要更詳細(xì)的修復(fù),而包括河流、草原和山脈在內(nèi)的區(qū)域一般看起來(lái)很光滑,需要低的重建失真。

我們?cè)O(shè)計(jì)了一個(gè)依賴于深度學(xué)習(xí)的端到端不等價(jià)RSI SR模型,其中我們采用了突出性驅(qū)動(dòng)的訓(xùn)練目標(biāo),旨在滿足不同的需求,并提高全局重建質(zhì)量。如圖1所示,我們方案的整體架構(gòu)由兩部分組成:弱監(jiān)督的鹽度分析和鹽度驅(qū)動(dòng)的SR網(wǎng)絡(luò)。

1)弱監(jiān)督的顯著性分析是為了生成一個(gè)顯著性圖,它在隨后的不等式SR模塊中具有關(guān)鍵作用。所提出的方法可以計(jì)算帶有圖像注釋的按像素劃分的鹽度圖,這提高了準(zhǔn)確性,同時(shí)降低了訓(xùn)練成本。

2)提出了一個(gè)突出性驅(qū)動(dòng)的SR網(wǎng)絡(luò),在弱監(jiān)督突出性地圖的指導(dǎo)下自適應(yīng)地平衡失真和感知之間的權(quán)衡。我們?cè)O(shè)計(jì)了一個(gè)新的損失函數(shù),由歸一化內(nèi)容損失、顯著性驅(qū)動(dòng)的感知損失和門控對(duì)抗損失組成,以衡量生成的HR圖像和參考圖像的相似度。此外,我們還應(yīng)用了剩余密集連接塊結(jié)構(gòu)和門控判別器來(lái)增強(qiáng)所提出的模型的能力。

我們?cè)诘谌?jié)A和第三節(jié)B中進(jìn)行了詳細(xì)的介紹。整個(gè)框架依靠視覺顯著性的指導(dǎo),在全色RSI的SR過(guò)程中同時(shí)實(shí)現(xiàn)復(fù)雜區(qū)域的精細(xì)視覺感知和平滑區(qū)域的低質(zhì)量失真。

A. 多尺度梯度顯著分析

視覺梯度是指對(duì)場(chǎng)景中的刺激物立即作出反應(yīng)的高對(duì)比度部分。通過(guò)模仿人類視覺系統(tǒng)中的注意機(jī)制,顯著性模型有效地實(shí)現(xiàn)了基于低水平特征的對(duì)比度計(jì)算,以快速檢測(cè)和識(shí)別有意義的目標(biāo)。顯著性分析方法通常是為基于手工特征的RSI開發(fā)的,這限制了其通用能力。盡管基于CNN的顯著性分析方法可以極大地提高泛化能力和效率,但其出色的性能與大量的注釋數(shù)據(jù)是分不開的。因此,這些方法的一個(gè)共同瓶頸是它們是以完全監(jiān)督的方式運(yùn)行的,也就是說(shuō),它們?cè)谟?xùn)練階段通常需要大量的像素注釋。

在這篇文章中,我們?cè)O(shè)計(jì)了一個(gè)基于CNN的弱監(jiān)督的顯著性分析方法,以實(shí)現(xiàn)帶有圖像注釋的顯著性分析。圖像上的標(biāo)記被用來(lái)訓(xùn)練一個(gè)分類CNN,它也負(fù)責(zé)以弱監(jiān)督的方式生成梯度分層顯著性地圖(GHSMs)。隨著層的深度增加,感受野也會(huì)增加。因此,GHSMs可以捕獲局部和全局的突出特征。特定類別的GHSMs的殘差圖被生成以自動(dòng)提取ROI。

考慮到RSI的紋理特征在不同地區(qū)有很大不同,我們根據(jù)不同地區(qū)紋理的復(fù)雜性來(lái)區(qū)分突出的區(qū)域。住宅區(qū)包含相當(dāng)詳細(xì)的信息,涉及各種豐富的紋理特征,而農(nóng)場(chǎng)和池塘等區(qū)域則顯示出更平滑的視覺特征。因此,在突出性分析程序中,住宅區(qū)被確定為突出區(qū)域,而光滑區(qū)域被確定為非突出區(qū)域。換句話說(shuō),在我們的分類網(wǎng)絡(luò)中,住宅區(qū)被確定為ROI。我們訓(xùn)練一個(gè)深度CNN來(lái)區(qū)分輸入圖像是否包含ROI。

這項(xiàng)任務(wù)對(duì)深度CNN來(lái)說(shuō)并不困難,因?yàn)檫@兩類圖像的視覺差異很大。我們采用沒有全連接層的VGG19網(wǎng)絡(luò)作為特征提取器,因?yàn)樗贗mageNet挑戰(zhàn)中表現(xiàn)出色。我們?yōu)镃NN模型添加了一個(gè)256-D全連接層,以增加這些網(wǎng)絡(luò)的非線性。最后一層有兩個(gè)具有softmax激活函數(shù)的神經(jīng)元來(lái)完成二進(jìn)制分類。為了確保輸入圖像的大小與VGG19網(wǎng)絡(luò)的大小相等,我們?cè)趯⑤斎氲娜玆SI輸入到深度CNN之前,將單通道圖像擴(kuò)展為三通道圖像。訓(xùn)練有素的CNN框架可以被視為一個(gè)決策函數(shù),該函數(shù)的輸入是大小為m×n的全色RSI。我們用交叉熵?fù)p失函數(shù)訓(xùn)練分類CNN。訓(xùn)練好的CNN結(jié)構(gòu)表示為

其中x∈m×n代表輸入的全色RSI m×n,W代表約束權(quán)重和偏差。對(duì)于訓(xùn)練有素的CNN,f1(x, W)和f2(x, W)分別表示輸入圖像包括ROI的概率能力和輸入圖像不包括ROI(背景區(qū)域)的概率能力,滿足

對(duì)于訓(xùn)練有素的CNN結(jié)構(gòu),最后一層的輸出反映了輸入圖像屬于相應(yīng)類別的概率,也就是 “類分”。
f1(x,W)和f2(x,W)分別表示ROI和背景區(qū)域的類分。

一個(gè)重要的屬性是,相對(duì)于輸入圖像,類分的梯度表明哪些像素需要最少的改變來(lái)對(duì)類分影響最大。梯度圖中的突出像素很可能是相應(yīng)類別中的物體。Simonyan等人[64]提出,相對(duì)于輸入圖像的類分的導(dǎo)數(shù)可以以弱監(jiān)督的方式定位自然場(chǎng)景中的物體。由于RSI的紋理和邊界特征比自然場(chǎng)景的更復(fù)雜,導(dǎo)數(shù)對(duì)像素值的劇烈變化很敏感,這可能會(huì)對(duì)RSI產(chǎn)生不良結(jié)果。因此,計(jì)算類分相對(duì)于輸入圖像的導(dǎo)數(shù)并不適合RSI。

隨著卷積層數(shù)量的增加,各層的感受野也在增加。例如,低卷積層的特征圖反映了低層次的特征,如角落、邊緣和顏色,而高卷積層包含抽象的高層次語(yǔ)義特征。因此,我們提出了一個(gè)新的想法,即從中間卷積層產(chǎn)生的類分的導(dǎo)數(shù)圖可以揭示出相應(yīng)接收域的最突出的區(qū)域。導(dǎo)數(shù)(或梯度)圖顯示哪個(gè)接收域能以最小的變化影響決策函數(shù)。由于CNN中的幾個(gè)最大集合層,它們還包含多尺度信息,這對(duì)突出區(qū)域的提取是有利的。

給定第j個(gè)卷積層中的n j個(gè)特征圖,卷積層的第i個(gè)特征圖被表示為x ji,i = 1, 2,—, n j。輸入圖像的第i個(gè)通道被看作是x1i。第j個(gè)卷積層中cc類的導(dǎo)數(shù)顯著性圖被表示為Mcj。Mcj可以按以下方式計(jì)算。

我們通過(guò)平均化操作來(lái)融合不同概念層的導(dǎo)數(shù)顯著性圖,以整合多尺度的顯著性區(qū)域

考慮到負(fù)的訓(xùn)練樣本不包含任何ROI,融合的背景類別的突出性地圖只能突出背景區(qū)域。因此,融合后的導(dǎo)數(shù)鹽度圖可以協(xié)助抑制背景區(qū)域。因此,我們通過(guò)計(jì)算S1和S2之間的減法來(lái)生成多尺度殘余顯著性地圖

其中ReLU(-)是用于將零分配給負(fù)值的整流線性單位。圖2顯示了多尺度梯度顯著性分析網(wǎng)絡(luò)的結(jié)果。

圖2. 由多尺度梯度鹽度分析網(wǎng)絡(luò)生成的顯著圖。(a) 原始全色RSI。(b) 前景派生圖。? 背景派生圖。(d) 最終的多尺度殘留顯著圖。

B. 顯著性驅(qū)動(dòng)的門條件生成對(duì)抗網(wǎng)絡(luò)

1)對(duì)抗學(xué)習(xí)。

盡管深度學(xué)習(xí)在人力資源圖像生成領(lǐng)域取得了突破性進(jìn)展,但它也有一些不足之處。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)通常假設(shè)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)具有相同的分布,或者訓(xùn)練數(shù)據(jù)上的預(yù)測(cè)結(jié)果與測(cè)試數(shù)據(jù)上的預(yù)測(cè)結(jié)果受相同的分布。有些偏差是存在的。例如,預(yù)測(cè)數(shù)據(jù)的性能通常低于訓(xùn)練數(shù)據(jù)的性能,這就是過(guò)擬合的問(wèn)題。深度學(xué)習(xí)模型,如CNN,有時(shí)不能研究訓(xùn)練數(shù)據(jù)的特征。與巨大的真實(shí)數(shù)據(jù)相比,這些模型的參數(shù)數(shù)量大大少于數(shù)據(jù)的數(shù)量。因此,在訓(xùn)練過(guò)程中,生成模型會(huì)找到數(shù)據(jù)背后更簡(jiǎn)單的統(tǒng)計(jì)規(guī)則來(lái)生成數(shù)據(jù)。

對(duì)抗學(xué)習(xí)是解決前面提到的問(wèn)題的一個(gè)合適方法。在研究中,Goodfellow等人[51]將這一概念引入深度學(xué)習(xí)領(lǐng)域,并提出了一種名為生成式對(duì)抗網(wǎng)絡(luò)的新型網(wǎng)絡(luò)模型,它由一對(duì)對(duì)抗網(wǎng)絡(luò)(生成器網(wǎng)絡(luò)G和判別器網(wǎng)絡(luò)D)組成。G試圖學(xué)習(xí)樣本的概率分布,然后試圖產(chǎn)生能夠混淆D的判斷的真實(shí)數(shù)據(jù)。G和D被看作是一個(gè)最小-最大游戲的兩個(gè)對(duì)手參與者,試圖解決(6)所示的優(yōu)化問(wèn)題。隨著游戲的進(jìn)行,兩個(gè)參與者相互競(jìng)爭(zhēng),他們的能力不斷提高。當(dāng)鑒別器D被認(rèn)為是足夠的,無(wú)法正確區(qū)分?jǐn)?shù)據(jù)的來(lái)源時(shí),發(fā)生器G已經(jīng)掌握了


由于GAN能夠令人稱道地學(xué)習(xí)數(shù)據(jù)的分布,它已經(jīng)被廣泛地應(yīng)用于圖像或聲音的應(yīng)用。Yann LeCun曾將GAN評(píng)為過(guò)去20年機(jī)器學(xué)習(xí)領(lǐng)域中最具創(chuàng)新性的想法。順著這個(gè)趨勢(shì),Ledig等人[10]提出了SRGAN,在SR過(guò)程中生成逼真的圖像。在傳統(tǒng)的方法中,如SRCNN[4]、ESPN[7]和VDSR[5],一般目標(biāo)是最小化MSE,并幫助重建結(jié)果達(dá)到高信噪比(SNR)。然而,這些方法產(chǎn)生的結(jié)果通常缺乏高頻信息,并具有過(guò)度光滑的紋理。相反,SRGAN認(rèn)為重建的HR圖像應(yīng)該盡可能地與真實(shí)的HR圖像相似,無(wú)論是低層次的像素值還是高層次的抽象特征。他們應(yīng)用一個(gè)判別器來(lái)確定HR圖像是生成的圖像還是原始圖像。因此,不能被鑒別器區(qū)分的圖像被認(rèn)為是最真實(shí)的圖像。

2)網(wǎng)絡(luò)結(jié)構(gòu)。

盡管SRGAN可以產(chǎn)生逼真的結(jié)果,但這種方法也有一些不足之處。由于生成器和鑒別器之間的對(duì)抗性學(xué)習(xí)是一種最小-最大的博弈,確保整個(gè)模型的收斂能力是具有挑戰(zhàn)性的。根據(jù)我們的觀察,SRGAN可以獲得明顯的結(jié)果,因?yàn)樗傻膱D像中存在互補(bǔ)的紋理。盡管這一措施提高了視覺感知性能,但它也使圖片變得 “臟”,從而損害了關(guān)于光滑區(qū)域的信息。為了彌補(bǔ)這些不足,我們提出了一種新型的SR網(wǎng)絡(luò),名為SD-GCAN。

如圖5所示,SD-GCAN由三部分組成:生成器網(wǎng)絡(luò)G、判別器網(wǎng)絡(luò)D和特征提取網(wǎng)絡(luò)F。在訓(xùn)練階段,網(wǎng)絡(luò)G生成對(duì)應(yīng)于LR縣的HR圖像。由于生成器是一個(gè)完全卷積的網(wǎng)絡(luò),它對(duì)輸入圖像的大小沒有限制。在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)D和F可以產(chǎn)生對(duì)抗性和感知性損失,這些損失被添加到發(fā)生器網(wǎng)絡(luò)的損失函數(shù)中。

考慮到視覺顯著性圖被送入網(wǎng)絡(luò)以實(shí)現(xiàn)不平等的重建,我們進(jìn)一步采用了條件-GAN結(jié)構(gòu)[65]作為我們SD-GCAN的基線。生成器模型G是一個(gè)全卷積網(wǎng)絡(luò)。對(duì)于具有放大系數(shù)r的SR,我們使用像素洗牌層[7]來(lái)對(duì)圖像進(jìn)行放大,而不是應(yīng)用插值技術(shù)。沒有擴(kuò)大尺寸的預(yù)處理,我們可以在相同的計(jì)算成本下應(yīng)用一個(gè)非常深的網(wǎng)絡(luò)。

生成器網(wǎng)絡(luò)是由八個(gè)條件殘差密集塊組成的。如圖4所示,每個(gè)塊包括兩個(gè)3×3卷積層,其中第一個(gè)卷積層之后是ReLU激活函數(shù)。為了利用各種分辨率的優(yōu)先權(quán),我們?cè)O(shè)計(jì)了一個(gè)小的條件模塊來(lái)產(chǎn)生多尺度的條件,可以輸入到所有的塊中。盡管有從頭到尾的跳過(guò)連接,我們也在塊內(nèi)啟用其他直接連接。這種技術(shù)不僅保留了前饋性質(zhì),而且還融合了不同分辨率的局部密集特征。生成器的最后一層使用tanh函數(shù)來(lái)限制輸出值在[-1, 1]的范圍內(nèi)。

鑒別器D,與VGG網(wǎng)絡(luò)[40]有相似的模型,可以提取多尺度圖像特征,并將生成的圖像與原始樣本區(qū)分開。鑒別器有8個(gè)3×3的卷積層,由leaky-ReLU函數(shù)激活,其中卷積濾波器的數(shù)量每?jī)刹綇?4個(gè)逐漸增加到512個(gè)。受[7]的啟發(fā),在濾波器數(shù)量增加的同時(shí),采用分層卷積來(lái)替代池化層,這使得網(wǎng)絡(luò)能夠?qū)W習(xí)其空間降采樣。獲得的特征圖被平坦化并轉(zhuǎn)移到兩層密集層,以提供最終評(píng)估。為了加強(qiáng)細(xì)節(jié)信息恢復(fù)的效果,我們提出了一種新穎的門控技術(shù),可以自適應(yīng)地增強(qiáng)突出區(qū)域的重要性來(lái)評(píng)估判別器網(wǎng)絡(luò)。門控模塊不僅可以降低鑒別器的任務(wù)復(fù)雜性,還可以完成我們的不等價(jià)重構(gòu)思想。在生成器和鑒別器網(wǎng)絡(luò)中,批量歸一化層被添加到卷積層之后,以防止協(xié)變量轉(zhuǎn)移。

特征提取網(wǎng)F的框架主要繼承自VGG19。我們保留了在ImageNet[39]上預(yù)訓(xùn)練的卷積層的所有參數(shù),并采用遙感數(shù)據(jù)的遷移學(xué)習(xí)來(lái)進(jìn)一步提高分類性能。請(qǐng)注意,只有該網(wǎng)絡(luò)的卷積層被用來(lái)計(jì)算生成器模型的特征損失,或感知損失[8]。

在回歸過(guò)程中不被考慮,這就造成了分量的支配效應(yīng)。我們可以通過(guò)正態(tài)特征向量對(duì)差異圖進(jìn)行分解,具體如下。

wi方向上的誤差可以計(jì)算如下。

由于在優(yōu)化過(guò)程中忽略了數(shù)值小的分量,wT i Ie的l2-norm沒有有效地被最小化。因此,重建的圖像在wi的方向上失去了一些小的細(xì)節(jié)。

為了解決這個(gè)問(wèn)題,我們?cè)O(shè)計(jì)了一個(gè)N-MSE損失函數(shù)來(lái)減少分量效應(yīng)域的影響。我們定義一個(gè)歸一化的損失函數(shù)如下。

由于平方根運(yùn)算是一個(gè)凹函數(shù),所以特征值之間的差距縮小了(如圖6所示)。在訓(xùn)練過(guò)程中,特征值的平方根可以模擬地減少。N-MSE損失函數(shù)的雙倍值是MSE損失函數(shù)平方根的上界

在訓(xùn)練過(guò)程中,Lnorm的優(yōu)化可以限制MSE的損失。歸一化的損失函數(shù)可以克服分量域效應(yīng)的不足,高頻細(xì)節(jié)可以得到重構(gòu),這就保證了輸出的圖像更加清晰,感知上更加真實(shí)。

2) Saliency-Weighted Perceptual Loss:

在圖像生成器網(wǎng)絡(luò)中,Johnson等人[8]提出了感知損失,以確保構(gòu)建的圖像在感知上與目標(biāo)圖像相似。與使用MSE損失來(lái)匹配像素值不同的是,感知損失利用特征提取模型F來(lái)衡量生成結(jié)果和HR圖像之間的特征級(jí)差異。因此,我們?cè)O(shè)計(jì)了一個(gè)突出性加權(quán)的感知損失函數(shù),如圖7所示。

讓fi,j(x)為網(wǎng)絡(luò)F中第i個(gè)集合層之前的第j個(gè)卷積層在處理圖像x時(shí)的激活情況。經(jīng)典的感知損失被定義為重建圖像G(ILR)和相應(yīng)的HR圖像IHR的特征圖之間的歐氏距離

其中Wi,j和Hi,j代表從fi,j獲得的各自特征表示的形狀。為了縮小具有復(fù)雜紋理的區(qū)域的語(yǔ)義差異,我們將突出度值視為感知損失函數(shù)的加權(quán)系數(shù),具體如下。


其中SS是由IHR的顯著性分析網(wǎng)絡(luò)(在第三節(jié)A)生成的顯著性圖,其值受[0, 1]的限制。由于卷積操作不改變圖像的空間排列,這個(gè)優(yōu)化目標(biāo)使網(wǎng)絡(luò)能夠優(yōu)先考慮最小化突出區(qū)域的差異。在我們的建議中,我們選擇f5,4來(lái)構(gòu)成損失函數(shù),因?yàn)樗鼈兇砀邔哟蔚恼Z(yǔ)義特征。同時(shí),我們調(diào)整了顯著性地圖的大小以適應(yīng)這些特征地圖的尺寸。

3)對(duì)抗性損失:

歸一化內(nèi)容損失測(cè)量生成的HR圖像和參考圖像之間的像素失真,而感知損失測(cè)量它們之間的語(yǔ)義質(zhì)量。在本節(jié)中,我們?cè)黾恿艘粋€(gè)對(duì)抗性損失,以進(jìn)一步提高生成圖像的真實(shí)性。由于投資回報(bào)率對(duì)邊界和邊緣的重建質(zhì)量要求較高,我們?cè)O(shè)計(jì)了一種新的門控技術(shù),在判別器部分以顯著性地圖為指導(dǎo)。

顯著性地圖被視為門,在將其輸入判別器之前衡量每個(gè)像素的重要性,其中圖像I與顯著性地圖S的門控算子被計(jì)算為gate(I) = I - S。 (17) 在對(duì)抗性學(xué)習(xí)中,門控生成的HR圖像被輸入判別器以確定其是否屬于真實(shí)的HR圖像。鑒別器的輸出被表示為D(-),生成器和鑒別器的對(duì)抗性損失的公式被證明如下。Ladv = - log(EILR~PLR(I)D(gate(G(ILR)) ) (18) L D = log(EIHR~PLR(I)gate(G(ILR))) - log(EIHR~PHR(I)D(gate(IHR)))。(19) 因此,鑒別器關(guān)注的是生成圖像中ROI的質(zhì)量。IV. 試驗(yàn)結(jié)果 A. 數(shù)據(jù)集 為了驗(yàn)證我們模型的優(yōu)越性,我們選擇GeoEye-1衛(wèi)星全色RSI進(jìn)行訓(xùn)練和測(cè)試。GeoEye-1的數(shù)據(jù)具有全色成分,分辨率為0.41米。在實(shí)驗(yàn)中,所有方法都是在全色圖像上進(jìn)行的。對(duì)于我們提出的模型,我們采用200張圖像進(jìn)行訓(xùn)練,15張圖像進(jìn)行評(píng)估。訓(xùn)練圖像與測(cè)試圖像是不同的。在訓(xùn)練過(guò)程中,所有的圖像都以一定的比例系數(shù)被降頻為L(zhǎng)R圖像,而原始圖像則被視為HR參考。



B. 訓(xùn)練細(xì)節(jié)和參數(shù)

我們?cè)贜VIDIA Titan Xp GPU上訓(xùn)練我們的網(wǎng)絡(luò)。所有測(cè)試圖像的大小為510×510。對(duì)于多尺度梯度顯著性分析,在GeoEye-1數(shù)據(jù)集中有2000張尺寸為170×170的全色圖像。前景與背景樣本的比例為1:1。該模型使用隨機(jī)梯度下降法進(jìn)行訓(xùn)練,批次大小為10個(gè)例子,動(dòng)量為0.9,重量衰減為0.0005。

對(duì)于SD-GCAN,我們首先生成尺寸為170×170的顯著性地圖,然后通過(guò)比例系數(shù)為3的二元插值調(diào)整其大小(轉(zhuǎn)為510×510)。我們?cè)谠加?xùn)練圖像的相同位置隨機(jī)裁剪9個(gè)384×384的子圖像和相應(yīng)的鹽度圖。輸入的LR圖像和顯著性地圖是通過(guò)使用比例因子r=3的雙三次插值進(jìn)行下采樣得到的。我們建議的圖像生成器由于其完全卷積結(jié)構(gòu),可以接受任意大小的圖像。輸入和目標(biāo)圖像的像素值被縮放到[-1, 1]的范圍內(nèi)。由預(yù)訓(xùn)練的VGG19網(wǎng)絡(luò)生成的顯著性地圖的范圍是[0, 1],它們被視為概率分布。我們應(yīng)用Adam[66]的優(yōu)化器,β1=0.9來(lái)訓(xùn)練網(wǎng)絡(luò)。對(duì)于SD-GCAN,生成器損失函數(shù)中的歸一化內(nèi)容損失、顯著性驅(qū)動(dòng)的感知損失和對(duì)抗性損失的權(quán)重系數(shù)被設(shè)定為1、10-2和10-3,以平衡不同損失的數(shù)值。考慮到其優(yōu)化目標(biāo)的復(fù)雜性,在提出的框架中,我們用20 000次迭代來(lái)訓(xùn)練GAN,初始學(xué)習(xí)率為10-3。在訓(xùn)練的一半時(shí)間里,我們將學(xué)習(xí)率降低到10-4,以避免出現(xiàn)局部最優(yōu)。我們實(shí)現(xiàn)了基于TensorFlow框架的代碼開發(fā)[67]。

C. 比較方法和評(píng)估指標(biāo)

為了評(píng)估我們技術(shù)的定量有效性,我們選擇PSNR和結(jié)構(gòu)相似性指數(shù)指標(biāo)(SSIM)來(lái)衡量所有方法的重建質(zhì)量。由于我們的顯著性驅(qū)動(dòng)模型是在獲得更清晰的ROI結(jié)果之前,我們提出了一個(gè)新的評(píng)估指標(biāo),即局部SSIM,以評(píng)估那里的表現(xiàn)。

SSIM是一個(gè)感知質(zhì)量指標(biāo),它比PSNR更符合人類的圖像質(zhì)量感知。從圖像組成的角度來(lái)看,SSIM將結(jié)構(gòu)信息定義為獨(dú)立于亮度和對(duì)比度的屬性,反映了場(chǎng)景中物體的結(jié)構(gòu)。SSIM將失真建模為三個(gè)不同因素的組合:亮度、對(duì)比度和結(jié)構(gòu)。

SSIM地圖M被確定,帶有突出性地圖S的局部SSIM由以下公式得到。

D. 與先進(jìn)方法的比較

1) 目標(biāo)比較。

我們?cè)贕eoEye-1數(shù)據(jù)集上將我們提出的SD-CGAN與雙三次插值、Yang等人[36]、A+[38]、SelfEx[35]以及基于CNN的方法,包括SRCNN[4]、VDSR[5]、ESPN[7]和SRGAN[10]的性能進(jìn)行比較。我們?cè)趫D8和圖9中展示了這些方法的視覺表現(xiàn),并在表I和表II中總結(jié)了定量比較。PSNR是圖像SR重建領(lǐng)域中最常見的指標(biāo)。

PSNR測(cè)量生成的圖像逐個(gè)像素的質(zhì)量,與MSE類似。如表一所示,盡管所提出的方法的PSNR不是最好的,但它在所有方法中處于第四級(jí)。由于我們建議的損失函數(shù)還包含對(duì)抗性損失和感知性損失,這些損失與PSNR沒有直接關(guān)系,因此優(yōu)化過(guò)程超過(guò)了獲得高PSNR的目標(biāo)。相反,排名第一的技術(shù),VDSR,利用深度CNN來(lái)最小化HR圖像和參考圖像之間的MSE損失。由于像素級(jí)的MSE損失完全對(duì)應(yīng)于PSNR,VDSR方法在這個(gè)指標(biāo)上表現(xiàn)良好。相對(duì)而言,關(guān)于表二中的SSIM指標(biāo),我們驚訝地發(fā)現(xiàn),除了VDSR之外,我們的方案優(yōu)于大多數(shù)方法。此外,我們?cè)谕怀龅膮^(qū)域取得了最好的性能,這充分驗(yàn)證了我們的突出性驅(qū)動(dòng)策略的有效性。

2) 數(shù)量比較。

我們展示了不同方法的結(jié)果,包括GeoEye-1數(shù)據(jù)集的最先進(jìn)結(jié)果(見圖8和9)。如標(biāo)示的區(qū)域(紅色矩形和藍(lán)色矩形)所示,該模型能夠充分重建微小的細(xì)節(jié),如住宅區(qū)和道路。使用SD-GCAN的新?lián)p失函數(shù),我們模型的結(jié)果可以保持原始圖像的語(yǔ)義特征,而其他模型不能提供令人滿意的結(jié)果。例如,生成的HR圖像具有更好的道路連通性,這是其他方法無(wú)法實(shí)現(xiàn)的。在生成的圖像中,建筑物之間的分離非常明顯,而其他方法的結(jié)果是模糊的。

3)主觀評(píng)價(jià)。

在這一部分,我們提出了一個(gè)主觀測(cè)試系統(tǒng),包括一些視頻質(zhì)量和編碼語(yǔ)音的主觀評(píng)價(jià)方法[68], [69],這些方法利用了平均意見得分(MOS)尺度。考慮到我們的主觀測(cè)試是為了比較各種方法的結(jié)果,而不是單一的方法,我們?cè)谇懊嫣岬降难芯炕A(chǔ)上設(shè)計(jì)了一個(gè)測(cè)試系統(tǒng)。具體情況描述如下。

從研究生中隨機(jī)招募了34名受試者;所有學(xué)生都有一定的圖像處理或RSI的目標(biāo)檢測(cè)經(jīng)驗(yàn)。測(cè)試時(shí)間不受限制。因此,受試者有足夠的時(shí)間來(lái)仔細(xì)比較每種方法的結(jié)果。我們對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)和儲(chǔ)存,以便進(jìn)一步使用。

在獲得所有評(píng)價(jià)結(jié)果后,我們采用不同的標(biāo)準(zhǔn)來(lái)分析這些記錄。在描述性統(tǒng)計(jì)中,boxplot是一個(gè)合適的指標(biāo),用于按四分位數(shù)對(duì)數(shù)字?jǐn)?shù)據(jù)組進(jìn)行圖形化描述。boxplot可以顯示一個(gè)統(tǒng)計(jì)群體的樣本的變化,而不需要事先了解基本的統(tǒng)計(jì)分布。圖10列出了偏差比較均衡的SD-GCAN的主觀結(jié)果。很明顯,我們的SD-GCAN的標(biāo)準(zhǔn)化得分是最高的。

為了進(jìn)一步評(píng)估這些方法之間的差異,我們應(yīng)用單因素分析來(lái)比較它們的效率。我們把不同方法的平均值表示為μSD-CGAN。

檢驗(yàn)假設(shè)表示如下。

由于參與人數(shù)少于50人,本文采用了夏皮羅-威爾克檢驗(yàn)的結(jié)果。如表三所示,由于夏皮羅-威爾克檢驗(yàn)的sig>0.05,所以分?jǐn)?shù)的分布服從于正態(tài)分布。Levene統(tǒng)計(jì)量被用來(lái)完成方差的同質(zhì)性檢驗(yàn)(如表四所示)。表五顯示,我們應(yīng)該拒絕不同方法的平均標(biāo)準(zhǔn)化分?jǐn)?shù)相等的假設(shè)。

為了確定平均值有什么不同,我們使用成對(duì)的多重比較來(lái)進(jìn)一步比較每種方法。如表六所示,我們的SD-GCWAN框架和其他方法之間的平均差異大于零,這超過(guò)了所提出的方法的平均得分高于其他方法。p值(sig list)是指群體平均差異為零的概率。如表六所示,所有的p值都小于0.05,這表明SD-GCWAN的平均得分與其他方法有明顯的不同。由于95%置信區(qū)間的左端點(diǎn)大于零,我們的SD-GCWAN框架在95%的置信度下,在其他方法中表現(xiàn)出明顯的性能。





V. 討論

在本節(jié)中,我們提供了兩組消融經(jīng)驗(yàn),以評(píng)估不平等重建策略和歸一化內(nèi)容損失函數(shù)的效率。此外,我們提出了關(guān)于感知性能和圖像質(zhì)量之間的權(quán)衡的討論。

A. 不等價(jià)策略的效率

為了驗(yàn)證不等價(jià)重建策略的必要性,我們從以下三個(gè)方面去除突出性分析部分,然后觀察其性能的變化。

1)條件殘差塊被殘差密集塊取代,因此生成器變成了一個(gè)有8個(gè)殘差塊的殘差密集網(wǎng)絡(luò),其中包含兩個(gè)3×3卷積層。表七 GEOEYE-1 RSIS的PSNR(dB)和SSIM與縮放系數(shù)×3的比較

2)門控結(jié)構(gòu)被移除,判別器變成一個(gè)具有8個(gè)卷積層的深度CNN,由leaky-ReLU函數(shù)激活,其中卷積濾波器的數(shù)量從64到512每?jī)刹街饾u增加一倍。

3)我們利用生成的圖像的特征圖和參照物之間的MSE來(lái)代替(16)中的突出性加權(quán)感知損失,其中

訓(xùn)練細(xì)節(jié)和參數(shù)在第四節(jié)B中提到。表七總結(jié)了GeoEye-1 RSIs的定量結(jié)果。可以看出,所提出的方法在所有客觀指標(biāo)上都優(yōu)于沒有突出性分析的框架。在顯著性指導(dǎo)的幫助下,該方案生成的HR圖像的像素失真較少。

圖11顯示了這兩種方法的視覺對(duì)比。擬議方法的語(yǔ)義維護(hù)在兩個(gè)方面優(yōu)于基礎(chǔ)框架。
1)語(yǔ)義維護(hù)的能力。
如圖11所示,我們發(fā)現(xiàn)住宅區(qū)的邊界比基礎(chǔ)框架的邊界要直得多。此外,由我們的方法生成的圖像將有更好的房屋分離。我們認(rèn)為這要?dú)w功于突出性加權(quán)的感知損失[如(15)所示],它讓網(wǎng)絡(luò)專注于突出區(qū)域的感知質(zhì)量。
2)生成逼真圖像的能力。
所提出的方法可以同時(shí)生成像素失真較少、突出區(qū)域的紋理特征較豐富的圖像。考慮到GAN的使用可以影響紋理的視覺特征,它表明對(duì)抗性學(xué)習(xí)中的門控結(jié)構(gòu)有助于生成逼真的HR圖像。

B. 歸一化內(nèi)容損失的效率

所提出的SD-GCWAN的損失函數(shù)由三部分組成:
1)歸一化內(nèi)容損失;
2)顯著性驅(qū)動(dòng)的感知損失;
3)對(duì)抗性損失。
在實(shí)驗(yàn)過(guò)程中,我們發(fā)現(xiàn)這三個(gè)項(xiàng)目的相對(duì)大小會(huì)影響優(yōu)化過(guò)程。為了討論歸一化內(nèi)容損失的效率,我們刪除了顯著性驅(qū)動(dòng)的感知損失和對(duì)抗性損失,以保持公平性。在這里,我們用傳統(tǒng)的MSE損失和N-MSE損失設(shè)計(jì)了兩個(gè)SR框架來(lái)評(píng)估歸一化內(nèi)容損失的效率。條件殘差密集區(qū)被殘差密集區(qū)所取代,以消除不平等的SR重建策略的影響。此外,訓(xùn)練細(xì)節(jié)和參數(shù)在第四節(jié)B中提到。表八顯示了這兩個(gè)框架的目標(biāo)比較。我們發(fā)現(xiàn),優(yōu)化MSE損失可以獲得更高的PSNR,因?yàn)镠R和生成圖像之間的MSE最小化也相當(dāng)于PSNR最大化。對(duì)于SSIM來(lái)說(shuō),N-MSE損失比MSE損失好,這意味著我們的方案所生成的圖像更接近HR圖像,圖13。最后四個(gè)特征值的收斂曲線。(a)第13個(gè)特征值,(b)第14個(gè)特征值,?第15個(gè)特征值和(d)第16個(gè)特征值的收斂曲線。 亮度、對(duì)比度和結(jié)構(gòu)。這兩個(gè)框架的實(shí)驗(yàn)結(jié)果呈現(xiàn)在圖12中。我們可以觀察到,擬議的N-MSE損失有助于重建微小的細(xì)節(jié)。例如,如圖12(d)和(f)所示,N-MSE損失有助于在具有復(fù)雜紋理特征的區(qū)域提供更多的改進(jìn)。圖13提供了最后四個(gè)特征值的收斂曲線。圖中顯示,與MSE損失(藍(lán)線)相比,N-MSE損失(橙線)對(duì)這些小特征值的收斂效果更好。

C. 關(guān)于權(quán)衡的討論

從比較實(shí)驗(yàn)中,我們觀察到兩個(gè)相對(duì)極端的方法–VDSR和SRGAN。VDSR追求高質(zhì)量的指標(biāo),結(jié)果是模糊的視覺外觀,而SRGAN提供逼真的感知性能,但質(zhì)量指標(biāo)較差。在實(shí)現(xiàn)高PSNR的同時(shí),基于MSE的優(yōu)化問(wèn)題的解決方案通常缺乏高頻內(nèi)容,并產(chǎn)生了令人不滿意的過(guò)度平滑紋理的感知效果。視覺性能和圖像質(zhì)量是不協(xié)調(diào)的。Blau和Michaeli[70]也觀察到SR任務(wù)中圖像質(zhì)量和感知性能之間的矛盾,他們?cè)跀?shù)學(xué)上證明了低質(zhì)量的失真和高感知性能是相互矛盾的。

我們?cè)趫D14中進(jìn)一步展示了前面提到的技術(shù)和我們的算法的一些放大的結(jié)果。我們觀察到,SRGAN產(chǎn)生的假紋理,建立了一個(gè)清晰的視覺性能。然而,這些假的細(xì)節(jié)并不是用實(shí)際的地面信息生成的,可能會(huì)破壞原始圖像內(nèi)容。從紅色圓圈的區(qū)域,我們發(fā)現(xiàn)SRGAN的結(jié)果中的內(nèi)容被噪聲淹沒了。VDSR的結(jié)果遺漏了具體的結(jié)構(gòu)信息,提供了一個(gè)斷斷續(xù)續(xù)的印象。VDSR的解決方案也會(huì)在藍(lán)色圓圈的區(qū)域產(chǎn)生deforma tions。相反,我們的模型尋求視覺外觀和圖像質(zhì)量之間的權(quán)衡。在本文中,由于SD-GCAN的顯著性驅(qū)動(dòng)的損失函數(shù),所提出的網(wǎng)絡(luò)在恢復(fù)ROI的獨(dú)特紋理之前。因此,在保持相對(duì)可呈現(xiàn)的圖像質(zhì)量的前提下,從SD-GCWAN恢復(fù)的道路和住宅更加清晰和一致。

VI. 結(jié)論

在視覺注意力機(jī)制的啟發(fā)下,我們提出了一種基于深度網(wǎng)絡(luò)的RSI的不等價(jià)SR策略。所有現(xiàn)有的SR方法都忽略了不同圖像區(qū)域的不同需求,而這是RSI的一個(gè)重要特性。為了彌補(bǔ)這一缺點(diǎn),我們引入了突出性,以適應(yīng)性地實(shí)現(xiàn)不平等的重建結(jié)果。我們?cè)O(shè)計(jì)了一個(gè)新的弱監(jiān)督的顯著性分析網(wǎng)絡(luò),它可以生成具有圖像明智標(biāo)簽的像素級(jí)顯著性地圖。我們?cè)O(shè)計(jì)了一個(gè)新型的深度網(wǎng)絡(luò)SD-GCAN,以根據(jù)不同區(qū)域的需求重建全色RSI。請(qǐng)注意,該模型采用了突出性來(lái)指導(dǎo)不同的優(yōu)化目標(biāo)。對(duì)GeoEye-1遙感數(shù)據(jù)集進(jìn)行的評(píng)估表明,我們的方法不僅可以獲得具有令人滿意的全局圖像質(zhì)量的HR圖像,而且還可以獲得對(duì)ROI有利的感知性能,這驗(yàn)證了所提框架的有效性。

總結(jié)

以上是生活随笔為你收集整理的【图像超分辨率】RS Image SR Based on Visual Saliency Analysis的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。