當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

论文笔记:SRCNN

發布時間：2023/12/13 综合教程 33 生活家

生活随笔收集整理的這篇文章主要介紹了论文笔记:SRCNN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.這篇論文的主要假設是什么？（在什么情況下是有效的），這假設在現實中有多容易成立

　　LR圖像是HR圖像經過模糊（低通濾波器），下采樣，加噪處理后的圖像。

2.在這些假設下，這篇論文有什么好處
3.這些好處主要表現在哪些公式的哪些項目的簡化上。
4.這一派的主要缺點有哪些

1.神經網絡的計算速度卻決于輸入圖像的尺寸。由于卷積層是在HR空間中，計算復雜度大
2.插值法僅僅是將尺寸放大，并沒有帶來解決不適定的重建問題的額外信息。（ESPCN，3）

3.非線性映射層計算復雜度高

4.依賴于小圖像區域的上下文（VDSR，1）

5.一個網絡只能對應一個scale（VDSR，1）

1.intro

　　圖像超分辨率問題是在CV領域一個經典的問題。目前(2014)最先進的方法大多是基于實例的，主要包括利用圖片的內部相似性，或者學習低分辨率高分辨率樣本對的映射函數。后者往往需要大量的數據，但是目前有效性不足以令人滿意并且無法精簡模型。其中典型的是基于稀疏編碼的方法，包括以下幾步：先從圖像中密集地抽取patch并進行預處理，然后使用low-resolution dict對patch進行編碼，得到稀疏的coefficients，被換成high-resolution dict用于重建高分辨率patch，對這些patch進行合成或平均以得到高分辨率圖像。這些方法將注意力都集中在對dict的學習和優化或者其他建模方法，其余步驟很少得到優化和考慮。

　　本篇文章我們提出，上述步驟作用相當于一個卷積神經網絡。我們考慮直接在高低分辨率圖像中建立一個端到端映射的CNN，用隱藏層取代對dict的學習。在這個過程中，patch的抽取和聚合也能夠得到應有的優化。這就是SRCNN，其有以下優點：1.模型簡單，精度高。2.速度快。3.隨著數據集的增大，重建質量還可以增強。但是在以往方法中，數據集增大會帶來很多挑戰。

　　本文主要工作：

　　1.針對超分辨問題提出一個基于端到端映射的卷積神經網絡，圖像預處理后處理更少。

　　2.基于深度學習的SR方法和傳統的基于稀疏編碼方法的比較。

　　3.論證了深度學習在SR問題中可以被應用，且可以獲得較好的質量和速度。

2.related work

2.1 圖像超分辨

　　一類圖像超分辨方法時學習高低分辨率patch間的映射，這些工作的主要區別在于學習一些將高低分辨率patch關聯起來的dict和manifold space方面，和如何在此空間內進行方案表示方面。

　　Freeman的工作：dict里的元素直接代表高低分辨率的patch對，在低分辨率空間中找到input patch的最近鄰居（NN），對應到相應的高分辨率patch。

　　Chang的工作：使用manifold embedding technique代替NN策略

　　Yang的工作：NN對應進展到更為先進的稀疏編碼方式。這種稀疏編碼方式及其改進是目前最先進的SR方法。

2.2 CNN

　　CNN最近因其在圖像分類領域的成功而變得火熱。

2.3 圖像復原領域的深度學習

　　已經有一些使用深度學習技術在圖像復原領域應用的例子：多層感知機用于自然圖像去噪和post-deblurring去噪，CNN用于自然圖像去噪和消除噪聲圖案。圖像超分領域還并未得到應用。

3.SRCNN

3.1 構思

　　將原始圖像通過插值，擴展到插值圖像Y，我們的目標就是將Y經過F(Y)變換，盡可能地接近高分辨圖像X。方便起見，我們將Y成為低分圖像，盡管其尺寸與X相等。

　　1.patch(圖像塊)抽取與表示。將Y中的每一圖像塊抽取出來并表示為高維向量，這些高維向量包括一系列特征圖，特征圖的個數等于高維向量的維度。

　　2.非線性映射。將上一步得到的每一高維向量進行非線性映射，得到另一個高維向量。得到的高維向量代表高分辨圖像的patch，這些高維向量也包括一系列特征圖。

　　3.重建。聚合上步得到的高分辨圖像patch，得到最終的高分圖像

patch(圖像塊)抽取與表示

　　深度學習之前的常用策略是密集抽取patch并用一組基來表示(如PCA，DCT，Haer)。這個過程等價于使用一組filter(每一個filter相當于一個基)對圖像進行卷積。這在此網絡中表示為進行卷積操作$$F_{1}left ( Y ight )=maxleft ( 0,W_{1}*Y+B_{1} ight )$$

　　其中$W_{1}$的尺寸是$c imes f_{1} imes f_{1} imes n_{1}$，$B_{1}$是$n_{1}$維向量。在這之后應用一個RELU單元（RELU相當于非線性映射，而patch的提取和表示是純線性操作）

非線性映射

　　上一步得到的得到的每一個$n_{1}$維向量對應于原始圖像中的一個patch，將得到的$n_{1}$維向量映射到$n_{2}$維向量，這在此網絡中表示為進行卷積操作$$F_{2}left ( Y ight )=maxleft ( 0,W_{2}*F_{1}left ( Y ight )+B_{2} ight )$$

　　其中$W_{2}$的尺寸是$n_{1} imes 1 imes1 imes n_{2}$，$B_{2}$是$n_{2}$維向量

　　注：可以增加額外的卷積層來增加網絡的非線性，但也需要考慮因此帶來的問題。

重建

　　在傳統方法中，往往將高分patch進行average以產生最終圖像。這一平均操作可以替換為：使一系列特征圖通過我們預定義好的濾波器。

　　這在此網絡中表示為進行卷積操作$$Fleft ( Y ight )=W_{3}*F_{2}left ( Y ight )+B_{3} $$

　　其中$W_{3}$的尺寸是$n_{2} imes f_{3} imesf_{3} imes c$，$B_{3}$是$c$維向量

　　如果代表HR patch的$n_{2}$維向量是在圖像域，則直接把第三次的filter看成一個averaging filter；如果是在其他域，則可以理解為第三層先將系數轉換到了圖像域繼而進行average。

3.2 和稀疏編碼方法的關系

　　在稀疏編碼中，考慮從原始圖像中抽取$f_{1} imes f_{1}$的LR圖像塊，這一圖像塊減掉其均值后被投影到LR字典中。若LR字典大小為$n_{1}$，則這正相當于$n_{1}$個$f_{1} imes f_{1}$線性filter。（減均值操作包括在線性操作中）

　　the sparse coding solver對$n_{1}$個系數進行非線性映射操作，輸出是$n_{2}$個系數，這$n_{2}$個系數代表HR patch。但是這一步驟并不是feed-forward，而是iterative。然而在CNN中的操作卻是feed-forward,而且便于計算，此操作可以看做是像素層面的全連接網絡。

（針對這里的pixel-wise fully-connected layer, 個人理解：應該說的是前后兩組feature maps中對應patch的特征進行全連接，而不是對patch進行全連接。在這里的“像素”應該指的是代表patch的高維向量的每一個維度）

　　之后，$n_{2}$個系數通過HR字典投影到HR圖像塊，之后進行average操作。這等效于在$n_{2}$特征圖上進行線性卷積。如果用來重建的patch尺寸為$f_{3} imes f_{3}$, 則卷積操作的filter也是$f_{3} imes f_{3}$

　　以上這些說明了，我們可以用CNN代替傳統的稀疏編碼，而且CNN能夠對所有步驟進行優化。

　　我們設置的超參數是f1 = 9,f3 = 5, n1 = 64, and n2 = 32

　　若設置最后一層filter<第一層，則我們更多地依賴于HR patch的中心部分；為了達到稀疏的目的，也可以設置n2 < n1。

　　相比于傳統方法更精確的原因之一是，此模型中HR像素的感受野大。（每一像素利用了$left ( 9+5-1 ight )^{2}=169$個原始像素的信息）

3.3 訓練

3.3.1 LOSS函數

　　MSE損失$$Lleft ( Theta ight )=frac{1}{n}sum_{i=1}^{n}left | Fleft ( Y_{i};Theta ight )-X_{i} ight |^{2}$$

　　使用MSE偏好于PSNR，（PSNR是定量評估重建質量的重要指標，與感知質量也相關）。

　　也可在訓練過程中使用更合適的LOSS函數，這點在傳統SC方法是不可想象的。

3.3.2 momentun梯度下降

　　訓練的輸入是原始圖像經過加噪、下采樣，上采樣。

4. 實驗

　　數據集：訓練集：91images

　　　　　　Set5用于2,3,4倍上采樣, Set14用于4倍上采樣

　　超參數：f1 = 9,f3 = 5, n1 = 64, and n2 = 32

　　ground truth尺寸：32*32pixel

　　將HR圖片根據14stride切割成32×32子圖，這樣一來，91張圖片共產生約24800張訓練圖片。

　　我們的圖片是在YCrCb空間下，且只考慮亮度通道。因此c=1，兩個色度空間不會被訓練。當然，也可以設置c=3，我們設置c=1只是為了和其他方法競爭公平。

　　訓練階段，為了避免邊緣效應，我們的卷積操作無Padding，這會導致輸出尺寸是20*20，我們取ground truth中心的20*20進行LOSS函數的計算。而測試階段有Padding，可以輸入任意尺寸圖片，輸入尺寸不變，為了解決邊界效應，在每個卷積層中，每個像素的輸出（在ReLU之前）都通過有效輸入像素的數量進行標準化。

　　filter參數被隨機初始化，標準差0.001。前兩層LR=10?4，最后一次LR=10-5。根據經驗，最后一層LR小對于收斂很重要。

5. 分析

　　5.1 分析filter

　　訓練出的不同filter對應不同功能

　　5.2 使用不同數據集會產生不同效果

　　5.3 filter數量

　　可以改變層數和filter的數量，來產生不同效果，然而效果的提升意味著犧牲速度的代價

　　5.4 filter尺寸。同5.3

5.總結

　　添加更多的layer或者filter可以得到不同效果

　　也可以探索一種網絡來應對不同的上采樣倍數。

總結

以上是生活随笔為你收集整理的论文笔记:SRCNN的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：农行信用卡消费备用金提前还款手续费多少？
下一篇：华夏银行易达金可以提前还款吗？提前还款手