日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

论文笔记:SRCNN

發布時間:2023/12/13 综合教程 33 生活家
生活随笔 收集整理的這篇文章主要介紹了 论文笔记:SRCNN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.這篇論文的主要假設是什么?(在什么情況下是有效的),這假設在現實中有多容易成立

  LR圖像是HR圖像經過模糊(低通濾波器),下采樣,加噪處理后的圖像。

2.在這些假設下,這篇論文有什么好處
3.這些好處主要表現在哪些公式的哪些項目的簡化上。
4.這一派的主要缺點有哪些

  

1.神經網絡的計算速度卻決于輸入圖像的尺寸。由于卷積層是在HR空間中,計算復雜度大
2.插值法僅僅是將尺寸放大,并沒有帶來解決不適定的重建問題的額外信息。(ESPCN,3)

3.非線性映射層計算復雜度高

4.依賴于小圖像區域的上下文(VDSR,1)

5.一個網絡只能對應一個scale(VDSR,1)

1.intro

  圖像超分辨率問題是在CV領域一個經典的問題。目前(2014)最先進的方法大多是基于實例的,主要包括利用圖片的內部相似性,或者學習低分辨率高分辨率樣本對的映射函數。后者往往需要大量的數據,但是目前有效性不足以令人滿意并且無法精簡模型。其中典型的是基于稀疏編碼的方法,包括以下幾步:先從圖像中密集地抽取patch并進行預處理,然后使用low-resolution dict對patch進行編碼,得到稀疏的coefficients,被換成high-resolution dict用于重建高分辨率patch,對這些patch進行合成或平均以得到高分辨率圖像。這些方法將注意力都集中在對dict的學習和優化或者其他建模方法,其余步驟很少得到優化和考慮。

  本篇文章我們提出,上述步驟作用相當于一個卷積神經網絡。我們考慮直接在高低分辨率圖像中建立一個端到端映射的CNN,用隱藏層取代對dict的學習。在這個過程中,patch的抽取和聚合也能夠得到應有的優化。這就是SRCNN,其有以下優點:1.模型簡單,精度高。2.速度快。3.隨著數據集的增大,重建質量還可以增強。但是在以往方法中,數據集增大會帶來很多挑戰。

  本文主要工作:

  1.針對超分辨問題提出一個基于端到端映射的卷積神經網絡,圖像預處理后處理更少。

  2.基于深度學習的SR方法和傳統的基于稀疏編碼方法的比較。

  3.論證了深度學習在SR問題中可以被應用,且可以獲得較好的質量和速度。

2.related work

2.1 圖像超分辨

  一類圖像超分辨方法時學習高低分辨率patch間的映射,這些工作的主要區別在于學習一些將高低分辨率patch關聯起來的dict和manifold space方面,和如何在此空間內進行方案表示方面。

  Freeman的工作:dict里的元素直接代表高低分辨率的patch對,在低分辨率空間中找到input patch的最近鄰居(NN),對應到相應的高分辨率patch。

  Chang的工作:使用manifold embedding technique代替NN策略

  Yang的工作:NN對應進展到更為先進的稀疏編碼方式。這種稀疏編碼方式及其改進是目前最先進的SR方法。

2.2 CNN

  CNN最近因其在圖像分類領域的成功而變得火熱。

2.3 圖像復原領域的深度學習

  已經有一些使用深度學習技術在圖像復原領域應用的例子:多層感知機用于自然圖像去噪和post-deblurring去噪,CNN用于自然圖像去噪和消除噪聲圖案。圖像超分領域還并未得到應用。

3.SRCNN

3.1 構思

  將原始圖像通過插值,擴展到插值圖像Y,我們的目標就是將Y經過F(Y)變換,盡可能地接近高分辨圖像X。方便起見,我們將Y成為低分圖像,盡管其尺寸與X相等。

  1.patch(圖像塊)抽取與表示。將Y中的每一圖像塊抽取出來并表示為高維向量,這些高維向量包括一系列特征圖,特征圖的個數等于高維向量的維度。

  2.非線性映射。將上一步得到的每一高維向量進行非線性映射,得到另一個高維向量。得到的高維向量代表高分辨圖像的patch,這些高維向量也包括一系列特征圖。

  3.重建。聚合上步得到的高分辨圖像patch,得到最終的高分圖像

patch(圖像塊)抽取與表示

  深度學習之前的常用策略是密集抽取patch并用一組基來表示(如PCA,DCT,Haer)。這個過程等價于使用一組filter(每一個filter相當于一個基)對圖像進行卷積。這在此網絡中表示為進行卷積操作$$F_{1}left ( Y ight )=maxleft ( 0,W_{1}*Y+B_{1} ight )$$

  其中$W_{1}$的尺寸是$c imes f_{1} imes f_{1} imes n_{1}$,$B_{1}$是$n_{1}$維向量。在這之后應用一個RELU單元(RELU相當于非線性映射,而patch的提取和表示是純線性操作)

非線性映射

  上一步得到的得到的每一個$n_{1}$維向量對應于原始圖像中的一個patch,將得到的$n_{1}$維向量映射到$n_{2}$維向量,這在此網絡中表示為進行卷積操作$$F_{2}left ( Y ight )=maxleft ( 0,W_{2}*F_{1}left ( Y ight )+B_{2} ight )$$

  其中$W_{2}$的尺寸是$n_{1} imes 1 imes1 imes n_{2}$,$B_{2}$是$n_{2}$維向量

  注:可以增加額外的卷積層來增加網絡的非線性,但也需要考慮因此帶來的問題。

重建

  在傳統方法中,往往將高分patch進行average以產生最終圖像。這一平均操作可以替換為:使一系列特征圖通過我們預定義好的濾波器。

  

  這在此網絡中表示為進行卷積操作$$Fleft ( Y ight )=W_{3}*F_{2}left ( Y ight )+B_{3} $$

  其中$W_{3}$的尺寸是$n_{2} imes f_{3} imesf_{3} imes c$,$B_{3}$是$c$維向量

  如果代表HR patch的$n_{2}$維向量是在圖像域,則直接把第三次的filter看成一個averaging filter;如果是在其他域,則可以理解為第三層先將系數轉換到了圖像域繼而進行average。

3.2 和稀疏編碼方法的關系

  在稀疏編碼中,考慮從原始圖像中抽取$f_{1} imes f_{1}$的LR圖像塊,這一圖像塊減掉其均值后被投影到LR字典中。若LR字典大小為$n_{1}$,則這正相當于$n_{1}$個$f_{1} imes f_{1}$線性filter。(減均值操作包括在線性操作中)

  the sparse coding solver對$n_{1}$個系數進行非線性映射操作,輸出是$n_{2}$個系數,這$n_{2}$個系數代表HR patch。但是這一步驟并不是feed-forward,而是iterative。然而在CNN中的操作卻是feed-forward,而且便于計算,此操作可以看做是像素層面的全連接網絡。

(針對這里的pixel-wise fully-connected layer, 個人理解:應該說的是前后兩組feature maps中對應patch的特征進行全連接,而不是對patch進行全連接。在這里的“像素”應該指的是代表patch的高維向量的每一個維度)

  之后,$n_{2}$個系數通過HR字典投影到HR圖像塊,之后進行average操作。這等效于在$n_{2}$特征圖上進行線性卷積。如果用來重建的patch尺寸為$f_{3} imes f_{3}$, 則卷積操作的filter也是$f_{3} imes f_{3}$

  以上這些說明了,我們可以用CNN代替傳統的稀疏編碼,而且CNN能夠對所有步驟進行優化。

  我們設置的超參數是f1 = 9,f3 = 5, n1 = 64, and n2 = 32

  若設置最后一層filter<第一層,則我們更多地依賴于HR patch的中心部分; 為了達到稀疏的目的,也可以設置n2 < n1。

  相比于傳統方法更精確的原因之一是,此模型中HR像素的感受野大。(每一像素利用了$left ( 9+5-1 ight )^{2}=169$個原始像素的信息)

3.3 訓練

3.3.1 LOSS函數

  MSE損失$$Lleft ( Theta ight )=frac{1}{n}sum_{i=1}^{n}left | Fleft ( Y_{i};Theta ight )-X_{i} ight |^{2}$$

  使用MSE偏好于PSNR,(PSNR是定量評估重建質量的重要指標,與感知質量也相關)。

  也可在訓練過程中使用更合適的LOSS函數,這點在傳統SC方法是不可想象的。

3.3.2 momentun梯度下降

  

  訓練的輸入是原始圖像經過加噪、下采樣,上采樣。

4. 實驗

  數據集:訓練集:91images

      Set5用于2,3,4倍上采樣, Set14用于4倍上采樣

  超參數:f1 = 9,f3 = 5, n1 = 64, and n2 = 32

  ground truth尺寸:32*32pixel

  將HR圖片根據14stride切割成32×32子圖,這樣一來,91張圖片共產生約24800張訓練圖片。

  我們的圖片是在YCrCb空間下,且只考慮亮度通道。因此c=1,兩個色度空間不會被訓練。當然,也可以設置c=3,我們設置c=1只是為了和其他方法競爭公平。

  訓練階段,為了避免邊緣效應,我們的卷積操作無Padding,這會導致輸出尺寸是20*20,我們取ground truth中心的20*20進行LOSS函數的計算。而測試階段有Padding,可以輸入任意尺寸圖片,輸入尺寸不變,為了解決邊界效應,在每個卷積層中,每個像素的輸出(在ReLU之前)都通過有效輸入像素的數量進行標準化。

  filter參數被隨機初始化,標準差0.001。前兩層LR=10?4,最后一次LR=10-5。根據經驗,最后一層LR小對于收斂很重要。

5. 分析

  5.1 分析filter

  訓練出的不同filter對應不同功能

  5.2 使用不同數據集會產生不同效果

  5.3 filter數量

  可以改變層數和filter的數量,來產生不同效果,然而效果的提升意味著犧牲速度的代價

  5.4 filter尺寸。同5.3

5.總結

  添加更多的layer或者filter可以得到不同效果

  也可以探索一種網絡來應對不同的上采樣倍數。

總結

以上是生活随笔為你收集整理的论文笔记:SRCNN的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。