當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

U-net：实用图像分割、特征提取深度框架

發布時間：2025/3/15 编程问答 11 豆豆

生活随笔收集整理的這篇文章主要介紹了 U-net：实用图像分割、特征提取深度框架小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

理解參考：https://blog.csdn.net/hduxiejun/article/details/71107285

原文參考：

1.U-Net: Convolutional Networks for Biomedical Image Segmentation （MICCAI2016）

2.Image Deformation Using Moving Least Squares

主要學習兩點：

1.網絡框架：用于圖像分割以及特征提取

2.數據增強：學習平移不變性、學習形變deformation不變性

1.U-net框架

在深度學習應用到計算機視覺領域之前，人們使用 TextonForest 和隨機森林分類器進行語義分割。卷積神經網絡（CNN）不僅對圖像識別有所幫助，也對語義分割領域的發展起到巨大的促進作用。
語義分割任務最初流行的深度學習方法是圖像塊分類（patch classification），即利用像素周圍的圖像塊對每一個像素進行獨立的分類。使用圖像塊分類的主要原因是分類網絡通常是全連接層（full connected layer），且要求固定尺寸的圖像。
2014 年，加州大學伯克利分校的 Long 等人提出全卷積網絡（FCN），這使得卷積神經網絡無需全連接層即可進行密集的像素預測，CNN 從而得到普及。使用這種方法可生成任意大小的圖像分割圖，且該方法比圖像塊分類法要快上許多。之后，語義分割領域幾乎所有先進方法都采用了該模型。
除了全連接層，使用卷積神經網絡進行語義分割存在的另一個大問題是池化層。池化層不僅擴大感受野、聚合語境從而造成了位置信息的丟失。但是，語義分割要求類別圖完全貼合，因此需要保留位置信息。本文介紹一種編碼器-解碼器結構。編碼器逐漸減少空間維度，解碼器逐步修復物體的細節和空間維度。編碼器和解碼器之間通常存在快捷連接，因此能幫助解碼器更好地修復目標的細節。U-Net 是這種方法中最常用的結構。

卷積層的數量大約在20個左右，4次下采樣，4次上采樣。輸入圖像大于輸出圖像，因為在本論文中對輸入圖像做了鏡像操作。

結果：

如上圖所示，對輸入圖像的四周做了鏡像操作，其輸入圖像的大小為572*572，整個網絡越有20個卷積層，輸出圖像的大小小于輸入圖像的大小。

2.U-net使用的數據增強技術

作者采用“滑動最小二乘法”進行deformation變化，從而使得網絡學習到deformation不變性
作者采用高斯權重的距離偏移設置，從而使得網絡學習到translation不變性

3.U-net在標簽數據處理的特異之處

為了最大限度的使用GPU顯存，比起輸入一個大的batch size，作者更傾向于輸入整張圖像。此外作者使用了很高的momentum（0.99）。最后一層使用交叉熵函數與softmax（交叉熵函數如下所示）：

為了使某些像素點更加重要，我們在公式中引入了w(x)。我們對每一張標注圖像預計算了一個權重圖，來補償訓練集中每類像素的不同頻率，使網絡更注重學習相互接觸的細胞之間的小的分割邊界。我們使用形態學操作計算分割邊界。權重圖計算公式如下：

wc是用于平衡類別頻率的權重圖，d1代表到最近細胞的邊界的距離，d2代表到第二近的細胞的邊界的距離。基于經驗我們設定w0=10，σ≈5像素。網絡中權重的初始化：我們的網絡的權重由高斯分布初始化，分布的標準差為(N/2)^0.5,N為每個神經元的輸入節點數量。例如，對于一個上一層是64通道的3*3卷積核來說，N=9*64

總結

以上是生活随笔為你收集整理的U-net：实用图像分割、特征提取深度框架的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：水滴石穿C语言之正确使用const
下一篇：关于h5py的使用及数据封装实例