日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Single-Stage Semantic Segmentation from Image Labels笔记

發布時間:2023/12/14 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Single-Stage Semantic Segmentation from Image Labels笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Single-Stage Semantic Segmentation from Image Labels筆記

1. 概述

本文使用單階段算法。以往的多階段回歸算法,大多都是先通過CAM或者是顯著性檢測生成顯著性區域,而后通過傳統的迭代算法或者是基于圖論算法得到較為好的結果。多階段的算法意味著更多的時間,更復雜的模型,更復雜的訓練過程。而單階段的算法在以往也提出過,但是由于精度的問題而遭受拋棄,本文根據一些衡量分割的指標:(局部一致性)local consistency, (語義準確性)semantic fidelity, and (完整性)completeness作為指導,證明單階段方法也能夠有良好的效果。
參考:https://zhuanlan.zhihu.com/p/149623318

2. 方法

這篇文章有三個創新點

  • normalized Global Weighted Pooling (nGWP) – 分類loss
  • pixel-Adaptive Mask Refinement (PAMR) – 分割loss
  • Stochastic Gate (SG) – backbone
  • 1. nGWP

    使用nGWP的初衷:

  • 根據圖中的公式Global Average Pooling(GAP)公式,作者發現每個pixel(xk,i,jx_{k,i,j}xk,i,j?)對預測target class 的貢獻是一樣的,不利于小目標分割預測,并增加了分類器對上下文的依賴,從而導致了預測的mask精確度下降(we observe that it encourages all pixels
    in the feature map to identify with the target class. This
    may disadvantage small segments and increase the reliance
    of the classifier on the context, which can be undesirable
    due to a loss in mask precision.)
  • 根據上圖的公式,傳統的CAM對class activation map使用了ReLU操作,mask的值是沒有上限的,然而在分割問題中,我們更傾向于normalized representation,normalized representation可以視為confidence,有利于下游分割。
  • GAP沒有強調pixel之間的競爭性(沒有類似softmax的操作),在下游的分割任務中,每個pixel只能有一個class,所以pixel之間應該有競爭性。這點在GAP中無體現。
  • 針對這三點缺陷,作者提出了nGWP模塊。


    mcm_cmc?為通過softmax以后的mask的值,經過normalized weighted pooling后ycnGWPy_c^{nGWP}ycnGWP?作為分類分數,因為是normalized過的,可以看出與mask的大小沒有關系。這樣有利于對小物體分割,但mask的變小會造成recall變小。為了提高分割的完整性,作者使用一個懲罰項來提高正例的class的mask的尺寸。

    由這個公式可以看出當mask過小的時候,得到一個巨大的負值,從而對相對于全圖過小的mask有一個懲罰。作者做這么多步驟是為了將分類分數與mask大小解偶。當分類分數與mask大小解偶后,就可以應用difficulty-aware loss function(e.g. focal loss),于是作者又引入了下面的公式對小mask進一步關注。

    當mask過小的時候,產生的結果不變。但focal loss會減小mask尺寸增大產生的影響,以關注mask接近零時的失敗情況。
    最終分類得分為ycnGWP+ycsize?focaly_c^{nGWP} + y_c^{size-focal}ycnGWP?+ycsize?focal?
    class loss使用multi-label soft-margin loss function:

    2. Pixel-adaptive mask refinement

    classification loss影響了語意準確性(semantic fidelity)和完整性(completeness),local mask refinement會影響局部一致性。即臨近的有相似appearance的區域應該屬于同一個類。于是作者使用原本的mask m∈(0,1)(C+1)×h×wm \in (0,1)^{(C+1)\times h \times w}m(0,1)(C+1)×h×w和image III 來生成新的refined mask。這個函數必須高效,因為需要用新mask作為self-supervision在訓練分類網絡的同時訓練分割網絡。為了高效性,作者使用pixel-adaptive convolution(PAC)來實現這個過程。主要想法是用臨近標簽的convex combination來迭代地更新pixel labelm:,i,jm_{:, i, j}m:,i,j?

    具體來說,對每個像素,作者計算出一個affinity kenel來衡量它與它的相鄰像素在RGB空間的相似性。然后迭代的優化更新semantic mask。


    kernel kkk是關于image III的方程。σ\sigmaσ是圖像像素intensity的局部standard deviation。并且,在最終的affinity distance之前,作者使用了softmax將α\alphaα轉成了0,1之間的數。具體的迭代次數與kernel的size和shape有關。值得注意的是,PAMR是不參與backpropogate的。作者采用了confidence>60%(background confidence >70%)的mask作為偽標簽。

    3. Stochastic gate

    強大的模型可能會模仿偽標簽(pseudo ground truth)的錯誤,之前的研究顯示,大的感受野(receptive field)能夠學習分割任務中的復雜現象。為了防止self-supervision中的錯誤的復合效應,作者提出了一種regularisation,命名為stochasitc Gate(SG)。主要的想法是,將具有大感受野的深層feature與具有一般大小感受野的(之前的layer的)feature結合。具體來說,x(d)x^{(d)}x(d), x(s)x^{(s)}x(s)分別為deep feature map和shallow feature map. 在訓練階段對每個像素使用SG類似于dropout。

    在inference時,作者使用固定的mixing rate ∈[0,1]\in [0,1][0,1]。調節兩種feature的占比。

    Shallow feature可能沒有足夠的semantic information。為了增強他們的表達性,并保留原有的感受野,作者設計了Global cue Injection(GCI)。據上圖所示,deep feature通過1by1 convolution將channels增加一倍。之后用過Global Max Pooling(GMP)提取了兩個vectors。紅色區域為baseline model DeepLabv3+
    之后通過上式得到增強的shallow feature。μ\muμ,σ\sigmaσ為某一個channel中x(s)x^{(s)}x(s)的mean和std。

    總結

    以上是生活随笔為你收集整理的Single-Stage Semantic Segmentation from Image Labels笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。