(CVPR2022) 跨语言图像弱监督语义分割CLIMS
開源倉庫:https://github.com/CVI-SZU/CLIMS
CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation
圖 1 CAM與CLIMS的對比圖
摘要:眾所周知,類別激活圖(Class Activation Map, CAM) 通常只激活物體的判別性區域并且包含了許多與物體相關的背景誤激活。僅有圖像級標注信息的弱監督語義分割(Weakly Supervised Semantic Segmentation, WSSS)模型很難抑制那些多樣化的背景區域。因此,基于對比語言圖像預訓練模型(Contrastive Language Image Pretraining, CLIP),本文提出了一個新穎的跨語言圖像匹配(CLIMS)的弱監督語義分割框架。框架的核心思想是引入自然語言監督和設計物體、背景區域和文本標簽匹配損失來獲得更完整的類別激活圖。并設計了區域正則化和背景抑制損失,以防止模型在CAM圖中激活與類別相關的背景區域。這些設計使CLIMS 為目標對象生成更完整和緊湊的激活圖。
圖 2 CLIMS的網絡結構圖
圖5 展示了本文提出的基于跨文本圖像匹配(Cross Language Image Matching for WSSS, CLIMS)框架。它由一個骨干網絡和一個文本驅動的評估器組成,其中評估器包括三個基于大型文本圖像匹配預訓練模型CLIP的損失函數,即對象區域和文本標簽匹配損失 (LOTM)、背景區域和文本標簽匹配損失(LBTM)、共現背景抑制損失(LCBS)和區域正則化損失(LREG)。核心思想是通過文本驅動評估器的監督來學習初始CAM圖的生成。首先,給定一張圖像X,主干網絡預測初始 CAM圖p,它表示每個像素屬于一個類別的概率,如圖5(a)所示。然后將p輸入圖像X相乘后的結果,作為文本驅動評估器的輸入。如圖5(b) 所示。將掩碼后的結果及其對應的文本類別標簽分別輸入到 CLIP 模型的圖像編碼器特征向量vkio以及文本編碼器提取特征向量vkto并計算它們之間的余弦相似度。我們可以根據數據集定義前景對象的文本標簽,例如“train”、“cat”和“person”等。在訓練期間,L_OTM 旨在最大化前景對象區域和給定文本標簽之間的相似性,例如“a photo of train”:
?????????????????????????????? (1)
???????????????????????????????? (2)
L_OTM雖然能使CAM圖可以逐漸接近圖像中的目標對象,但不能保證物體激活區域的完整性。例如,即使只有鳥的頭部可見,圖像仍然可以被CLIP模型識別成一只鳥。因此,我們提出L_OTM來最小化掩碼前景區域后的 X*(1-p) 和“a photo of train”之間的相似性:
?????????????????????????????(3)
??????????????????????????????? (4)
這可以去除 1-p?中激活的物體區域,即在 p中激活更多可能的物體區域。然而,當物體區域被激活時,與物體密切相關的背景,例如火車和鐵路、船和河流等,通常也會被激活,因為沒有可用像素級標簽。為了解決這個問題,我們額外定義了一組與類相關的背景文本標簽,例如“railroad”(火車的共現背景)和“river”(船的共現背景)等。基于這些文本標簽,我們設計了L_CBS以最小化X*(1-p)和這些同時出現的背景文本標簽提取的特征向量vkio和vktb的相似性:
?????????????????????????????(5)
??????????????????????????????? (6)
這使得CLIMS 能夠抑制CAM中與類別相關的背景,例如“railroad”。最后,為了保證類別激活圖的緊湊性,我們設計了區域正則化損失LREG:
??????????????????????????????????(7)
最終,整體損失如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? (8)
圖 3 損失函數的消融實驗效果圖
圖 4 類別激活圖和偽標簽質量的比較
圖 5 在PASCAL VOC2012數據集上的評估結果與比較
?
圖 6 類別激活圖的可視化比較
圖 7 損失函數超參數的敏感度分析
總結
以上是生活随笔為你收集整理的(CVPR2022) 跨语言图像弱监督语义分割CLIMS的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java版本+企业电子招标采购系统源码+
- 下一篇: 2021国防科技大学计算机学院无军籍考研