日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

零样本分割系列论文(2)Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling

發(fā)布時(shí)間:2023/12/15 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 零样本分割系列论文(2)Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

我最近剛剛?cè)腴Tzero-shot segmentation,準(zhǔn)備以此作為我的博士研究方向,這是我入門這個(gè)方向讀的第二篇論文,這篇論文我讀了5遍以上,文章篇幅有限,所以很多細(xì)節(jié)我在讀論文的時(shí)候發(fā)現(xiàn)不了,導(dǎo)致我在跟師兄師姐分享論文的時(shí)候,他們提出的一些問題我回答不上來。于是,在讀了很多遍之后,啊我的閱讀筆記分享一下,可能還是有不對的地方,文章暫時(shí)沒提供代碼,有些細(xì)節(jié)問題可能還是得閱讀源碼。

寫在前面:可以只看第四部分,對pipeline的描述

1. 出處

2021.11.24掛在arXiv上,據(jù)說是投了2022年CVPR

2. 問題

已有的方法需要昂貴的mask annotations。Open-vocabulary instance segmentation能夠不需要mask annotations分割novel classes。

大多數(shù)已有的工作,首先在包含大量novel classes的文字描述的圖像上預(yù)訓(xùn)練模型,然后在limited帶有mask annotations的base classes上微調(diào)。

然而,單純在captions進(jìn)行pre-train學(xué)到的high-level textual information,無法有效地encode pixel-wise segmentation所需的細(xì)節(jié)。

詳細(xì)來說,zero-shot instance/semantic segmentation能夠利用高維語義描述如word embeddings,在沒有novel classes訓(xùn)練樣本的情況下,分割novel classes。然而,當(dāng)前的zero-shot instance/semantic segmentation方法效果不夠好,因?yàn)閔igh-level word embeddings無法有效的編碼細(xì)粒度的shape信息。

3. 解決方案

解決方案的核心思想是:通過使用low-cost captioned images分割novel classes,極大減少mask supervision的數(shù)量

提出了一個(gè)cross-modal pseudo-labeling框架,通過對齊說明文字中的word semantics和圖像中object masks的visual features來生成training pseudo masks,并將這種能力泛化到novel classes。

該框架能夠通過word semantics self-train一個(gè)student model,無需任何mask annotations,分割captioned images的objects。

為了解釋pseudo masks里的噪聲,作者設(shè)計(jì)了一個(gè)魯棒的student model,能夠通過估計(jì)mask noise levels選擇性地distill mask knowledge,從而減輕noisy pseudo masks的不利影響。

4. 整體模型

4.1 setting

訓(xùn)練:

base classes : 每個(gè)圖像對應(yīng)一系列g(shù)round truth標(biāo)注,包括instance masks和對應(yīng)的目標(biāo)類別(起到預(yù)訓(xùn)練作用)

額外的圖像 : 為了能夠分割novel classes,利用額外的圖像,每個(gè)圖像只有一段說明文字作為注釋,從中可以提取出一系列objects nouns,從caption annotations可以抽取出很多caption classes,遠(yuǎn)遠(yuǎn)多于base classes

測試:

novel classes:沒有任何mask annotation,訓(xùn)練階段也沒見過,這些類別僅僅被用作proxy來評估對novel classes的分割效果,object的類別可能是base classes,additional classes,或者novel classes

通過使用預(yù)訓(xùn)練好的BERT模型提供的high-level semantic embedding,作者的模型可以識別很多novel classes。給定BERT Embeddings,可以利用class semantic similarity從base/caption classes遷移知識到target classes上

在對novel classes進(jìn)行識別的時(shí)候,使用通過BERT模型訓(xùn)練得到的high-level semantic embeddings

4.2 base detector

Mask R-CNN

4.3 cross-modal pseudo-labeling framework

4.3.1 Pipeline

  • 訓(xùn)練過程

  • Teacher model

    embedding head用于分類,對captions中的每個(gè)object,選擇最適配的region proposal。

    mask head用于生成class-agnostic mask

    分為兩個(gè)階段,第一階段預(yù)訓(xùn)練backbone(ResNet50),在COCO Captions還有Conceptual Captions上預(yù)訓(xùn)練,得到vision-semantic模型。(Conceptual Captions很大,所以能學(xué)到很多圖像和類別的對應(yīng)關(guān)系)

    然后在COCO和Open Images數(shù)據(jù)集上進(jìn)行檢測/分割任務(wù),微調(diào)backbone,得到teacher模型。

    首先利用RPN獲得輸入圖像的region proposals,teacher的embedding head能夠獲得所有region的visual features,將region features映射到詞向量的語義空間上,將visual embedding和word embeddings點(diǎn)乘,計(jì)算每個(gè)region每個(gè)類別的對應(yīng)得分。通過在visual features和word embeddings學(xué)習(xí)一個(gè)共同的embedding空間,teacher可以泛化到novel classes.

    此外,還學(xué)習(xí)一個(gè)class-agnostic Mask R-CNN-based head分割每個(gè)region的物體,通過h_mask預(yù)測mask logit scores。

  • Student model

    在包含captions和base classes的數(shù)據(jù)集上訓(xùn)練

    student和teacher不是同時(shí)訓(xùn)練的,teacher訓(xùn)練好后,作為student的初始參數(shù)(將teacher的mask知識和captions遷移到sudent model。)

    • 將teacher對齊好的目標(biāo)區(qū)域用于訓(xùn)練student,對于每個(gè)對齊的區(qū)域,最大化它和目標(biāo)詞之間的相似度,最小化它和非目標(biāo)詞之間的相似度

    • teacher的mask head可以得到每個(gè)region對應(yīng)的pseudo mask,作為student的mask head的label

    • 通過三部分來優(yōu)化student,base class對應(yīng)的基礎(chǔ)的分割損失(知道對應(yīng)的GT),跨模態(tài)損失,噪聲估計(jì)損失

  • 測試過程

    使用student完成測試,利用caption中目標(biāo)詞提供的類別,匹配對應(yīng)的區(qū)域,然后使用mask head預(yù)測mask

  • 在base classes上,訓(xùn)練一個(gè)teacher模型,使用這個(gè)模型來選擇visual features能夠與captions中的詞語義最適配的目標(biāo)區(qū)域。這些區(qū)域進(jìn)一步被分割成pseudo masks,代表captions里的object words。然后將pseudo masks蒸餾出來用于訓(xùn)練一個(gè)robust student,能夠共同學(xué)習(xí)分割并估計(jì)pseudo-mask noise levels,為不正確的teacher預(yù)測降低權(quán)重。

    對每個(gè)caption-image對,通過選擇visual features與(captions中object words的)semantic embeddings最適配的mask predictions,來生成pseudo masks.

    4.3.2 Teacher Model詳細(xì)內(nèi)容(可不看)

    teacher model包括embedding head用于分類,和一個(gè)class-agnostic mask head用于分割。

    然后,在teacher predictions和captions中蒸餾mask knowledge,用于student model,共同在pseudo masks中學(xué)習(xí),并估計(jì)mask noise levels來降低unreliable pseudo masks的權(quán)重。

    給定region proposals,將他們分類到captions提到的任意類別。作者將Mask R-CNN分類頭中的全連接層,替換成了embedding head h_Emb,h_Emb將region features映射到詞向量的語義空間中。通過embedding head,每個(gè)區(qū)域類別o的分?jǐn)?shù)通過該類的word embedding和region’s visual feature之間的內(nèi)積計(jì)算得到的。

    通過學(xué)習(xí)一個(gè)visual features和word embedding之間共同的embedding space,teacher可以通過度量visual和textual features的兼容性,泛化到novel classes。

    此外,還訓(xùn)練一個(gè)class-agnostic Mask R-CNN-based head來分割每個(gè)區(qū)域的物體,h_Mask是mask head,能夠預(yù)測mask logit scores.

    盡管teacher可以分割novel classes,但由于缺乏標(biāo)注,還是會對novel classes誤分類。為了對novel classes提供額外的監(jiān)督信息,提出了cross-modal pseudo-learning method,能夠使用caption words里的語義信息來指導(dǎo)teacher預(yù)測,并生成pseudo masks用于self-training一個(gè)student model

    4.3.3 Cross-Modal Pseudo-Labeling詳細(xì)內(nèi)容(可不看)

    首先,利用captions識別圖像中的物體,提取caption里的名詞,為了定位圖中這些object words的位置,提出了cross-modal
    alignment,能夠選擇與captions中名詞的word embeddings特征最兼容的區(qū)域。

    給定對齊的object regions,引入了cross-modal loss,訓(xùn)練student,識別這些區(qū)域,作為他們的positively-matched caption words.

    對于每一個(gè)對齊的目標(biāo)區(qū)域b_o,student通過Softmax normalization最大化他的object words的分?jǐn)?shù),最小化其他不相關(guān)的words的分?jǐn)?shù)。

    word embedding(textual modality)和aligned object regions(visual modality)中的信息蒸餾到student embedding head中,以擴(kuò)展student關(guān)于caption中novel classes的知識。

    cross-modal loss在student embedding head上計(jì)算,忽視了用于分割的mask head。因此,提出從teacher中獲得pseudo masks,并估計(jì)這些masks的noise level

    4.3.4 Estimating Pseudo-Mask Noises

    給定aligned object regions,通過對這些區(qū)域使用teacher mask head,將其轉(zhuǎn)變成二值化的pseudo masks,正確預(yù)測的pixel值為1,其他為0。

    直觀上,可以通過在每個(gè)像素上模擬出pseudo masks,將其和teacher生成的pseudo作比較,訓(xùn)練student model。

    然而,由于teacher的預(yù)測錯(cuò)誤,并不是captions中的所有objects都能被正確檢測到。因此,最小化pixel-wise loss會將錯(cuò)誤從pseudo mask傳遞到student mask head,使得模型退化。

    為了消除pseudo label error的影響,作者提出估計(jì)pseudo masks的noise level。student為pseudo masks中的每個(gè)像素預(yù)測一個(gè)額外的noise value。

    假定pseudo mask中的每個(gè)像素被高斯噪聲腐蝕,方差可以通過aligned object region的visual features估計(jì)。

    student很難通過分割錯(cuò)誤的Pseudo masks進(jìn)行學(xué)習(xí),會使得g_noise估計(jì)高noise level來適應(yīng)這些errors

    4.3.5 訓(xùn)練魯棒的student model

    因?yàn)閟tudent model和teacher model由于缺乏標(biāo)注信息,無法知道正確的novel object masks。所以,作者提出將mask noises作為proxy,推斷pseudo masks是否reliable。

    總結(jié)

    以上是生活随笔為你收集整理的零样本分割系列论文(2)Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。