日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

發布時間:2025/3/15 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 簡介
  • 動機
  • 貢獻
  • 方法
  • 實驗

簡介

本文出自北航劉偲老師colab,使用語言結構引導上下文建模,用于Referring Image Segmentation。
下載鏈接

動機

解決Referring Image Segmentation的一個general想法是:首先,分別提取視覺、語言特征,然后基于多模態特征進行分割。但由于噪聲的存在,很難從背景中分割出referent。這時,可以考慮使用與句子相關的、有效的多模態context來突出referent的特征,抑制背景特征。但在已有方法中,使用直接的concatenation或循環微調,缺乏顯式的建模多模態上下文。有一些工作中,使用跨模態self-attention或動態濾波建模多模態上下文,但這些上下文要么是不充足的,要么是冗余的。

貢獻

  • 本文提出使用“gather-propagate-distribute”機制建模視覺語言中跨模態的上下文信息;
  • 本文提出了Linguistic Structure guided Context Modeling (LSCM)模塊,用于實現“gather-propagate-distribute”機制;
  • 在四個benchmarks上進行了實驗,均超過了SOTA,UNC (+1:58%)、UNC+(+3:09%)、G-Ref (+1:65%) 、ReferIt (+2:44%)

方法

本文方法的整體架構如下圖所示,共有三個步驟:①使用CNN和LSTM分別提取視覺、語言特征,并將二者融合,獲得多模態特征;②基于得到的多模態特征,使用LSCM模塊(本文重點)突出referent的特征。③將得到的multi-level特征融合,預測mask。

①和③沒有太多需要介紹的,主要說一下文中的步驟②,其處理過程如下圖所示。Gather,基于attention map得到每個node的特征,此時,每個node中只包含它自己的上下文信息;Propagate,最初時,得到的graph是全連接的,作者使用Dependency Parsing Tree解析出文本中結點的對應關系,基于得到的Tree壓制graph中的一些邊,就得到的DPT-WG,在DPT-WG上做一次圖卷積(后文中有實驗,表明做次圖卷積的結果最優),此時,每個node均包含了sentence的上下文;Distribute,將結點特征再映射到特征圖上,高亮referent的特征。

實驗

在四個數據集上的實驗結果:

消融實驗:

圖卷積層數實驗:

一些可視化的實驗結果:

對attention map的可視化:

總結

以上是生活随笔為你收集整理的ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。