日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记

發布時間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 簡介
  • 動機
  • 貢獻
  • 方法
  • 實驗

簡介

本文是一篇poster,作者來自馬薩諸塞大學阿姆赫斯特分校和Adobe研究院。
明確一下本文的task:在圖片中分割出給定的短語。
下載鏈接

動機

現有的數據集缺乏在實際應用中出現的概念的規模和多樣性(lack the scale and diversity of concepts that appear in real-world applications.),基于此問題,本文提出了VGPHRASECUT數據集。作者使用了幾個 state of-the-art referring approaches在此數據集上進行了測試,結果都不盡人意。通過分析,作者認為這是由于數據集中的罕見類別和罕見屬性造成的(長尾效應)。

貢獻

  • 提出VGPHRASECUT數據集。
  • 提出模塊化方法,可以將類別、屬性和關系相關的視覺cues進行結合。
  • 通過利用對更頻繁的類別和屬性的預測,提高模型在罕見類別和屬性上的性能。
  • 方法

    本文方法的整體框架如下圖所示,整個framework還是很清楚的。

    Backbone encoders,對于image,使用MaskRCNN;對于phrase,使用 bi-directional LSTMs。
    Category module,這部分分為三個步驟進行。①. 基于instances features生成category channel score,假設原圖片大小為w×hw\times hw×h,共有NNN個類,生成的category channel score大小為12w×12h×N\frac{1}{2}w\times\frac{1}{2}h\times N21?w×21?h×N。②. 基于phrase embedding生成channel attention。③. 將前兩步的結果相乘,然后再做一個仿射變換,再激活一下,就得到了結果。
    Attribute module,和Category module一樣,只不過通道數不一樣,這里通道數應該是100×20100 \times 20100×20,100代表top100個objects,20代表attributes。
    Relationship module,也和上文差不多,這里用的是空洞卷積,用來提高感受野。
    Combining the modules,這部分有點似懂非懂,按照我理解的來寫吧。作者對上述得到的三個輸出進行elementwise product and normalization,然后得到一個10-channel的score map。將category、attribute和relationship的embedding進行concat,學得一個attention。將score map和attention結合,得到最終輸出。

    實驗

    在VGPHRASECUT數據集上的實驗結果,感覺rel沒啥用呀。。。

    總結

    以上是生活随笔為你收集整理的CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。