日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2020年, image captioning论文汇总

發布時間:2025/3/15 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2020年, image captioning论文汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • CVPR2020:ASG
  • CVPR2020:POS-SCAN
  • CVPR2020:SLL-SLE

CVPR2020:ASG

  • 題目
    Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
    下載鏈接
    吳琦老師組的新作, 一作是人大的博士生陳師哲.
  • 動機
    現有的方法與用戶交互性差, 生成的句子多樣性低, 不考慮用戶感興趣的內容.
  • 貢獻
  • 提出ASG(抽象場景圖), 可以以細粒度的方式設定一個描述物體的"模式".
  • 根據給定的ASG, 能夠識別ASG中的節點并生成圖像描述.
  • 對于沒有ASG標注的數據集, 可以自動生成ASG標注.
    • 方法
      整體框架如下:
  • ASG
    ASG中的節點共分為三類, object, attribute 和 relationship. 可以根據用戶的感興趣程度自定義ASG.
  • ASG2Caption
    2.1 Role-aware Graph Encoder. 對于給定的image和ASG, 首先經過Role-aware Graph Encoder (角色感知編碼器) 進行編碼, 這部分通過role-aware node embedding (角色感知節點嵌入) 和MR-GCN (多關系-圖卷積神經網絡) 實現. 角色感知節點嵌入用于區分每個節點的意圖,文中給出了詳細的計算過程, 使用MR-GCN是為了結合每個節點的的相鄰節點的上下文信息, 來更好的理解節點的語義和角色.

    2.2 Graph-based Attention. 使用MR-GCN對圖編碼后, 我們需要同時考慮編碼信息中的語義信息和圖結構信息. 語義信息反映了圖中的實際語義, 圖結構信息反映了ASG的結構. 本文為了同時考慮這兩種信息, 使用了兩種不同的注意力, 分別為Graph Content Attention (圖語義注意力) 和Grpah Flow Attention (圖流向注意力). 并在最后進行了融合.

    2.3 Graph Updating. 用于對圖節點進行更新, 動態記錄圖節點的訪問狀態.
    • 實驗
      消融實驗

      在不同baseline上添加ASG后的實驗結果對比

      和state-of-the-art的對比

      不同ASG生成的結果

    CVPR2020:POS-SCAN

    • 題目
      More Grounded Image Captioning by Distilling Image-Text Matching Model
      下載鏈接
    • 動機
      本文的出發點是grounded image captioning,意思就是,captioner在生成words時,應在images上注意到正確的objects。但是,想在保留captioning質量的同時,提升模型的grounding準確性,需要數據集具有word-region alignment的標注作為訓練時的監督,這很expensive。本文針對上述問題,基于SCAN提出了POS-SCAN(Part-Of-Speech),使用知識蒸餾的方法達到more grounded image captioning。
    • 貢獻
  • 本文提出了POS-SCAN,在傳統的captioners上添加POS-SCAN可以提高grounding的準確性。
  • 本文使用了SCST(Self-Critical Sequence Training),使用圖像-文本匹配的分數作為reward,進行強化學習,進一步提高了grounding的準確性。
    • 方法
      本文方法的整體如下圖所示,主要分為兩個模塊:Captioner和Pre-trained Matcher。Captioner采用的是Up-Down,Pre-trained Matcher即為本文提出的POS-SCAN。對于Captioner沒什么好說的,下面說一下POS-SCAN和SCAN的區別。

      在SCAN中,計算圖片III和句子TTT的相似度公式如下式所示。

      其中,R(et,atv)R(e_t,a_t^v)R(et?,atv?)用于計算word特征ete_tet?和添加了注意力的圖片特征atva_t^vatv?之間的相似度,具體公式如下:

      通過實驗發現,SCAN模型在grounding上的表現不如Up-Down。作者認為,這是由于句子中包含過多的non-visual words,故采用下式計算圖片III和句子TTT的相似度,其本質是,通過指示函數1yt?=ynone1_{y_t^*=y^{none}}1yt??=ynone?來篩選出名詞。

      在訓練時,POS-SCAN是預訓練好的,參數保持不變。訓練共分為兩階段,第一階段就是傳統的監督訓練;第二階段是使用強化學習進一步提升captioner的能力,這里使用了SCST中的方法,使用CIDEr作為一部分reward,并使用S(I,T)S(I,T)S(I,T)作為另一部分reward。
    • 實驗
      首先是在Flickr30k Entities val set上Attention Acc。

      下圖是在Flickr30k Entities val set上進行的消融實驗。

      在Flickr30k Entities test set上的實驗結果。

      在MS-COCO Karpathy test set上的實驗結果,?*?表示使用的是原文中實驗結果。[3]就是SCST那篇論文。

      下面是一些結果展示,紅色方框內是不添加POS-SCAN方法,綠色方框內是添加POS-SCAN方法。

      下面是一些failure cases。

    CVPR2020:SLL-SLE

    • 題目
      Better Captioning with Sequence-Level Exploration
      下載鏈接
    • 動機
      動機就一句話:提高模型的recall指標。最開始,captioning方法中使用交叉熵做word級別的監督,盡可能提高每個單詞的準確率。由于訓練時使用GT word作為輸入,測試時用predicted word作為輸入,這導致訓練和測試之間存在gap。然后,大家提出了sequence級別的監督,即使用生成的sentence進行監督。sequence級別的監督也存在問題:1. 理論上,忽視了recall問題。2. 實驗上,在recall相關的metrics上指標不高。
    • 貢獻
  • 分析了現有的sequence-level的不足之處
  • 提出了新的學習目標
  • 在精準率和召回率上,指標均有提升
    • 方法
      本文方法:在損失函數中添加sequence level exploration term,最大化生成的captions的距離。
    • 實驗
      在image captioning上的結果:

      在video captioning上的結果:

    總結

    以上是生活随笔為你收集整理的2020年, image captioning论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。