日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

FVQA论文汇总

發布時間:2025/3/15 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 FVQA论文汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • IJCAI2020 Mucko

IJCAI2020 Mucko

  • 題目
    Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering
    下載鏈接
    代碼鏈接
    本文出自中科院自動化所+微軟亞研+阿德萊德吳琦老師
  • 動機
    在現有的FVQA方法中,沒有進行細粒度的選擇,就將不同模態信息進行聯合(共同嵌入),這為答案的推理帶來了干擾(噪聲)。
  • 貢獻
  • 使用異構圖對圖片進行描述,包含了三種不同的信息(視覺、語義、知識),取得了顯著超越SOTA方法的實驗結果。
  • 使用“模態感知方法”捕獲不同模態中“面向question的信息”。
  • 此方法具有良好的可解釋性
    • 方法
      本文方法的整體結構如下圖所示,可以看出,有兩個核心步驟:構造多模態異構圖(Multi-Modal Heterogeneous Graph Construction)、跨模態異構圖推理(Cross-Modal Heterogeneous Graph Reasoning)。其中,跨模態異構圖推理又包含兩個步驟:知識選擇(Intra-Modal Knowledge Selection)、跨模態知識推理(Cross-Modal Knowledge Reasoning)。

      首先介紹,如何構造多模態異構圖,這部分最終得到了三種不同模態的圖,分別是視覺圖、事實圖和語義圖。視覺圖基于所有的regions進行構造,得到的是雙向完全圖,每個節點的特征即為 region的視覺特征,邊的特征為兩個節點的spatial feature的結合ri,jV=[xj?xiwi,yj?yihi,wjwi,hjhi,wjhjwihi]r_{i,j}^V=[\frac{x_j-x_i}{w_i},\frac{y_j-y_i}{h_i},\frac{w_j}{w_i},\frac{h_j}{h_i},\frac{w_j h_j}{w_i h_i}]ri,jV?=[wi?xj??xi??,hi?yj??yi??,wi?wj??,hi?hj??,wi?hi?wj?hj??]。語義圖部分使用dense caption生成局部語義信息,將object或attribute作為節點,關系作為邊,word embedding方法使用的是GloVe。事實圖部分,先使用一個基于分數排序的方法,選出100個候選事實,具體做法為:計算“事實”中的每個單詞的embedding和question中每個單詞embedding、檢測到的視覺概念中的每個單詞embedding的余弦相似度,再進行平均,得到每個“事實”的分數。對于得到的100個候選事實,還要進行篩選,規則是——基于MLP預測question的relation類型,取top3,依次將100個候選事實和top3進行對比,不一致則刪除。最后,基于篩選得到的事實建圖。

      跨模態異構圖推理由迭代的兩部分(知識選擇、跨模態知識推理)組成,共重復TTT次。知識選擇就是在每個圖上,基于question分別對節點和邊添加attention,然后使用圖卷積進行節點更新。跨模態知識推理先基于事實圖中的每個實體(entity)+question對視覺圖和語義圖的節點添加注意力,再基于此注意力計算出互補信息(計算過程就是注意力和節點特征的加權平均)。分別得到視覺圖和語義圖的互補信息后,使用一個門機制將它們和事實圖的節點信息融合。最后,使用和知識選擇部分一樣的操作,對事實圖中的信息進行Aggregation。
    • 實驗
      本文在三個knowledge-based VQA數據集上進行了實驗,分別是FVQA、OK-VQA和Visual7W+KB。

      在FVQA數據集上,和SOTA方法的對比,在top1上已經要接近人類水平了。

      在Visual7W+KB數據集上的實驗:

      在OK-VQA數據集上的實驗結果:

      在FVQA上的消融實驗:

      在FVQA上的超參實驗:


      可視化的實驗結果:
    與50位技術專家面對面20年技術見證,附贈技術全景圖

    總結

    以上是生活随笔為你收集整理的FVQA论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。