當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

FVQA论文汇总

發布時間：2025/3/15 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 FVQA论文汇总小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

IJCAI2020 Mucko

題目
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering
下載鏈接
代碼鏈接
本文出自中科院自動化所+微軟亞研+阿德萊德吳琦老師
動機
在現有的FVQA方法中，沒有進行細粒度的選擇，就將不同模態信息進行聯合（共同嵌入），這為答案的推理帶來了干擾（噪聲）。
貢獻

使用異構圖對圖片進行描述，包含了三種不同的信息（視覺、語義、知識），取得了顯著超越SOTA方法的實驗結果。

使用“模態感知方法”捕獲不同模態中“面向question的信息”。

此方法具有良好的可解釋性。

方法
本文方法的整體結構如下圖所示，可以看出，有兩個核心步驟：構造多模態異構圖（Multi-Modal Heterogeneous Graph Construction）、跨模態異構圖推理（Cross-Modal Heterogeneous Graph Reasoning）。其中，跨模態異構圖推理又包含兩個步驟：知識選擇（Intra-Modal Knowledge Selection）、跨模態知識推理（Cross-Modal Knowledge Reasoning）。

首先介紹，如何構造多模態異構圖，這部分最終得到了三種不同模態的圖，分別是視覺圖、事實圖和語義圖。視覺圖基于所有的regions進行構造，得到的是雙向完全圖，每個節點的特征即為 region的視覺特征，邊的特征為兩個節點的spatial feature的結合 $ri,jV=[xj?xiwi,yj?yihi,wjwi,hjhi,wjhjwihi]r_{i,j}^V=[\frac{x_j-x_i}{w_i},\frac{y_j-y_i}{h_i},\frac{w_j}{w_i},\frac{h_j}{h_i},\frac{w_j h_j}{w_i h_i}]$ 。語義圖部分使用dense caption生成局部語義信息，將object或attribute作為節點，關系作為邊，word embedding方法使用的是GloVe。事實圖部分，先使用一個基于分數排序的方法，選出100個候選事實，具體做法為：計算“事實”中的每個單詞的embedding和question中每個單詞embedding、檢測到的視覺概念中的每個單詞embedding的余弦相似度，再進行平均，得到每個“事實”的分數。對于得到的100個候選事實，還要進行篩選，規則是——基于MLP預測question的relation類型，取top3，依次將100個候選事實和top3進行對比，不一致則刪除。最后，基于篩選得到的事實建圖。

跨模態異構圖推理由迭代的兩部分（知識選擇、跨模態知識推理）組成，共重復 $T$ 次。知識選擇就是在每個圖上，基于question分別對節點和邊添加attention，然后使用圖卷積進行節點更新。跨模態知識推理先基于事實圖中的每個實體（entity）+question對視覺圖和語義圖的節點添加注意力，再基于此注意力計算出互補信息（計算過程就是注意力和節點特征的加權平均）。分別得到視覺圖和語義圖的互補信息后，使用一個門機制將它們和事實圖的節點信息融合。最后，使用和知識選擇部分一樣的操作，對事實圖中的信息進行Aggregation。
實驗
本文在三個knowledge-based VQA數據集上進行了實驗，分別是FVQA、OK-VQA和Visual7W+KB。

在FVQA數據集上，和SOTA方法的對比，在top1上已經要接近人類水平了。

在Visual7W+KB數據集上的實驗：

在OK-VQA數據集上的實驗結果：

在FVQA上的消融實驗：

在FVQA上的超參實驗：

可視化的實驗結果：

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的FVQA论文汇总的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

论文
FVQA

上一篇： TextVQA论文汇总
下一篇： ECCV 2020 《Improving

编程问答

FVQA论文汇总

目錄

IJCAI2020 Mucko

總結