生活随笔
收集整理的這篇文章主要介紹了
FVQA论文汇总
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
IJCAI2020 Mucko
- 題目
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering
下載鏈接
代碼鏈接
本文出自中科院自動化所+微軟亞研+阿德萊德吳琦老師 - 動機
在現有的FVQA方法中,沒有進行細粒度的選擇,就將不同模態信息進行聯合(共同嵌入),這為答案的推理帶來了干擾(噪聲)。 - 貢獻
使用異構圖對圖片進行描述,包含了三種不同的信息(視覺、語義、知識),取得了顯著超越SOTA方法的實驗結果。使用“模態感知方法”捕獲不同模態中“面向question的信息”。此方法具有良好的可解釋性。
- 方法
本文方法的整體結構如下圖所示,可以看出,有兩個核心步驟:構造多模態異構圖(Multi-Modal Heterogeneous Graph Construction)、跨模態異構圖推理(Cross-Modal Heterogeneous Graph Reasoning)。其中,跨模態異構圖推理又包含兩個步驟:知識選擇(Intra-Modal Knowledge Selection)、跨模態知識推理(Cross-Modal Knowledge Reasoning)。
首先介紹,如何構造多模態異構圖,這部分最終得到了三種不同模態的圖,分別是視覺圖、事實圖和語義圖。視覺圖基于所有的regions進行構造,得到的是雙向完全圖,每個節點的特征即為 region的視覺特征,邊的特征為兩個節點的spatial feature的結合ri,jV=[xj?xiwi,yj?yihi,wjwi,hjhi,wjhjwihi]r_{i,j}^V=[\frac{x_j-x_i}{w_i},\frac{y_j-y_i}{h_i},\frac{w_j}{w_i},\frac{h_j}{h_i},\frac{w_j h_j}{w_i h_i}]ri,jV?=[wi?xj??xi??,hi?yj??yi??,wi?wj??,hi?hj??,wi?hi?wj?hj??]。語義圖部分使用dense caption生成局部語義信息,將object或attribute作為節點,關系作為邊,word embedding方法使用的是GloVe。事實圖部分,先使用一個基于分數排序的方法,選出100個候選事實,具體做法為:計算“事實”中的每個單詞的embedding和question中每個單詞embedding、檢測到的視覺概念中的每個單詞embedding的余弦相似度,再進行平均,得到每個“事實”的分數。對于得到的100個候選事實,還要進行篩選,規則是——基于MLP預測question的relation類型,取top3,依次將100個候選事實和top3進行對比,不一致則刪除。最后,基于篩選得到的事實建圖。
跨模態異構圖推理由迭代的兩部分(知識選擇、跨模態知識推理)組成,共重復TTT次。知識選擇就是在每個圖上,基于question分別對節點和邊添加attention,然后使用圖卷積進行節點更新。跨模態知識推理先基于事實圖中的每個實體(entity)+question對視覺圖和語義圖的節點添加注意力,再基于此注意力計算出互補信息(計算過程就是注意力和節點特征的加權平均)。分別得到視覺圖和語義圖的互補信息后,使用一個門機制將它們和事實圖的節點信息融合。最后,使用和知識選擇部分一樣的操作,對事實圖中的信息進行Aggregation。 - 實驗
本文在三個knowledge-based VQA數據集上進行了實驗,分別是FVQA、OK-VQA和Visual7W+KB。
在FVQA數據集上,和SOTA方法的對比,在top1上已經要接近人類水平了。
在Visual7W+KB數據集上的實驗:
在OK-VQA數據集上的實驗結果:
在FVQA上的消融實驗:
在FVQA上的超參實驗:
可視化的實驗結果:
與50位技術專家面對面20年技術見證,附贈技術全景圖
總結
以上是生活随笔為你收集整理的FVQA论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。