日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记

發布時間:2025/3/15 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 簡介
  • 動機
  • 貢獻
  • 方法
  • 實驗

簡介

本文設計了一個Cross-Modality Relevance Module(跨模態相關模塊),對不同模態的信息進行關聯,且在不同的task上都是端到端訓練。
下載鏈接

動機

跨模態表示學習中,有一類方法致力于尋找處理不同模態數據時,components和structure的相關性,現有的方法多使用注意力機制。隨著信息檢索領域的發展,尋找不同信息之間的相關性(也就是“matching”)作為核心問題,變得越來越重要。之后,Transformer出現了,受益于“matching”,其在多個task上取得了SOTA。但是,這種在注意機制中的“matching”是用來學習一組權重,來突出components的重要性,忽略了relevance patterns(相關模式,這個詞我沒有很get到)。本文正是從此出發,直接基于relevance score學習不同模態的表示,達到了新的SOTA。

貢獻

  • 提出跨模態相關框架(cross-modality relevance framework),在一個對齊的空間中,同時考慮不同模態的實體相關性和關系相關性;
  • 在多個跨模態任務中,可以直接端到端地訓練;
  • 在VQA和NLVR任務上,都達到了新的SOTA。
  • 方法

    本文方法的整體框架如下圖所示,乍一看感覺挺復雜,其實重點在于圖的右側:Entity (Relational) Relevance Affinity Matrix、Entity (Relational) Relevance Representation。

    首先,對兩種模態(μ\muμvvv)的信息進行單模態處理,對于文本信息,使用預訓練的BERT;對于圖像,先使用預訓練的FasterRCNN提取proposals,對于每個proposal,使用Visual Transformer再進一步處理。然后,將得到的兩種模態特征拼接,經過本文提出(引入)的跨模態Transformer(此模塊會重復堆疊)進行對齊,計算self-attention的過程,和Transformer中一樣。將和注意力融合后的每個proposal (word)的特征,稱為Visual (Textual) Entity Representations(實體表示),使用S′μ(或v)=[S1′μ(或v),S2′μ(或v),...,SNμ(或v)′μ(或v)]S^{' \mu(或v)}=[S^{' \mu(或v)}_{1}, S^{' \mu(或v)}_{2},...,S^{' \mu(或v)}_{N^{\mu(或v)}}]Sμ(v)=[S1μ(v)?,S2μ(v)?,...,SNμ(v)μ(v)?]表示。第三,得到模態μ\muμ和模態vvv的實體表示后,先計算Entity Relevance Affinity Matrix(實體相關關聯矩陣,簡稱“實體關聯矩陣”),然后基于此矩陣,計算Relational Relevance Affinity Matrix(關系相關關聯矩陣,簡稱“關系關聯矩陣”)。計算實體關系矩陣的過程,其實就是矩陣乘法——Aμ,v=(S′μ)TS′vA^{\mu,v}=(S^{'\mu})^TS^{'v}Aμ,v=(Sμ)TSv,計算關系關聯矩陣的過程,后面再單獨說。最后,在兩個關聯矩陣上,分別做卷積、全連接,得到Φμ\Phi_{\mu}Φμ?Φv\Phi_{v}Φv?,將二者拼接,得到最終的Entity Relevance Representation(實體相關表示),用于后續任務。

    下面介紹如何計算關系關聯矩陣,整個計算過程可以總結為下圖(論文中的Fig 2)。整個過程就是,對于每一種模態,基于實體關聯矩陣,在所有可能的關系(N×(N?1)2\frac{N\times(N-1)}{2}2N×(N?1)?)中,選出Top-K個(本文中K=10K=10K=10),將得到的兩個模態的Top-K矩陣相乘,得到關系關聯矩陣。

    實驗

    在NLVR2數據集上的實驗結果:

    在VQA v2.0數據集上的實驗結果:

    關聯矩陣的可視化:

    總結

    以上是生活随笔為你收集整理的ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。