當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

發布時間：2025/3/15 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了 ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介

本文出自香港大學的sibei，二作是中山大學李冠斌老師
下載鏈接

動機

Phrase level visual grounding具有兩個challenge：①大量的、可變的視覺內容，多樣的短語描述（不同的短語描述可能指向同一個bbox，eg：穿紅衣服的男子、拉小提琴的男子。。。）；②短語關系推理中存在明確的引用（順序？）。現有方法分為兩類：①大多數方法不建模短語之間的關系，而關注于特征融合；②少部分方法考慮了短語之間的關系，但是它們捕獲的是部分（或粗糙）的短語上下文，短語之間沒有明確的語言關系，如下圖(b)。

貢獻

提出關系傳遞模塊（Relational Propagation Module，RPM），可以基于linguistic relation在phrases pair間傳遞信息；
提出一種基于語言結構引導的網絡，在語言解析圖的指導下，迭代地給名詞短語傳遞跨模態信息。
在Flickr30K Entities數據集上測試，超過了SOTA。

方法

模型的整體框架如下圖所示，處理過程共分為五個步驟，下面逐一介紹。

①. 對輸入圖片進行編碼，將visual feature $V$ 和spatial coordinates $P$ 融合，得到spatial-aware feature $F$ 。
②. 對輸入文本進行解析，得到linguistic graph $G$ ，解析方法使用VL15中的方法。
③. 對于每個結點，基于 $F$ 和結點對應的短語特征 $w_{n}^{'}$ ，得到多模態特征 $M$ 和短語增強圖 $S$ ，這里得到的 $M$ 在不同的迭代輪次中均不改變，作為評價anchor boxes置信度的依據。
④. 使用RPM模塊，在邊上進行消息傳遞，得到關系增強圖 $R$ ，再進行結點信息聚集，得到聯合強化圖 $C$ 。
⑤. 使用 $M$ 和 $C$ 選擇出最優的anchor box，回歸offset即可。

實驗

在Flickr30K Entities上的實驗結果：

消融實驗：

實驗結果：

總結

以上是生活随笔為你收集整理的ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 20201028 《计算感知》第4节课
下一篇： ECCV 2020《Linguistic

编程问答

ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

目錄

簡介

動機

貢獻

方法

實驗

總結