ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记
目錄
- 簡介
- 動機
- 貢獻
- 方法
- 實驗
簡介
本文出自南加大,可以對訓練集中沒有出現的words(或categories)進行grounding。
下載鏈接
動機
已有的grounding方法在測試時,只能對訓練集中出現過的words(或phrases)進行定位。本文提出一個新的task——zero-shot grounding,致力于對訓練集中沒有出現的words(或phrases)進行定位。但是,由于detector能夠識別的categories受限于訓練數據,兩階段的grounding方法不適用于此任務。綜上,本文提出了一階段的zero-shot grounding方法(多模態特征融合+SSD)。
上圖中,(a)和(b)是訓練數據,?代表常規的visual grounding方法可以處理的測試數據,(d)、(e)和(f)是訓練集中不存在的數據(words、categories),也就是zero-shot grounding想要解決的case。
貢獻
- 提出新任務——Zero-shot grounding;
- 提出解決新任務的baseline方法——ZSGNet;
- 構造了新任務的數據集——Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3;
- 在構造的數據集上測試了ZSGNet,驗證了方法的有效性。
方法
首先,看一下本文方法和傳統grounding中的兩階段方法在pipeline上的對比:
其實作者提出ZSGNet從結構上看也是一目了然的,就是將visual feature、language feature和anchor locations在通道維度上進行concatenation,再使用FCN輸出每個bbox的score和offset,損失函數也是非常常規,用Focal Loss監督分類,用Smooth L1 Loss監督bbox offset回歸。
實驗
本文為不同的條件設置了四種不同的條件:
- ①. 新的query word(圖一中def);
- ②. 新的referent類別(圖一中d);
- ③. 新的referent類別(new category),但是此類別和訓練集中已有類別(origin category)近似,且new category和origin category沒有同時出現在測試數據中(圖一中e);
- ④. 和③相比,兩種category同時出現在測試數據中(圖一中f)。本文使用word embedding來衡量words之間的相似度。
本文根據上面四個條件,構造了Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3,分別對應于四種不同的條件。
下表是和其他SOTA方法在Flickr30k和ReferIt數據集上的實驗結果:
下表是在本文構造的四個數據集上的實驗結果,0.3和0.5代表IoU threshold,B和UB代表balanced和unbalanced。
下圖是一些grounding結果,第一行出自Flickr30k和ReferIt數據集,第二行出自Flickr-Split-0、1數據集(對應于條件①②),第三行出自VG-Split-2、3數據集(對應于條件①②),最后一列是failed case。
總結
以上是生活随笔為你收集整理的ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ECCV 2020《Linguistic
- 下一篇: 20201125 《计算感知》武老师 第