當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICCV 2019 | VrR-VG：聚焦视觉相关关系

發布時間：2024/10/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICCV 2019 | VrR-VG：聚焦视觉相关关系小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨梁遠智

學校丨西安交通大學碩士生

研究方向丨視覺關系

本文提出視覺相關的對象關系在語義理解上有更高的價值。在視覺關系學習表達中，我們需要關注于視覺相關關系，而避免對于視覺無關的信息學習。由于現有數據中存在大量的非視覺的先驗信息，方法上很容易學到簡單的位置關系或單一固定關系，而不具備進一步推測學習語義信息的能力。從而導致現有關系數據的表征并不能明顯提升語義相關任務性能。

而本文提出明確了視覺關系學習中什么是值得學習的，什么是需要學習的。并且通過實驗，也驗證了所提出的視覺相關關系數據可以有效的提升特征的語義理解能力。

數據及項目網站：http://vrr-vg.com/

引文

在計算機視覺的研究中，感知任務（如分類、檢測、分割等）旨在準確表示單個物體對象信息；認知任務（如看圖說話、問答系統等）旨在深入理解整體場景的語義信息。而從單個物體對象到整體場景，視覺關系表征兩個物體之間的交互，連接多個物體構成整體場景。關系數據可以作為物體感知任務和語義認知任務之間的橋梁和紐帶，具有很高的研究價值。?

考慮到關系數據在語義上的這種紐帶的作用，對象關系數據應當有效的推進計算機視覺方法對于場景語義理解上的能力。構建從單物體感知，到關系語義理解，到整體場景認知，由微觀到宏觀，由局部到整體的層次化的視覺理解能力。?

但現有關系數據中，由于大量先驗偏置信息的存在，導致關系數據的特征并不能有效的利用在語義理解中。其中，位置關系如“on”, “at”等將關系的推理退化為對象檢測任務，而單一固定的關系，如“wear”，“has”等，由于數據中主體客體組合搭配固定，此類關系將關系推理退化為簡單演繹推理。

因此這些關系數據的大量存在，導致關系特征的學習更多傾向于對單物體感知，而非真正的對場景語義的理解，從而無法使關系數據發揮的作用。同時，這種語義上的、學習上的先驗偏置，無法通過常規的基于頻率或規則的方法篩選剔除，這導致上述數據端的問題阻礙了關系語義理解上的發展與研究，使得視覺對象關系的研究與語義理解的目標漸行漸遠。?

本文首先提出視覺相關假設和視覺相關關系判別網絡來構建具有更高語義價值的數據集。我們認為，許多關系數據不需要理解圖像，僅僅通過單物體感知上的標簽信息（如 bounding box, class）就可以推斷的是關系學習中應避免的，即非視覺相關關系。而在關系數據中，對于視覺相關關系的學習與理解，將逼迫網絡通過圖像上的視覺信息，推理得到關系語義信息，而不是依賴基于單物體感知的能力，擬合先驗偏置的標簽。?

在我們的方法中，我們設計了一個視覺相關判別網絡，通過網絡自主的學習，分辨那些僅通過一些標簽信息即可推斷的非視覺相關關系，從而保證數據中留存的都是具有高語義價值的視覺相關關系。此外，我們設計了一個考慮關系的聯合訓練方法，有效的學習關系標簽的信息。

在實驗中，我們從兩個方面驗證了我們的想法。關系表征學習中，在場景圖生成任務上，我們的視覺相關關系有效的拉大了學習型方法與非學習型方法之間的性能差距，由此證明了非視覺關系是關系數據中的先驗偏置且通過簡單方法即可推斷。另一方面，通過學習視覺相關關系，我們得到的特征具有更好的語義表達與理解能力。該特征也在問答系統、看圖說話中展現出更好的性能，由此證明了視覺相關關系是真正需要被學習，且更有利于提升語義理解能力。

方法

視覺相關判別網絡（VD-Net）

提出的 VD-Net 用于分辨對象關系是否視覺相關。網絡僅需要物體對象的位置信息 bounding box 和類別信息 class，并將兩種信息做編碼輸入，而不考慮圖像信息。具體輸入如下。?

位置編碼：

其中含有物體中心點、寬高、位置關系信息、尺寸信息等。?

針對類別信息，我們使用類別標簽的 glove 特征向量作為輸入。網絡設置如下：

為了避免過擬合，網絡設計需要盡可能的小。網絡包含 4 個全連接層，其中,?,?分別是主體、客體的位置編碼及二者聯合位置編碼。,?分別是主體、客體對象的類別詞向量。

通過 VD-Net 網絡的學習，可以發現現有的數據集中，關系預測具有很高的準確率，在 VG150 中，37% 的標簽在 VD-Net 中有至少 50% 的準確率。?

考慮關系信息的聯合特征學習

我們提出的方法如下：

其中，我們使用 Faster-RCNN 用于特征提取，f(I) 取自于 RPN 部分。網絡綜合的學習位置、類別、屬性和關系信息。通過對象關系的信息，進一步拓展特征的語義表征能力。

實驗

場景圖生成實驗

Freqency-Baseline 是非學習型方法，基于對數據的統計。在我們的實驗中，VrR-VG 明顯的拉開了非學習方法與可學習方法之間的性能差距。更加凸顯出場景圖生成任務中，各個方法的真實性能。同時，實驗也說明非視覺相關的關系比較容易。相對來說，在含有大量非視覺關系的情況下，網絡學習到的內容和基于統計的非學習型方法直接推斷的內容差距有限。

問答系統實驗

在問答系統實驗中，通過學習視覺相關關系，特征具有更好的性能，在指標上有明顯的提升。

在具體的案例分析上，通過學習視覺相關關系，特征能夠提供更多的語義信息。一些通過單物體信息無法正確回答的問題，在我們的方法下有明顯的效果。

看圖說話實驗

在看圖說話的任務中，通過學習視覺相關關系，任務的性能也有提升。

通過對生成的句子案例分析，我們可以發現，我們的方法給出了一些具有鮮明語義關系的句子。有時句子整體會有更加鮮活的表達，內涵更加豐富的交互信息。

結論

在對象關系的學習與應用中，我們需要關注視覺相關關系的學習。現有關系數據不能有效的利用在語義相關的任務中，其主要問題是在數據側而非方法側。為了使對象關系應該在語義理解上有更廣泛深入的引用，需要首先明晰那些關系需要學習。在解決什么需要學的前提下，才能在如何學習的方法側走的更遠。

點擊以下標題查看更多往期內容：?

ICCV 2019 | 沉迷AI換臉？不如來試試“AI換衣”
ICCV 2019?| 單幅圖像下實現任意尺度自然變換
ICCV 2019?| 打造炫酷動態的藝術字
ICCV 2019 | 基于關聯語義注意力模型的圖像修復
ICCV 2019 | 基于元學習和AutoML的模型壓縮
ICCV 2019?| 適用于視頻分割的全新Attention機制

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

???? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文

總結

以上是生活随笔為你收集整理的ICCV 2019 | VrR-VG：聚焦视觉相关关系的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 10周带你手推机器学习算法公式，30+视
下一篇： ICLR 2020：从去噪自编码器到生成