當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...

發布時間：2024/9/5 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?弄懂基本上的專有術語以后，閱讀理解論文的速度就會大大增快，所以，看到每篇論文的生詞就記錄下來，方便以后查閱和學習！

2.中的術語：object dection（目標檢測），region proposal network（RPN? 區域推薦網絡），

?bilinear?interpolation（雙線性插值），Faster-RCNN，

3.中subject-predicate-object（主語-謂語-賓語），relation annotation（關系采樣），softmax（回歸模型），Feature Extraction（特征提取），

Visual Feature（視覺特征），weighted concatenation（加權連接），ROI pooling解析,non-maximum suppression (NMS 非極大值抑制)，

intersection over union (IoU 重疊區域)，Optimization(優化)，

confident region(置信區域)，

4.中的術語：JointBox（聯合標記框），State of The Arts（時下最優算法），Phrase Detection（短語檢測）。

2.3視覺關系檢測不僅僅是標記出目標們所在區域，更要描述它們的相互關系。

3.2位置特征不但在檢測空間或者借此關系時有用，而且在檢測動詞時也有用，比如，當謂語是“騎”的時候，主體通常是在目標的上方。特征提取層將目標檢測模塊和關系預測模塊耦合到一起。

3.3訓練用的圖片使用一個“主謂賓”三元組來標記，其中每個不同的主體或者目標用邊界框注釋出來。在測試階段，VTransE輸入一張圖片，輸出一個檢測到的目標的集合，并且輸出每一對目標的集合，并且輸出每一對目標之間的關系的預測評分。損失函數是合成了目標檢測損失和關系檢測損失的多任務損失函數，這就使得目標和關系能夠相互學習。

4.1目前主要有兩個大規模關系檢測數據集，VRD（視覺關系數據集）和VG。

4.2聯合標記框將主體和目標當做一個聯合邊界框進行謂詞預測，VTransE則對一對主體和目標進行預測。為了較為公平的比較，我們兩個方法都只使用邊界框的ROI pooling視覺特征。結果表明，大部分謂詞VTransE都能預測正確，而聯合框方法在某些確定的模式下很可能產生偏差。比如，聯合框預測“park on”這個動作僅局限于汽車，而VTransE方法則可以將這個動作擴展到飛機和公共汽車（問題，VTransE具體是怎么樣工作的，為什么能擴展到飛機和公共汽車）。VTransE則可以則表現地更理解“beneath”的含義。
4.3VTransE端到端的訓練方法有利于目標檢測。因為特征提取層采用了知識轉換的方法，是的關系預測產生的錯誤能夠反向傳播到目標檢測模塊。

4.4端到端的VTransE比2階段的VTransE-2stage在整個數據集上表現得都要好。結果證明了目標和關系相互學習的有效性。

轉載于:https://www.cnblogs.com/BlueBlue-Sky/p/9135248.html

總結

以上是生活随笔為你收集整理的Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： jenkins配置以cygwin环境的子
下一篇： DAY3-Flask项目