日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 端到端神经视觉问答之上的显式推理

發布時間:2024/7/5 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 端到端神经视觉问答之上的显式推理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


鏈接:http://www.public.asu.edu/~cbaral/papers/2018-aaai-psl.pdf

?

概述


視覺問答(Visual Question Answering)現有兩大類主流的問題, 一是基于圖片的視覺問答(ImageQuestion Answering), 二是基于視頻的視覺問答( Video Question Answering).而后者在實際處理過程中, 常常按固定時間間隔取幀,將視頻離散化成圖片(frame)的序列,剔除大量冗余的信息, 以節省內存.

?

當前視覺問答的研究主要關注以下三個部分:

  • 延續自然語言處理中, 對注意力機制(Attention Mechanism) 和記憶網絡(Memory Network) 的研究,旨在通過改進二者提高模型對文本和圖像信息的表達能力,通過更豐富的分布式表示來提升模型的精度.另一方面,也可以視作是對神經計算機(Neural Machine) 其中鍵值模塊(Key-value, 對應注意力)和緩存模塊(Cache, 對應記憶網絡)的改進.

  • 密集地研究可解釋性(Interpretability)和視覺推理(Visual Reasoning) . 對同領域多源異構數據,這類研究方向將問答視為一種檢索或人機交互方式,希望模型能提供對交互結果(即答案)的來由解釋.

  • 將文本或圖像, 以及在圖像中抽取的一系列信息, 如場景圖譜(SceneGraph), 圖片標題(Image Caption)等視為是知識來源”, 在給定一個問題時,如何綜合考慮所有的知識,并推斷出最后的答案.

  • 文章開頭提到的論文,便是朝著第三個方向再邁進一步.


    模型


    本文提出的主要模型,是一個基于一階謂詞概率軟邏輯(Probabilistic Soft Logic)的顯式推理機. 如果你已經訓練好了一個用于視覺問答的神經網絡模型,那么這個顯式推理機可以根據模型的輸出結果, 綜合考慮信息后,更正原本模型的輸出結果. 這樣的后處理能提升模型的精度.下圖就是一個這樣的例子.

    1:一個正面例子

    ?

    1 中紅色六邊形標示的 “PSL Engine”, 是顯式推理的核心部分.通過這一個部分, “VQA” 的預測結果與” Visual Relation(視覺關系)”,“Question Relation(問題關鍵詞關系)””Phrasal Knowledge(語言常識)”三部分信息綜合起來,進行推理, 更新答案. 此處是一個正向例子.

    ??????????? 推理過程具體如下:

  • 生成 VQA 答案: 存在一個視覺問答的神經網絡模型, 對于這幅圖片和相應問題,預測出最有可能的答案是:教堂(church) 谷倉(barn).

  • 生成Visual Relation: 通過利用Dense Captioning system(Johnson, Karpathy, and Fei-Fei 2016) 生成圖片的文本描述, 再用Stanford Dependency Parsing(De Marneffe et al. 2006) 抽取生成描述中的關鍵詞,再啟發式的方法為關鍵詞對添加上關系,構成三元組.這代表了從圖片中抽取出有效的結構化信息.

  • 生成 Question Relation: 再次使用StanfordDependency Parsing及啟發式方法抽取問題中包含的三元組信息.

  • 生成 Phrasal Knowledge: 將所有相關關鍵詞在ConceptNet 和詞向量中索引,并計算相似度.

  • 由概率軟邏輯推理引擎綜合前面四步生成的所有信息, 更新 VQA 答案對應的得分,并重新排序,得到新的結果.

  • ?

    在推理過程中,使用了概率軟邏輯, 來綜合考量各種生成的事實. 其核心思想是: 由謂詞和變元組成的命題, 真值不在局限于10(真或假), 而是可以在閉區間[0, 1]上取值. 一個簡單的例子是:

    “XY是朋友關系且Y Z投票, 蘊含X Z 投票的權重是0.3. “XY是伴侶關系且YZ投票, 蘊含X Z 投票的權重是0.8. 回到本文的例子, 綜合所有生成的命題并進行推理的過程如下:

    在此, 命題的權重w_i 是需要學習的部分. 而優化的目標是使得滿足最多條件的正確答案的權重最高.


    實驗


    在數據集MSCOCO-VQA(Antol et al. 2015) 測試. 讓我們看看效果:

    ?

    2:實驗結果中的 8 個例子

    ?

    筆記整理:楊海宏,浙江大學博士,研究方向為知識問答與推理。




    OpenKG.CN


    中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

    轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。

    ?

    點擊閱讀原文,進入 OpenKG 博客。

    創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的论文浅尝 | 端到端神经视觉问答之上的显式推理的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。