日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

發布時間:2024/7/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆記整理 | 陳卓,浙江大學計算機科學與技術系,博士研究生

研究方向 | 知識圖譜/圖神經網絡/多模態


論文鏈接:https://www.aclweb.org/anthology/2020.findings-emnlp.44.pdf

代碼:https://github.com/ZiaMaryam/ConceptBERT

發表會議:EMNLP 2020

任務核心ideas

模型概覽

流程如下:

  • 得到對應模態的嵌入表示

  • 通過兩個并行模態融合模塊

    • 視覺-語言(輸出2個向量)

    • 知識-語言(輸出1個向量)

  • 聚合三種向量

    • 帶有語言信息的視覺向量

    • 帶有視覺信息的語言向量

    • 帶有外部知識的語言向量

  • 分類器進行答案分類

背景知識

借鑒AAAI2020的一篇文章(Commonsense knowledge base completion with structural and semantic context)中所提到的ConceptNet embedding 作為I2020 常識概念圖中的實體表示

借鑒NIPS2019中一篇文章中的多模態交叉attention方法,交叉視覺和語言兩條stream分別使用了自己的query和來自另一邊的key和value向量,進行信息融合

模型方法

輸入模塊:

編碼模塊:

包括:

1:圖片與bert的聯合編碼

2:bert與Kgembedding的聯合編碼

3:3個編碼方式的聚合

實驗

作者在OK-VQA數據集上達到了sota,但是在VQA標準數據集VQA2.0上并沒有達到。主要原因是因為該方法側重于常識與背景知識,在trick上不如當前SOTA的VQA模型(效果接近76%)。

同時,該論文避開了FVQA數據集,猜測原因是在該數據集上表現不佳(該數據上大部分方法都是基于pipeline,這種end2end的方法不好去對標)

總結與靈感

  • 常識知識庫某種程度上可增強許多VQA任務,哪怕不是顯式地需要外部知識

  • 多模態任務中以圖的形式引入外部知識依然有很大的潛力可以挖掘

  • 預訓練fine-tune +(交叉)注意力機制 + 外部知識 + KG圖結構 - - > 信息最大化


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 網站。

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。