日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记

發布時間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 簡介
  • 動機
  • 貢獻
  • 方法
  • 實驗

簡介

本文是在NIPS 2019 ViLBERT上的拓展。
論文鏈接

動機

本文修改了ViLBERT的預訓練過程,有兩個小修改:1. 對regions進行mask時,將IoU大于0.4的regions也mask掉,避免視覺信息泄漏;2. 在多模態對齊的負樣本采樣時,不強制masked multi-modal modelling loss,這樣可以有效地降低負樣本帶來的噪聲。

貢獻

  • 提出Clean V&L Multi-Task setup,可以在多任務訓練過程中,確保沒有任務泄漏;
  • 提出多任務訓練模型,在12個V&L數據集上同時訓練,在四個任務上進行了驗證:Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。
  • 方法

    本文沒給框架圖,下圖出自NIPS 2019 ViLBERT。

    多任務學習的過程:

    實驗

    下圖是實驗結果,row1-2是single-task training,row3-5是multi-task training,row6-9是task-specific fine-tuning。

    在多個任務上和SOTA的對比:

    總結

    以上是生活随笔為你收集整理的CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。