日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

發布時間:2023/12/15 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Abstract&Introduction&Related Work

  • 研究任務
    • 語言+視覺模態預訓練任務
  • 已有方法和相關工作
    • masked data已經成為一種主流
  • 面臨挑戰
    • 現有的多模態大模型不同模態之間的參數的共享不夠高效
  • 創新思路
    • 使用Multiway Transformers來通用建模,使用一個統一個結構共享不同下游任務
    • 模塊化的網絡同時充分考慮到了模態獨特的編碼和跨模態融合
    • 別的大模型往往使用了很多訓練任務,而本文中僅僅使用mask-then-predict來訓練通用的多模態模型
    • 將圖片視為外語,把圖片和文本做相同的處理,因此圖片-文本對被視為平行語料來學習模態的對齊
    • 僅僅使用了公開數據集
  • 實驗結論
    • 在目標檢測,語義分割,圖像分類,視覺推理,視覺問答,圖像字幕,多模態抽取上都達到了sota(什么CV殺神?)


在視覺任務上全方位亂殺,可惜沒看到NLP那邊殺起來

BEIT-3: A General-Purpose Multimodal Foundation Model

通過使用共享的多路變壓器網絡對單模態和多模態數據進行masked data建模來進行預訓練。該模型可以轉移到各種視覺和視覺語言下游任務

Backbone Network: Multiway Transformers

將輸入根據不同模態輸入給不同的專家模塊,在實現中,每一層都有一個視覺專家和語言專家,最上面三層有視覺-語言專家為融合模態而設計

Using a pool of modality experts encourages the model to capture more modality-specific information.
使用a pool of 模態專家能促進模型捕捉到更多模態特定的信息

The shared self-attention module learns the alignment between different modalities and enables deep fusion for multimodal (such as vision-language) tasks.
共享的自注意力模塊學習不同模態之間的對齊,使多模態任務深度融合

如圖3所示,統一架構使BEIT-3能夠支持廣泛的下游任務
BEIT-3可以用作各種視覺任務的圖像主干,包括圖像分類、對象檢測、實例分割和語義分割。它還可以作為雙編碼器進行微調,以實現高效的圖像文本檢索,并作為多模式理解和生成任務的融合模型

Pretraining Task: Masked Data Modeling

文本用SentencePiece Tokenizer,圖像用BEiT v2的Tokenizer進行token化

  • 文本隨機mask 15%
  • 圖像-文本對隨機mask 50%
  • 圖片隨機mask 40%

Scaling Up: BEIT-3 Pretraining

Backbone Network

使用ViT-giant作為骨干網絡,40層MultiWay Transformer,總參數量19億

Pretraining Data

使用的預訓練數據

Pretraining Settings

好像越來越接近非超級實驗室能做的訓練資源了

Experiments

實驗是真正的大殺四方,刷了一堆sota



Conclusions

在本文中,我們介紹了BEIT-3,這是一個通用的多模式基礎模型,它在廣泛的視覺和視覺語言基準上實現了最先進的性能。BEIT-3的關鍵思想是圖像可以被建模為外語,因此我們可以以統一的方式對圖像、文本和圖像-文本對進行mask“語言”建模。我們還演示了多路transformer可以有效地建模不同的視覺和視覺語言任務,使其成為通用建模的有趣選項(?)

BEIT-3簡單而且work,是擴展多模態基礎模型的一個有前景的方向。對于未來的工作,我們正在進行多語種BEIT-3的預訓練,并在BEIT-2中包括更多的模式(如音頻),以促進跨語言和跨模式的遷移,并促進跨任務、語言和模式的大規模預訓練的大融合。我們也有興趣通過結合BEIT-3和MetaLM的優勢,為多模式基礎模型提供上下文學習能力

Remark

微軟的超級大作,一舉把視覺的sota狠狠的提高了,并且讓大家再次見識到了基于masked data的超強潛力,現在就差多模態模型在語言上的威力展現了~相信很快就會有,然后下一階段再把語音也加入進來

總結

以上是生活随笔為你收集整理的Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。