日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2020 | ActBERT: 自监督多模态视频文字学习

發布時間:2024/10/8 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2020 | ActBERT: 自监督多模态视频文字学习 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly ·?作者|朱霖潮

單位|悉尼科技大學

研究方向|視頻理解

自監督特征學習近年來已有如火如荼的發展,并從單模態的自監督學習,如圖片自監督特征學習,視頻自監督特征學習,蔓延到多模態,利用圖片與文字或者視頻與文字的關聯性進行特征學習。?

利用圖片與文字關聯性進行自監督學習已有非常多優秀的工作,如 Vilbert, LXMERT, VisualBERT, VLBERT, UNITER, Unified VLP 等等。這類工作的數據源一般是 Conceptual Captions 或 SBU Captions,且圖片文字對往往是從網站中已有的數據自動抓取得到,無須額外的標注成本。通過圖片與文字無監督的關聯,這些模型在許多下游任務已取得明顯提升。?

視頻與文字自監督學習在最近也有一定的進展。這種自監督學習方法對下游任務也有顯著提升。相比于圖片與文字,視頻與文字自監督學習或許可以在更多應用場景得到使用,如最近比較火的短視頻推薦,或細粒度動作理解等。

論文標題:ActBERT: Learning Global-Local Video-Text Representations

論文鏈接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf

問題背景

與圖片文字類似,視頻與文字自監督學習也需要大量的關聯數據,其中一種比較好的數據源就是教學視頻(instructional videos)。在教學視頻中,視頻創作者往往在講述一個具體任務的完成過程,其中會詳細描述所見的視頻內容。

舉個例子,在教做菜的視頻中,視頻創作者會描述,“開始切胡蘿卜”,往往人物也是在正進行“切胡蘿卜”的動作。這種天然的視覺對應關系,是進行視頻文字自監督學習的重要要素。其中文字描述可以通過自動語音識別技術(ASR)從視頻中或從創作者上傳的字幕中提取文字。這樣成對的視頻文字數據就產生了。?

教學視頻的另外一個優點就是來源豐富,包括做菜,修理日常用品,寵物護理,個人愛好等等。這種多種多樣的人類日常生活數據,有助于協助很多人類日常行為或社交行為的理解。?

ICCV 2019 上的一篇論文 HowTo100M,收集了一百二十多萬個的視頻,并從中切出了 1 億 3 千多萬的視頻片段進行無監督或自監督的視頻文字關聯。該論文使用一個非常簡單的排序損失函數進行視頻文字建模,但這種方式學習到的特征在許多下游任務上都能顯著提升性能??梢娫诖笠幠祿M行視頻文字建模是提升具體任務的一種比較好的思路。

ActBERT

同樣在 ICCV 2019 上,VideoBERT 率先使用 BERT 的訓練方式進行視頻與文本的關聯學習,并將視頻幀作為視覺單詞輸入 BERT 網絡。為了解決視覺特征無法做分類預測的問題,VideoBERT 使用了 hierachical k-means 的方法將視覺特征進行離散化,這樣每個數據特征都對應一個離散的視覺中心。

然而一個視覺中心可能無法很好的同時描述局部和全局視覺內容,比如表示視頻片段的動作和局部交互的物體。從而使得該方法無法進行更好地視頻與文字匹配,比如文字”steak“與其視頻內容的關聯。?

為了解決上述問題,即同時進行文字與動作和局部區域的視覺輸入關聯,ActBERT 提出了一個簡單的思路,就是在輸入層同時加入全局動作特征與局部區域特征。

▲ 在輸入層,引入動作特征與局部區域特征

為了得到動作特征,首先從源數據集文本中提取動詞,并構建出一個新的動詞詞匯表。在該詞匯表下,將視頻片段作為輸入,訓練一個 3D 的卷積網絡。最后用這個 3D 網絡的提取到的特征作為動作特征輸入。而該網絡的預測結果將是 ActBERT 分類預測時所對應的標簽。?

為了得到局部特征,ActBERT 使用在 COCO上 預訓練的 Faster R-CNN 在視頻幀上產生物體候選框,每幀僅保留部分候選框以減少冗余,這些候選框對應的特征將作為網絡輸入,而候選框在 COCO 上的類別分布將作為 ActBERT 預測類別。

ActBERT對三種模態的建模方式

剛剛講到,ActBERT 有三種模態輸入,即全局動作,局部區域和語言描述。

ActBERT 設計了一種全新的糾纏編碼模塊從三個來源進行多模態特征學習,以增強兩個視覺輸入和語言之間的互動功能。該糾纏編碼模塊,在全局動作信息的指導下,對語言模型注入了視覺信息,并將語言信息整合到視覺模型中。糾纏編碼器動態選擇合適的上下文以促進目標預測。簡單來說,糾纏編碼器利用動作信息催化局部區域與文字的相互關聯。

▲?三輸入的糾纏編碼器

該編碼器引入了兩個多頭注意力模塊,每個模塊都將動作作為 query,從文字輸入或區域輸入中分別獲取相關信息,并將輸出作為另外一個模態的輸入。具體操作如下:

ActBERT訓練方式建模方式

類似于常用的 BERT 訓練方式,ActBERT 有四個訓練任務:

第一、有掩碼的語言建模任務。利用區域物體和全局動作中的視覺信號,發現視覺和語言實體之間的關系。該任務迫使模型從上下文描述中學習,同時提取相關的視覺特征以協助文本預測。當動詞被去除時,模型應該利用動作特征來更準確預測。當描述局部的名詞被去除時,本地區域特征可以提供更多的上下文信息。

第二、有掩碼的動作分類任務。這個任務是根據語言和物體特征,預測被去除的動作標簽。明確的動作預測可以有兩方面的好處:1)長時期動作序列線索可以被挖掘,該任務可以更好地分辨執行動作時的時間順序;2)利用區域物體和語言文本可以獲得更好的跨模態建模,該任務可以增強預訓練模型中的動作識別能力,可以進一步推廣到許多下游任務。

第三、有掩碼的物體分類任務。在該任務中,局部區域對象特征被隨機去除。其目標分布為將該區域輸入到相同的目標檢測模型得到的激活值。優化目標是最小化兩種分布之間的 KL 差異。?

第四、跨模式匹配。與下一個句子預測(NSP)任務類似,在第一個符號 [CLS] 的輸出后加入了一個線性分類器,用來指示語言與視覺特征的相關性。如果分數較高,表明文本很好地描述了視頻片段。

實驗結果

ActBERT 在 HowTo100M 數據集上進行預訓練。該數據集涵蓋了總計 23,611 項任務,例如維護和修理、動物營救、準備食材等。在五個任務上評測了 ActBERT 的性能,結果顯示 ActBERT 在所有評測任務上都獲得了大幅度的性能提升。

視頻描述生成實驗結果

ActBERT 在所有指標上均優于 VideoBERT,表明預訓練學習到更好的視頻表示,也表明 ActBERT 對視頻序列建模的有效性。

動作分割實驗結果

ActBERT 明顯優于基準方法。它表明預訓練的 ActBERT 可以僅處理視覺。當刪除區域信息時,可以觀察到性能下降了,表明詳細的局部線索對于密集視頻幀標記任務有重要作用。

動作步驟定位實驗結果

ActBERT 的表現明顯優于 TVJE,即平均提升有 7%。這個結果甚至比監督學習的性能還要好。為了與 TVJE 有公平的對比,本文刪除了局部區域信息,這個結果也明顯優于 TVJE,證明 ActBERT 預訓練的有效性。完整 ActBERT 模型進一步提高了 4%。

文本視頻片段檢索與視頻問答實驗結果

不需要復雜的聯合視頻文本建模,ActBERT 明顯優于現有其他方法。表明 ActBERT 在大規模數據集上的強大學習能力。

結論

在?ActBERT 像其他視頻文字建模方式一樣,展現了自監督視頻文字建模強大的特征學習能力,并提升下游任務。未來的工作有:

1. 在細粒度動作分類上驗證模型性能;

2. 改善超大規模訓練過程中效率的問題;

3. 進一步改進多模態編碼器的結構,提升多模態編碼器的泛化能力;

4. 在更多域進行評測(如娛樂短視頻),驗證預訓練模型在不同域之間的遷移能力。

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的CVPR 2020 | ActBERT: 自监督多模态视频文字学习的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。