當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2020 | ActBERT: 自监督多模态视频文字学习

發布時間：2024/10/8 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2020 | ActBERT: 自监督多模态视频文字学习小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly ·?作者｜朱霖潮

單位｜悉尼科技大學

研究方向｜視頻理解

自監督特征學習近年來已有如火如荼的發展，并從單模態的自監督學習，如圖片自監督特征學習，視頻自監督特征學習，蔓延到多模態，利用圖片與文字或者視頻與文字的關聯性進行特征學習。?

利用圖片與文字關聯性進行自監督學習已有非常多優秀的工作，如 Vilbert, LXMERT, VisualBERT, VLBERT, UNITER, Unified VLP 等等。這類工作的數據源一般是 Conceptual Captions 或 SBU Captions，且圖片文字對往往是從網站中已有的數據自動抓取得到，無須額外的標注成本。通過圖片與文字無監督的關聯，這些模型在許多下游任務已取得明顯提升。?

視頻與文字自監督學習在最近也有一定的進展。這種自監督學習方法對下游任務也有顯著提升。相比于圖片與文字，視頻與文字自監督學習或許可以在更多應用場景得到使用，如最近比較火的短視頻推薦，或細粒度動作理解等。

論文標題：ActBERT: Learning Global-Local Video-Text Representations

論文鏈接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf

問題背景

與圖片文字類似，視頻與文字自監督學習也需要大量的關聯數據，其中一種比較好的數據源就是教學視頻（instructional videos）。在教學視頻中，視頻創作者往往在講述一個具體任務的完成過程，其中會詳細描述所見的視頻內容。

舉個例子，在教做菜的視頻中，視頻創作者會描述，“開始切胡蘿卜”，往往人物也是在正進行“切胡蘿卜”的動作。這種天然的視覺對應關系，是進行視頻文字自監督學習的重要要素。其中文字描述可以通過自動語音識別技術（ASR）從視頻中或從創作者上傳的字幕中提取文字。這樣成對的視頻文字數據就產生了。?

教學視頻的另外一個優點就是來源豐富，包括做菜，修理日常用品，寵物護理，個人愛好等等。這種多種多樣的人類日常生活數據，有助于協助很多人類日常行為或社交行為的理解。?

ICCV 2019 上的一篇論文 HowTo100M，收集了一百二十多萬個的視頻，并從中切出了 1 億 3 千多萬的視頻片段進行無監督或自監督的視頻文字關聯。該論文使用一個非常簡單的排序損失函數進行視頻文字建模，但這種方式學習到的特征在許多下游任務上都能顯著提升性能?？梢娫诖笠幠祿M行視頻文字建模是提升具體任務的一種比較好的思路。

ActBERT

同樣在 ICCV 2019 上，VideoBERT 率先使用 BERT 的訓練方式進行視頻與文本的關聯學習，并將視頻幀作為視覺單詞輸入 BERT 網絡。為了解決視覺特征無法做分類預測的問題，VideoBERT 使用了 hierachical k-means 的方法將視覺特征進行離散化，這樣每個數據特征都對應一個離散的視覺中心。

然而一個視覺中心可能無法很好的同時描述局部和全局視覺內容，比如表示視頻片段的動作和局部交互的物體。從而使得該方法無法進行更好地視頻與文字匹配，比如文字”steak“與其視頻內容的關聯。?

為了解決上述問題，即同時進行文字與動作和局部區域的視覺輸入關聯，ActBERT 提出了一個簡單的思路，就是在輸入層同時加入全局動作特征與局部區域特征。

▲ 在輸入層，引入動作特征與局部區域特征

為了得到動作特征，首先從源數據集文本中提取動詞，并構建出一個新的動詞詞匯表。在該詞匯表下，將視頻片段作為輸入，訓練一個 3D 的卷積網絡。最后用這個 3D 網絡的提取到的特征作為動作特征輸入。而該網絡的預測結果將是 ActBERT 分類預測時所對應的標簽。?

為了得到局部特征，ActBERT 使用在 COCO上預訓練的 Faster R-CNN 在視頻幀上產生物體候選框，每幀僅保留部分候選框以減少冗余，這些候選框對應的特征將作為網絡輸入，而候選框在 COCO 上的類別分布將作為 ActBERT 預測類別。

ActBERT對三種模態的建模方式

剛剛講到，ActBERT 有三種模態輸入，即全局動作，局部區域和語言描述。

ActBERT 設計了一種全新的糾纏編碼模塊從三個來源進行多模態特征學習，以增強兩個視覺輸入和語言之間的互動功能。該糾纏編碼模塊，在全局動作信息的指導下，對語言模型注入了視覺信息，并將語言信息整合到視覺模型中。糾纏編碼器動態選擇合適的上下文以促進目標預測。簡單來說，糾纏編碼器利用動作信息催化局部區域與文字的相互關聯。

▲?三輸入的糾纏編碼器

該編碼器引入了兩個多頭注意力模塊，每個模塊都將動作作為 query，從文字輸入或區域輸入中分別獲取相關信息，并將輸出作為另外一個模態的輸入。具體操作如下：

ActBERT訓練方式建模方式

類似于常用的 BERT 訓練方式，ActBERT 有四個訓練任務：

第一、有掩碼的語言建模任務。利用區域物體和全局動作中的視覺信號，發現視覺和語言實體之間的關系。該任務迫使模型從上下文描述中學習，同時提取相關的視覺特征以協助文本預測。當動詞被去除時，模型應該利用動作特征來更準確預測。當描述局部的名詞被去除時，本地區域特征可以提供更多的上下文信息。

第二、有掩碼的動作分類任務。這個任務是根據語言和物體特征，預測被去除的動作標簽。明確的動作預測可以有兩方面的好處：1）長時期動作序列線索可以被挖掘，該任務可以更好地分辨執行動作時的時間順序；2）利用區域物體和語言文本可以獲得更好的跨模態建模，該任務可以增強預訓練模型中的動作識別能力，可以進一步推廣到許多下游任務。

第三、有掩碼的物體分類任務。在該任務中，局部區域對象特征被隨機去除。其目標分布為將該區域輸入到相同的目標檢測模型得到的激活值。優化目標是最小化兩種分布之間的 KL 差異。?

第四、跨模式匹配。與下一個句子預測（NSP）任務類似，在第一個符號 [CLS] 的輸出后加入了一個線性分類器，用來指示語言與視覺特征的相關性。如果分數較高，表明文本很好地描述了視頻片段。

實驗結果

ActBERT 在 HowTo100M 數據集上進行預訓練。該數據集涵蓋了總計 23,611 項任務，例如維護和修理、動物營救、準備食材等。在五個任務上評測了 ActBERT 的性能，結果顯示 ActBERT 在所有評測任務上都獲得了大幅度的性能提升。

視頻描述生成實驗結果

ActBERT 在所有指標上均優于 VideoBERT，表明預訓練學習到更好的視頻表示，也表明 ActBERT 對視頻序列建模的有效性。

動作分割實驗結果

ActBERT 明顯優于基準方法。它表明預訓練的 ActBERT 可以僅處理視覺。當刪除區域信息時，可以觀察到性能下降了，表明詳細的局部線索對于密集視頻幀標記任務有重要作用。

動作步驟定位實驗結果

ActBERT 的表現明顯優于 TVJE，即平均提升有 7％。這個結果甚至比監督學習的性能還要好。為了與 TVJE 有公平的對比，本文刪除了局部區域信息，這個結果也明顯優于 TVJE，證明 ActBERT 預訓練的有效性。完整 ActBERT 模型進一步提高了 4％。

文本視頻片段檢索與視頻問答實驗結果

不需要復雜的聯合視頻文本建模，ActBERT 明顯優于現有其他方法。表明 ActBERT 在大規模數據集上的強大學習能力。

結論

在?ActBERT 像其他視頻文字建模方式一樣，展現了自監督視頻文字建模強大的特征學習能力，并提升下游任務。未來的工作有：

1. 在細粒度動作分類上驗證模型性能；

2. 改善超大規模訓練過程中效率的問題；

3. 進一步改進多模態編碼器的結構，提升多模態編碼器的泛化能力；

4. 在更多域進行評測（如娛樂短視頻），驗證預訓練模型在不同域之間的遷移能力。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的CVPR 2020 | ActBERT: 自监督多模态视频文字学习的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：香烟盒底部的钢印代表什么意思?
下一篇：苹果 Vision Pro 沉浸式影片《