CVPR 2020 | ActBERT: 自监督多模态视频文字学习
?PaperWeekly ·?作者|朱霖潮
單位|悉尼科技大學
研究方向|視頻理解
自監督特征學習近年來已有如火如荼的發展,并從單模態的自監督學習,如圖片自監督特征學習,視頻自監督特征學習,蔓延到多模態,利用圖片與文字或者視頻與文字的關聯性進行特征學習。?
利用圖片與文字關聯性進行自監督學習已有非常多優秀的工作,如 Vilbert, LXMERT, VisualBERT, VLBERT, UNITER, Unified VLP 等等。這類工作的數據源一般是 Conceptual Captions 或 SBU Captions,且圖片文字對往往是從網站中已有的數據自動抓取得到,無須額外的標注成本。通過圖片與文字無監督的關聯,這些模型在許多下游任務已取得明顯提升。?
視頻與文字自監督學習在最近也有一定的進展。這種自監督學習方法對下游任務也有顯著提升。相比于圖片與文字,視頻與文字自監督學習或許可以在更多應用場景得到使用,如最近比較火的短視頻推薦,或細粒度動作理解等。
論文標題:ActBERT: Learning Global-Local Video-Text Representations
論文鏈接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf
問題背景
與圖片文字類似,視頻與文字自監督學習也需要大量的關聯數據,其中一種比較好的數據源就是教學視頻(instructional videos)。在教學視頻中,視頻創作者往往在講述一個具體任務的完成過程,其中會詳細描述所見的視頻內容。
舉個例子,在教做菜的視頻中,視頻創作者會描述,“開始切胡蘿卜”,往往人物也是在正進行“切胡蘿卜”的動作。這種天然的視覺對應關系,是進行視頻文字自監督學習的重要要素。其中文字描述可以通過自動語音識別技術(ASR)從視頻中或從創作者上傳的字幕中提取文字。這樣成對的視頻文字數據就產生了。?
教學視頻的另外一個優點就是來源豐富,包括做菜,修理日常用品,寵物護理,個人愛好等等。這種多種多樣的人類日常生活數據,有助于協助很多人類日常行為或社交行為的理解。?
ICCV 2019 上的一篇論文 HowTo100M,收集了一百二十多萬個的視頻,并從中切出了 1 億 3 千多萬的視頻片段進行無監督或自監督的視頻文字關聯。該論文使用一個非常簡單的排序損失函數進行視頻文字建模,但這種方式學習到的特征在許多下游任務上都能顯著提升性能??梢娫诖笠幠祿M行視頻文字建模是提升具體任務的一種比較好的思路。
ActBERT
同樣在 ICCV 2019 上,VideoBERT 率先使用 BERT 的訓練方式進行視頻與文本的關聯學習,并將視頻幀作為視覺單詞輸入 BERT 網絡。為了解決視覺特征無法做分類預測的問題,VideoBERT 使用了 hierachical k-means 的方法將視覺特征進行離散化,這樣每個數據特征都對應一個離散的視覺中心。
然而一個視覺中心可能無法很好的同時描述局部和全局視覺內容,比如表示視頻片段的動作和局部交互的物體。從而使得該方法無法進行更好地視頻與文字匹配,比如文字”steak“與其視頻內容的關聯。?
為了解決上述問題,即同時進行文字與動作和局部區域的視覺輸入關聯,ActBERT 提出了一個簡單的思路,就是在輸入層同時加入全局動作特征與局部區域特征。
▲ 在輸入層,引入動作特征與局部區域特征
為了得到動作特征,首先從源數據集文本中提取動詞,并構建出一個新的動詞詞匯表。在該詞匯表下,將視頻片段作為輸入,訓練一個 3D 的卷積網絡。最后用這個 3D 網絡的提取到的特征作為動作特征輸入。而該網絡的預測結果將是 ActBERT 分類預測時所對應的標簽。?
為了得到局部特征,ActBERT 使用在 COCO上 預訓練的 Faster R-CNN 在視頻幀上產生物體候選框,每幀僅保留部分候選框以減少冗余,這些候選框對應的特征將作為網絡輸入,而候選框在 COCO 上的類別分布將作為 ActBERT 預測類別。
ActBERT對三種模態的建模方式
剛剛講到,ActBERT 有三種模態輸入,即全局動作,局部區域和語言描述。
ActBERT 設計了一種全新的糾纏編碼模塊從三個來源進行多模態特征學習,以增強兩個視覺輸入和語言之間的互動功能。該糾纏編碼模塊,在全局動作信息的指導下,對語言模型注入了視覺信息,并將語言信息整合到視覺模型中。糾纏編碼器動態選擇合適的上下文以促進目標預測。簡單來說,糾纏編碼器利用動作信息催化局部區域與文字的相互關聯。
▲?三輸入的糾纏編碼器
該編碼器引入了兩個多頭注意力模塊,每個模塊都將動作作為 query,從文字輸入或區域輸入中分別獲取相關信息,并將輸出作為另外一個模態的輸入。具體操作如下:
ActBERT訓練方式建模方式
類似于常用的 BERT 訓練方式,ActBERT 有四個訓練任務:
第一、有掩碼的語言建模任務。利用區域物體和全局動作中的視覺信號,發現視覺和語言實體之間的關系。該任務迫使模型從上下文描述中學習,同時提取相關的視覺特征以協助文本預測。當動詞被去除時,模型應該利用動作特征來更準確預測。當描述局部的名詞被去除時,本地區域特征可以提供更多的上下文信息。
第二、有掩碼的動作分類任務。這個任務是根據語言和物體特征,預測被去除的動作標簽。明確的動作預測可以有兩方面的好處:1)長時期動作序列線索可以被挖掘,該任務可以更好地分辨執行動作時的時間順序;2)利用區域物體和語言文本可以獲得更好的跨模態建模,該任務可以增強預訓練模型中的動作識別能力,可以進一步推廣到許多下游任務。
第三、有掩碼的物體分類任務。在該任務中,局部區域對象特征被隨機去除。其目標分布為將該區域輸入到相同的目標檢測模型得到的激活值。優化目標是最小化兩種分布之間的 KL 差異。?
第四、跨模式匹配。與下一個句子預測(NSP)任務類似,在第一個符號 [CLS] 的輸出后加入了一個線性分類器,用來指示語言與視覺特征的相關性。如果分數較高,表明文本很好地描述了視頻片段。
實驗結果
ActBERT 在 HowTo100M 數據集上進行預訓練。該數據集涵蓋了總計 23,611 項任務,例如維護和修理、動物營救、準備食材等。在五個任務上評測了 ActBERT 的性能,結果顯示 ActBERT 在所有評測任務上都獲得了大幅度的性能提升。
視頻描述生成實驗結果
ActBERT 在所有指標上均優于 VideoBERT,表明預訓練學習到更好的視頻表示,也表明 ActBERT 對視頻序列建模的有效性。
動作分割實驗結果
ActBERT 明顯優于基準方法。它表明預訓練的 ActBERT 可以僅處理視覺。當刪除區域信息時,可以觀察到性能下降了,表明詳細的局部線索對于密集視頻幀標記任務有重要作用。
動作步驟定位實驗結果
ActBERT 的表現明顯優于 TVJE,即平均提升有 7%。這個結果甚至比監督學習的性能還要好。為了與 TVJE 有公平的對比,本文刪除了局部區域信息,這個結果也明顯優于 TVJE,證明 ActBERT 預訓練的有效性。完整 ActBERT 模型進一步提高了 4%。
文本視頻片段檢索與視頻問答實驗結果
不需要復雜的聯合視頻文本建模,ActBERT 明顯優于現有其他方法。表明 ActBERT 在大規模數據集上的強大學習能力。
結論
在?ActBERT 像其他視頻文字建模方式一樣,展現了自監督視頻文字建模強大的特征學習能力,并提升下游任務。未來的工作有:
1. 在細粒度動作分類上驗證模型性能;
2. 改善超大規模訓練過程中效率的問題;
3. 進一步改進多模態編碼器的結構,提升多模態編碼器的泛化能力;
4. 在更多域進行評測(如娛樂短視頻),驗證預訓練模型在不同域之間的遷移能力。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的CVPR 2020 | ActBERT: 自监督多模态视频文字学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 香烟盒底部的钢印代表什么意思?
- 下一篇: 苹果 Vision Pro 沉浸式影片《