當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Video Question Answering综述

發布時間：2025/3/15 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 Video Question Answering综述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

引言

? ? ? ?視頻問答是視覺語言領域較為新興的一個課題，需要根據視頻內容和問題進行分析，得出問題的答案。根據回答形式，可分為：一、選擇型視頻問答；二、開放型視頻問答。根據方法的提出時間，可以構建出如下時間線：

2014 MM JVTP-UEAQ[1]
2015 arXiv GRU[2]
2016 CVPR MovieQA[3]
2017 CVPR MovieFIB[4]
2017 CVPR TGIF-QA[5]
2017 AAAI E4M[6]
2017 IJCAI r-STAN[7]
2017 ACMMM AMU[8]
2017 ACMMM DLAN[9]
2017 SIGIR ANL[10]
2018 CVPR Co-memory[11]
2018 ACMMM SVQA[12]
2018 EMNLP TVQA[13]
2019 AAAI PSAC[14]
2019 AAAI STA[15]
2019 CVPR HMEMAM[16]
2019 CVPR PAMN[17]
2019 IJCAI HCSA[18]
2019 IJCNN MTL[19]
2019 ACMMM LAD-Net[20]
2019 ACMMM Multi-interaction Network[21]
2019 ACMMM TSN[22]
2019 TIP CAN[23]
2019 TIP HMMN[24]
2020 ECCV ROLL[25]
2020 TIP VQA-HMAL[26]
2020 WACV BERTVideoQA[27]

? ? ? ?下面，對上述提到的方法按照其所屬類別，依次進行介紹。

選擇型視頻問答

圖1 選擇型視頻問答[13]

? ? ? ?圖1是選擇型視頻問答的一個簡單示例，這類視頻問答會提供用于回答問題的幾個備選答案，模型需要從備選答案中選出正確答案。
? ? ? ?2015年，Zhu等人[2]構建了一個具有390744個填空問題的視頻問答數據集，這些問題是基于其他手動創建的Video Caption數據集自動生成的。并提出了一種編碼-解碼的方法來回答視頻中的多項選擇題。2016年，Tapaswi等人[3]提出一個使用與電影相關的視頻和文本資源的、基于故事理解的問答數據集MovieQA。它由408部字幕電影組成，這些電影摘要來自維基百科，劇本來自互聯網電影腳本數據庫 (IMSDb)。此數據集共有14944個問題，并且問題的回答很大程度上依賴于電影片段所提供的文本信息，主要側重于對故事的理解。2018年，Lei等人[13]提出TVQA數據集，合并了已有視頻問答數據集中的高質量數據，并主要關注多模態組合性。TVQA數據集包括和21793個視頻片段相關的152545個QA pair，總視頻時長超過460小時。2019年，Kim等人[19]通過使用多任務學習在視頻問答任務中引入額外的監督信息，并結合課程學習提出了多任務比率調節方法，先學習較為容易的任務。同年，Yang等人[22]提出使用MIX模塊同時聯合外觀和運動表示，實現了細粒度的時間對齊與外觀和運動的對應，并通過SWITCH模塊在每個推理步驟中，自適應地選擇外觀和運動信息進行指導。同年，Wang等人[24]提出整體多模態記憶網絡，充分考慮不同模態（多模態上下文、問題、答案選項）之間的相互作用，以達到信息的合理利用。2020年，Garcia等人[25]提出了一種基于視頻場景圖生成視頻描述的無監督視頻表示方法，將視頻場景的具體細節和弱監督的外部知識結合起來，更加深入的理解視頻故事。同一年，Yang等人[27]在視頻問答中引入了BERT模型，將視覺概念和字幕分別和問題、候選答案聯合，再基于預訓練的BERT模型分別進行處理。

開放型視頻問答

圖2 開放型視頻問答[5]

? ? ? ?圖2是開放型視頻問答的一個簡單示例，這類視頻問答不會提供備選答案，需要模型自行生成問題的答案。
? ? ? ?2014年，Tu等人[1]基于文本和視頻的聯合解析圖構建了一個查詢回答系統[1]，但是在當時沒有引起廣泛關注。2017年，Maharaj等人[4]提出了第一個開放型視頻問答數據集MovieFIB，具有有超過30萬個數據樣本。和MovieFIB同一年，Zeng等人[6]不依賴手工構建了一個視頻問答數據集，并使用自步學習在此數據集上進行訓練，以應對那些不相關的QA pair。本文提出了四種模型來解決VideoQA任務，這四種模型都是從用于其他任務(如視頻字幕和ImageQA)的模型擴展而來的。同年，Zhao等人[7]提出了從目標的關鍵視頻幀中學習聯合表示的時空注意網絡，并將所提出的時空注意網絡的多步驟推理過程整合到一起，實現了漸進的聯合表示學習，進一步提高視頻問題回答的性能。2017年，Xu等人[8]提出了端到端的AMU模型，以問題作為指導，逐步細化對視頻外觀和運動特征的關注，問題被逐單詞處理，直到模型產生最終的注意力。同一年，Zhao等人[9]從分層雙層次注意力網絡的視角出發，采用frame-level和segment-level的特征表示方法來獲取視頻中物體的外觀和運動信息，并通過基于word-level和question-level注意力機制的分層dual-level注意力網絡來學習基于問題的視頻表示，可以有效的建模視頻的動態性。2018年，針對現有視頻問答數據集中缺乏邏輯結構且具有語言偏置的問題，Song等人[12]提出了新的視頻問答benchmark——SVQA，專門包含一些長的、目標間具有多種關系的結構化問題。2019年，Zhang等人[18]使用層次化卷積自注意力編碼器對長時視頻序列進行建模，并基于多尺度注意力解碼器得到答案。同年，Yu等人[23]提出組成注意力網絡，基于雙流機制對視頻片段進行采樣，為每個流提取一組視覺特征表示視頻的語義信息，再通過組成注意力模塊對雙流特征進行聚合，在長時視頻問答上具有較好的結果。2020年，Zhao等人[26]使用分層注意力編碼網絡學習長時視頻內容和問題的聯合表示，并通過多模態條件對抗網絡進行解碼，最終得到答案。

選擇型、開放型均可的視頻問答

? ? ? ?選擇型視頻問答和開放型視頻問答其實只有問答形式上的區別，很多方法在這兩類任務上均適用，并有著不錯的結果。
? ? ? ?2017年，Jang等人[5]將QA從圖像領域拓展到了視頻領域，并將VideoQA任務更加細分為三種不同的子任務：①重復計數；②重復動作；③狀態轉換。Jang等人構造了TGIF-QA數據集，共包含57K個GIFs和104K個QA pair，包括選擇型QA pair和開放型QA pair。同年，Ye等人[10]使用frame-level注意力機制建模視頻的時序內容，并提出了屬性增強注意力網絡學習框架，實現了視頻問答的frame-level屬性檢測和統一的視頻表示學習，在選擇型視頻問答和開放型視頻問答中均取得了不錯的結果。2018年，Gao等人[11]分析了和視覺問答相比，視頻問答具有的三個特性：①視頻問答需要處理序列圖像信息，這包含更加豐富的信息；②運動和外觀信息存在聯系，并能給對方提供有用的注意力線索；③對于不同的問題，需要不同數量的幀來得到答案。基于這三個特性，Gao等人提出運動-外觀共同記憶網絡，使用時間卷積-反卷積架構建立多層次上下文信息，聯合運動和外觀信息得到注意力，并通過一種動態事實集成方法，動態地構造不同問題的時間表示。2019年，由于現有方法大多使用RNNs進行建模，降低了模型的速度，且難以建模長時依賴。Li等人[14]提出了基于聯合注意力的位置自注意力模型，可以建模全局依賴且提高了模型的速度。同年，Gao等人[15]提出STA模型，使用結構化雙流注意力網絡共同關注視頻和文本的空間和長時時間信息來得出準確的答案。同一年，Fan等人[16]提出使用異構記憶從運動特征和外觀特征中學習全局上下文信息，設計了全新的問題記憶模塊用于幫助模型理解問題中的復雜語義信息、突出查詢對象，并設計了多模態融合層，通過將相關的視覺內容和關鍵問題詞對齊同時處理兩種模態的信息。2019年，Kim等人[17]提出漸進式注意力記憶網絡用于電影故事問答任務。主要應對此任務中的兩個挑戰：①如何在普遍超過1小時時長的電影中找出與回答當前問題相關的時間片段；②如何合理利用視頻和字幕兩種模態進行回答。作者使用漸進式注意力機制，利用問題和答案中的信息逐步清楚記憶中不相關的時間片段，并提出動態模態融合機制，自適應地確定每個模態對回答當前問題的貢獻。同年，Jin等人[21]提出多重交互網絡Multi-interaction network，使用注意力機制學習視覺、語言兩種模態的信息。其中，本文提出的注意力機制可以同時捕獲element-wise和segment-wise的序列交互。并通過考慮物體的關系捕獲更加細粒度的時空信息。2019年，Li等人[20]提出多路徑金字塔聯合注意力結構同時對兩種模態的信息進行建模，并提出一種可學習的、非RNN結構的聚集方法，對視頻中不同幀的特征進行聚集。

結論

? ? ? ?從上文中可以看出，視頻問答領域主要存在以下問題需要解決：

如何表示視頻，需要一個合理的視頻建模方法，能夠提取外觀信息和運動信息；
如何根據問題找出視頻中相關的片段并對回答問題的過程進行指導；
多模態信息對齊和融合問題；

? ? ? ?雖然視覺語言領域中許多任務已經解決的很不錯了，但是視頻問答任務在準確率上還不盡人意，需要我們不斷努力！

參考文獻

Tu K, Meng M, Lee M W, et al. Joint video and text parsing for understanding events and answering queries[J]. IEEE MultiMedia, 2014, 21(2): 42-70.

Zhu L, Xu Z, Yang Y, et al. Uncovering the temporal context for video question answering[J]. International Journal of Computer Vision, 2017, 124(3): 409-421.

Tapaswi M, Zhu Y, Stiefelhagen R, et al. Movieqa: Understanding stories in movies through question-answering[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4631-4640.

Maharaj T, Ballas N, Rohrbach A, et al. A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6884-6893.

Jang Y, Song Y, Yu Y, et al. Tgif-qa: Toward spatio-temporal reasoning in visual question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2758-2766.

Zeng K H, Chen T H, Chuang C Y, et al. Leveraging video descriptions to learn video question answering[J]. arXiv preprint arXiv:1611.04021, 2016.

Zhao Z, Yang Q, Cai D, et al. Video Question Answering via Hierarchical Spatio-Temporal Attention Networks[C]//IJCAI. 2017: 3518-3524.

Xu D, Zhao Z, Xiao J, et al. Video question answering via gradually refined attention over appearance and motion[C]//Proceedings of the 25th ACM international conference on Multimedia. 2017: 1645-1653.

Zhao Z, Lin J, Jiang X, et al. Video question answering via hierarchical dual-level attention network learning[C]//Proceedings of the 25th ACM international conference on Multimedia. 2017: 1050-1058.

Ye Y, Zhao Z, Li Y, et al. Video question answering via attribute-augmented attention network learning[C]//Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval. 2017: 829-832.

Gao J, Ge R, Chen K, et al. Motion-appearance co-memory networks for video question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6576-6585.

Song X, Shi Y, Chen X, et al. Explore multi-step reasoning in video question answering[C]//Proceedings of the 26th ACM international conference on Multimedia. 2018: 239-247.

Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.

Li X, Song J, Gao L, et al. Beyond rnns: Positional self-attention with co-attention for video question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 8658-8665.

Gao L, Zeng P, Song J, et al. Structured two-stream attention network for video question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 6391-6398.

Fan C, Zhang X, Zhang S, et al. Heterogeneous memory enhanced multimodal attention model for video question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1999-2007.

Kim J, Ma M, Kim K, et al. Progressive attention memory network for movie story question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 8337-8346.

Zhao Z, Zhang Z, Xiao S, et al. Open-Ended Long-form Video Question Answering via Adaptive Hierarchical Reinforced Networks[C]//IJCAI. 2018: 3683-3689.

Kim J, Ma M, Kim K, et al. Gaining extra supervision via multi-task learning for multi-modal video question answering[C]//2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019: 1-8.

Xiangpeng Li, Lianli Gao, Xuanhan Wang, Wu Liu, Xing Xu, Heng Tao Shen, and Jingkuan Song. 2019. Learnable Aggregating Net with Diversity Learning for Video Question Answering. In Proceedings of the 27th ACM International Conference on Multimedia (MM '19). Association for Computing Machinery, New York, NY, USA, 1166–1174. DOI:https://doi.org/10.1145/3343031.3350971

Jin W, Zhao Z, Gu M, et al. Multi-interaction network with object relation for video question answering[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 1193-1201.

Yang T, Zha Z J, Xie H, et al. Question-aware tube-switch network for video question answering[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 1184-1192.

Yu T, Yu J, Yu Z, et al. Compositional attention networks with two-stream fusion for video question answering[J]. IEEE Transactions on Image Processing, 2019, 29: 1204-1218.

Wang A, Luu A T, Foo C S, et al. Holistic multi-modal memory network for movie question answering[J]. IEEE Transactions on Image Processing, 2019, 29: 489-499.

Garcia N, Nakashima Y. Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions[J]. arXiv preprint arXiv:2007.08751, 2020.

Zhao Z, Xiao S, Song Z, et al. Open-Ended Video Question Answering via Multi-Modal Conditional Adversarial Networks[J]. IEEE Transactions on Image Processing, 2020, 29: 3859-3870.

Yang Z, Garcia N, Chu C, et al. BERT Representations for Video Question Answering[C]//The IEEE Winter Conference on Applications of Computer Vision. 2020: 1556-1565.

總結

以上是生活随笔為你收集整理的Video Question Answering综述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：基于深度学习的目标检测方法综述
下一篇： ECCV 2020《TRRNet: Ti