分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析
分層條件關(guān)系網(wǎng)絡(luò)在視頻問答VideoQA中的應(yīng)用:CVPR2020論文解析
Hierarchical Conditional Relation Networks
for Video Question Answering
論文鏈接:https://arxiv.org/pdf/2002.10698.pdf
摘要
視頻問答(VideoQA)具有挑戰(zhàn)性,因為它需要建模能力來提取動態(tài)視覺偽影和遠距離關(guān)系,并將它們與語言概念相關(guān)聯(lián)。本文介紹了一種通用的可重復(fù)使用的神經(jīng)單元,稱為條件關(guān)系網(wǎng)絡(luò)(CRN),它作為構(gòu)建塊來構(gòu)建更復(fù)雜的視頻表示和推理結(jié)構(gòu)。CRN以一個張量對象數(shù)組和一個條件特征作為輸入,并計算一個編碼輸出對象數(shù)組。模型構(gòu)建成為這些可重用單元的復(fù)制、重新排列和堆疊的簡單練習,用于不同的模式和上下文信息。因此,該設(shè)計支持高階關(guān)系和多步推理。VideoQA的最終架構(gòu)是一個CRN層次結(jié)構(gòu),其分支表示子視頻或剪輯,所有分支都與上下文條件共享相同的問題。本文對知名數(shù)據(jù)集的評估取得了新的SoTA結(jié)果,展示了在復(fù)雜領(lǐng)域(如VideoQA)上構(gòu)建通用推理單元的影響。
Introduction
回答關(guān)于視頻的自然問題是認知能力的有力證明。該任務(wù)涉及在語言線索的合成語義指導(dǎo)下獲取和操作時空視覺表征[7,17,20,30,33,36]。由于問題可能不受約束,VideoQA需要深入的建模能力,以分層方式編碼和表示關(guān)鍵的視頻屬性,如對象持久性、運動pro-files、長時間動作和可變長度時間關(guān)系。對于VideoQA來說,理想情況下,可視化表示應(yīng)該是特定的問題并準備好答案。
目前用于QA視頻建模的方法是構(gòu)建神經(jīng)架構(gòu),其中每個子系統(tǒng)要么是為特定的定制目的設(shè)計的,要么是為特定的數(shù)據(jù)模式設(shè)計的。由于這種特殊性,這種手工構(gòu)建的體系結(jié)構(gòu)對于數(shù)據(jù)形態(tài)的變化[17]、不同的視頻長度[24]或問題類型(如幀QA[20]與動作計數(shù)[6])往往是最佳的。這導(dǎo)致了異構(gòu)網(wǎng)絡(luò)的激增。
在這項工作中,本文提出了一個通用的可重復(fù)使用的神經(jīng)單元,稱為條件關(guān)系網(wǎng)絡(luò)(CRN),它將對象數(shù)組封裝并轉(zhuǎn)換成一個新的基于上下文特征的數(shù)組。該單元計算輸入對象之間的稀疏高階關(guān)系,然后通過特定上下文調(diào)制編碼(參見圖2)。CRN的靈活性及其封裝設(shè)計使得它可以被復(fù)制和分層,以直接的方式形成深層的條件關(guān)系網(wǎng)絡(luò)(HCRN)。
因此,疊層單元提供了視頻對象關(guān)系知識的語境化重新定義——以階段性的方式,它將外觀特征與剪輯活動流和語言語境相結(jié)合,并通過整合整個視頻運動和語言特征的語境進行跟蹤。由此產(chǎn)生的HCRN是同質(zhì)的,符合網(wǎng)絡(luò)的設(shè)計理念,如InceptionNet[31]、ResNet[9]和FiLM[27]。
crn的層次結(jié)構(gòu)如下:在最低層次上,crn對剪輯中的幀外觀之間的關(guān)系進行編碼,并將剪輯運動作為上下文進行集成;該輸出在下一階段由crn進行處理,crn現(xiàn)在集成在語言上下文中;在下一階段,CRN捕獲剪輯編碼之間的關(guān)系,并作為上下文集成在視頻運動中;在最后階段,CRN將視頻編碼與語言特征作為上下文集成(參見圖3)。該模型通過允許crn分層堆疊,自然地支持視頻和關(guān)系推理中的分層結(jié)構(gòu)建模;通過允許分階段引入適當?shù)纳舷挛?#xff0c;該模型處理多模式融合和多步驟推理。
對于長視頻,可以添加進一步的層次結(jié)構(gòu)級別,以實現(xiàn)遠距離幀之間關(guān)系的編碼。本文展示了HCRN在回答主要視頻qa數(shù)據(jù)集中的問題的能力。四層CRN單元的層次結(jié)構(gòu)在所有的VideoQA任務(wù)中都能獲得良好的答案準確性。值得注意的是,它在涉及外貌、動作、狀態(tài)轉(zhuǎn)換、時間關(guān)系或動作重復(fù)的問題上一直表現(xiàn)良好,證明了模型可以分析和把所有這些渠道的信息結(jié)合起來。此外,HCRN可以很好地擴展到較長的視頻,只需添加一個額外的層。
圖1展示了幾個典型的例子,這些例子對于視覺問題交互的基線是困難的,但是可以通過本文的模型來處理。本文的模型和結(jié)果證明了建立支持本機多模態(tài)交互的通用神經(jīng)推理單元對提高VideoQA模型的魯棒性和泛化能力的影響。
- Related Work
本文提出的HCRN模型通過解決兩個關(guān)鍵挑戰(zhàn)來推進VideoQA的發(fā)展:
(1) 有效地將視頻表示為各種互補因素的混合體,包括外觀、運動和關(guān)系,以及
(2) 有效地允許這些視覺特征與語言查詢的交互。
Spatio-temporal video representation
本文的HCRN模型是在這些趨勢的基礎(chǔ)上發(fā)展起來的,它允許視頻信息的所有三個通道,即外觀、運動和關(guān)系,在分層多尺度框架的每一步中迭代地相互作用和補充。 HCRN將調(diào)節(jié)因子從已確定的信息中分離出來,因此它更有效,也更靈活地使操作者適應(yīng)調(diào)節(jié)類型。時間層次已經(jīng)被用于視頻分析[22],最近用遞歸網(wǎng)絡(luò)[25,1]和圖網(wǎng)絡(luò)[23]。然而,本文相信本文是第一個考慮多模式的層次交互,包括視頻問答的語言提示。
Linguistic query–visual feature interaction in VideoQA
HCRN模型支持將語言線索作為語境因素對視頻特征進行條件化處理。這使得語言線索比任何可用的方法都能更早、更深入地參與視頻呈現(xiàn)結(jié)構(gòu)。
Neural building blocks
在VideoQA領(lǐng)域之外,CRN單元與其他通用的神經(jīng)構(gòu)建塊共享神經(jīng)架構(gòu)一致性的理想,例如InceptionNet中的塊[31]、ResNet中的剩余塊[9]、RNN中的遞歸塊、影像中的條件線性層[27]和神經(jīng)矩陣網(wǎng)中的矩陣矩陣塊[5]。本文的CRN通過假設(shè)一個支持條件關(guān)系推理的數(shù)組到數(shù)組塊,并且可以重用來構(gòu)建視覺和語言處理中的其他用途的網(wǎng)絡(luò),從而顯著地背離了這些設(shè)計。
- Method
VideoQA的目標是根據(jù)一個自然問題q,從videoV中推斷出答案a。答案a可以在一個答案空間a中找到,該回答空間a是為開放式問題預(yù)先定義的一組可能的答案,或者在多選題的情況下,可以在一個候選答案列表中找到。形式上,VideoQA可以表述如下:
Visual representation
Linguistic representation
通過這些表示,本文現(xiàn)在描述本文的新的VideoQA層次結(jié)構(gòu)(見圖3)。在第3.1節(jié)中,本文首先介紹了作為架構(gòu)構(gòu)建塊的核心組成計算單元。在下面的小節(jié)中,本文建議將F設(shè)計為一個逐層網(wǎng)絡(luò)架構(gòu),可以通過簡單地以特定方式堆疊核心單元來構(gòu)建。
3.1. Conditional Relation Network Unit
本文引入了一個可重用的計算單元,稱為條件關(guān)系網(wǎng)絡(luò)(CRN),它將n個對象的數(shù)組和一個條件特征c-都放在同一向量空間Rd或張量空間中作為輸入。CRN生成一個相同維度的對象的輸出數(shù)組,其中包含給定全局上下文的輸入特征的高階對象關(guān)系。在Alg算法中給出了CRN單元的運算1和圖2中的視覺效果。表1總結(jié)了這些演示文稿中使用的符號。
3.2. Hierarchical Conditional Relation Networks
本文使用CRN塊構(gòu)建一個深度網(wǎng)絡(luò)架構(gòu),利用視頻序列的內(nèi)在特征,即時間關(guān)系、運動和視頻結(jié)構(gòu)層次,并支持由語言問題引導(dǎo)的推理。本文將提出的網(wǎng)絡(luò)架構(gòu)稱為層次條件關(guān)系網(wǎng)絡(luò)(HCRN)(見圖3)。通過堆疊可重復(fù)使用的核心單元來設(shè)計HCRN的部分靈感來自于現(xiàn)代CNN網(wǎng)絡(luò)架構(gòu),其中InceptionNet[31]和ResNet[9]是最著名的例子。
3.3. Answer Decoders and Loss Functions
在[10,30,6]之后,本文根據(jù)任務(wù)采用不同的應(yīng)答解碼器。開放式問題被視為多標簽分類問題。為此,本文采用一個分類法,將檢索到的信息組合作為輸入。 對于多選題類型(如TGIF-QA中的重復(fù)動作和狀態(tài)轉(zhuǎn)換),每個候選答案的處理方式與問題相同。具體來說,本文使用共享參數(shù)HCRNs作為語言提示,無論是問題還是每個候選答案。
3.4. Complexity Analysis
本文在這里提供一個簡要的分析,留下詳細的衍生補充。對于固定采樣分辨率t,CRN的一次前向通過將花費kmax中的二次時間。對于長度n、特征尺寸F的輸入陣列,該單元產(chǎn)生具有相同特征尺寸的大小kmax-1的輸出陣列。HCRN的總體復(fù)雜性取決于每個CRN單元的設(shè)計選擇和CRN單元的具體布置。為了清楚起見,讓t=2和kmax=n-1,這在以后的實驗中被發(fā)現(xiàn)是有效的。假設(shè)有N個長度為T的剪輯,制作長度為L=NT的視頻。圖3的2級架構(gòu)需要2t LF時間計算最低層的crn,2NLF時間計算第二層,共2(T+N)LF時間。
- Experiments Results
4.1. Datasets
TGIF-QA datasets,MSVD-QA datasets,MSRVTT-QA datasets。
本文使用準確度作為所有實驗的評估指標,除了TGIF-QA數(shù)據(jù)集上應(yīng)用均方誤差(MSE)的重復(fù)計數(shù)。
4.2. Implementation Details
視頻被分割成8個片段,每個片段默認包含16個幀。MSRVTT-QA中的長視頻還被分割成24個片段,以評估處理非常長的序列的能力。除非另有說明,否則默認設(shè)置為圖3所示的2級HCRN,d=512,t=1。本文最初以的學習率訓練模型,每10個階段衰減一半。所有實驗在25個階段后終止,報告的結(jié)果在給出最佳驗證精度的階段。該模型的Pytorch實現(xiàn)可以在線獲得。
4.3. Results
TGIF-QA的結(jié)果匯總在表2中,MSVD-QA和MSRVTT-QA的結(jié)果匯總在圖4中。報告的競爭對手數(shù)量取自原始文件和[6]。很明顯,本文的模型在所有數(shù)據(jù)集的所有任務(wù)上都始終優(yōu)于或優(yōu)于SoTA模型。當需要強大的時間推理時,即TGIF-QA中涉及動作和轉(zhuǎn)換的問題時,這些改進尤其明顯。這些結(jié)果證實了同時考慮短期和長期時間關(guān)系對找到正確答案的重要性。
為了更深入地了解本文的模型,本文對TGIF-QA進行了廣泛的消融研究,并進行了廣泛的配置。結(jié)果見表4。全2級HCRN表示圖3的全模型,kmax=n?1,t=2。總的來說,本文發(fā)現(xiàn)燒蝕任何設(shè)計組件或CRN單元都會降低時間推理任務(wù)(動作、轉(zhuǎn)換和動作計數(shù))的性能。具體效果如下。
本文在MSRVTT-QA數(shù)據(jù)集中的長視頻上測試HCRN的可伸縮性,該數(shù)據(jù)集被組織成24個片段(比其他兩個數(shù)據(jù)集長3倍)。本文考慮兩種設(shè)置:I 2級層次,24個剪輯→1vid:模型如圖3所示,其中24個剪輯級CRN后面跟著一個視頻級CRN。I三級分層,24個剪輯→4個子視頻→1個子視頻:從24個剪輯開始,如在二級分層中,本文將24個剪輯分成4個子視頻,每個子視頻由6個連續(xù)的剪輯組成,形成3級分層。這兩個模型的設(shè)計參數(shù)數(shù)量相似,約為50米。結(jié)果見表5。與現(xiàn)有的處理長視頻的方法不同,本文的方法通過提供更深層的層次結(jié)構(gòu)來擴展,如第3.4節(jié)中理論分析的那樣。使用更深層的層次結(jié)構(gòu)有望顯著減少HCRN的訓練時間和推理時間,特別是在視頻較長的情況下。在本文的實驗中,本文通過從2級HCRN到3級HCRN的訓練和推理時間減少了4倍,同時保持了相同的性能。
Conclusions
介紹了一種通用的神經(jīng)網(wǎng)絡(luò)單元條件關(guān)系網(wǎng)絡(luò)(CRNs)和一種以CRNs為構(gòu)建塊的視頻質(zhì)量保證分層網(wǎng)絡(luò)的構(gòu)造方法。CRN是一個關(guān)系變換器,它根據(jù)上下文特征將一個張量對象數(shù)組封裝并映射成一個同類的新數(shù)組。在此過程中,輸入對象之間的高階關(guān)系被條件特征編碼和調(diào)制。該設(shè)計允許靈活構(gòu)建復(fù)雜的結(jié)構(gòu),如堆棧和層次結(jié)構(gòu),并支持迭代推理,使其適用于視頻等多模態(tài)和結(jié)構(gòu)化領(lǐng)域的質(zhì)量保證。在多個視頻質(zhì)量保證數(shù)據(jù)集(TGIF-QA、MSVD-QA、MSRVTT-QA)上對HCRN進行評估,證明其具有競爭性推理能力。與基于時間注意的視頻對象選擇方法不同,HCRN側(cè)重于視頻中關(guān)系和層次的建模。這種方法和設(shè)計選擇上的差異帶來了顯著的好處。CRN單元可以通過注意機制進一步增強,以覆蓋更好的對象選擇能力,從而可以進一步改進諸如幀QA之類的相關(guān)任務(wù)。在VideoQA中對CRN的檢查突出了構(gòu)建支持本機多模態(tài)交互的通用神經(jīng)推理單元在提高視覺推理穩(wěn)健性方面的重要性。本文要強調(diào)的是,該單元是通用的,因此適用于其他推理任務(wù),本文將對此進行探討。這包括考慮對TVQA[17]和MovieQA[33]任務(wù)至關(guān)重要的附帶語言頻道的擴展。
總結(jié)
以上是生活随笔為你收集整理的分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实时实例分割的Deep Snake:CV
- 下一篇: 视频教学动作修饰语:CVPR2020论文