日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【《Multimodal Transformer for Unaligned Multimodal Language Sequences》论文翻译】

發布時間:2023/12/15 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【《Multimodal Transformer for Unaligned Multimodal Language Sequences》论文翻译】 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

《Multimodal Transformer for Unaligned Multimodal Language Sequences》論文翻譯

《用于非對齊多模態語言序列的多模態Transformer》

論文地址:[1906.00295] Multimodal Transformer for Unaligned Multimodal Language Sequences (arxiv.org)

代碼地址:

GitHub - yaohungt/Multimodal-Transformer: [ACL'19] [PyTorch] Multimodal Transformer

摘要:

人類語言通常是多模態的,包括自然語言、面部手勢和聲音行為的混合。然而,建模這種多模態的人類語言時間序列數據存在兩個主要的挑戰:1)由于每個模態序列的采樣率可變,導致固有的數據不對齊;2)跨模式元素之間的長期依賴關系。

在本文中,我們引入Multimodal Transformer (MulT),以端到端方式解決上述問題,而無需顯式對齊數據。我們模型的核心是方向性兩兩跨模態關注,它關注跨不同時間步的多模態序列之間的相互作用,并潛移默化地從一個模態流調整到另一個模態流。對對齊和非對齊多模態時間序列的綜合實驗表明,我們的模型在很大程度上優于最先進的方法。此外,實證分析表明,本文所提出的交叉注意機制能夠捕獲相關的交叉注意信號。

1、引言

人類語言不僅具有口頭語言,還具有非語言行為,從視覺(面部屬性)和聲學(聲調)模式(Gibson et al., 1994)。這些豐富的信息為我們理解人類行為和意圖提供了好處(Manning et al., 2014)。然而,不同語言模式之間的異質性往往增加了分析人類語言的難度。例如,音頻和視覺流的受體可能會隨著接收頻率的變化而變化,因此我們可能無法獲得它們之間的最佳映射。皺眉可能與過去說過的悲觀的話有關。也就是說,多模態語言序列往往表現出“不對齊”的性質,需要推斷跨模態的長期依賴,這就提出了執行高效多模態融合的問題。

為了解決上述問題,在本文中,我們提出了Multimodal Transformer (MulT),這是一個端到端的模型,擴展了標準Transformer網絡(V aswani等人,2017),直接從未對齊的多模式流中學習表示。我們的模型的核心是跨模態注意模塊,它關注整個話語尺度上的跨模態互動。這個模塊通過重復強調一個模態的特征和其他模態的特征,來潛移默化地從一個模態到另一個模態(例如,視覺→語言)不考慮對齊的需要。相比之下,處理未對齊多模態序列的一種常見方法是在訓練前強制單詞對齊(Poria et al., 2017;Zadeh等人,2018a,b;Tsai等人,2019;Pham等人,2019年;Gu et al., 2018):通過將視覺和聲學特征與單詞的分辨率對齊來手動預處理。然后,這些方法將在(已經)對齊的時間步上模擬多模態相互作用,因此不直接考慮原始特征的長期跨模態偶發。我們注意到,這樣的文字排列不僅需要涉及領域知識的特征工程;但在實踐中,它可能也不總是可行的,因為它需要額外的數據集元信息(例如,單詞或講話的確切時間范圍)。我們演示了單詞對齊和由圖1中的模型推斷出的跨頻注意之間的區別。

為了進行評估,我們在三種人類多模態語言基準上進行了一套全面的實驗:CMU-MOSI (Zadeh等人,2016),CMU-MOSEI (Zadeh等人,2018b)和IEMOCAP (Busso等人,2008)。我們的實驗表明,MulT實現了最先進的(SOTA)結果,不僅在通常評估的單詞對齊設置,而且更具有挑戰性的不對齊場景,在大多數指標上超過了之前的方法的5%-15%。此外,實證定性分析進一步表明,多模態分析所使用的跨模態注意能夠跨異步模態捕獲相關信號。

圖1電影評論中的示例視頻剪輯。[上面]詞級對齊的圖示,其中視頻和音頻特征在每個口語的時間間隔內被平均。[下面]文本(“壯觀”)和視覺/音頻之間的交叉模式注意權重的圖示。

為了進行評估,我們在三個人類多模態語言基準上進行了一系列全面的實驗:CMU-MOSI、CMU-MOSEI、IEMOCAP。我們的實驗表明,MulT達到了最先進的(SOTA)結果,不僅在常用評估的詞對齊設置中,而且在更具挑戰性的未對齊場景中,在大多數指標上都比以前的方法高出5%-15%的差距。此外,經驗性定性分析進一步表明,MULT使用的跨模態注意能夠捕獲跨不同模態的相關信號。

2、相關工作

先前對人類多模態語言的分析工作涉及到從語言、視覺和聽覺的多模態序列推斷表征的領域。與從靜態領域(如圖像和文本屬性)學習多模態表征不同(Ngiam等人,2011;Srivastava和Salakhutdinov, 2012),人類語言包含時間序列,因此需要融合時變信號(Liang et al., 2018;Tsai et al., 2019)。早期工作使用早期融合方法拼接來自不同模式的輸入特征(Lazaridou等人,2015;Ngiam等人,2011),并顯示與從單一模式學習相比,性能有所提高。最近,人們提出了更先進的模型來學習人類多模態語言的表示。例如,Gu等。Wang et al.(2018)使用分層注意策略學習多模態表征。Pham等人(2019)使用伴隨的非言語行為調整了詞匯表征。(2019)學習了使用循環翻譯目標的魯棒多模態表示,Dumpala等人(2019)探索了用于視聽對齊的跨模態自動編碼器。之前的這些方法基于這樣的假設,即多模態語言序列在單詞的解析中已經對齊,并且只考慮短期的多模態交互。相比之下,我們提出的方法不需要對齊假設,并在整個序列的尺度上定義了跨模態相互作用。

Transformer Network。Transformer Network

首次被引入神經機器翻譯(NMT)任務,其中編碼器和解碼器側各自利用自我注意(Parikh et al., 2016;林等人,2017;V aswani等人,2017)變壓器。

在自我注意的每一層之后,編碼器和解碼器通過附加的解碼器子層連接,其中解碼器針對目標文本的每個元素處理源文本的每個元素。我們建議讀者參閱(V aswani et al., 2017)以獲得對該模型的更詳細的解釋。除了NMT,變壓器網絡也已成功應用于其他任務,包括語言建模(Dai等人,2018;Baevski和Auli, 2019)、語義角色標注(Strubell等人,2018)、詞義消歧(Tang等人,2018)、學習句子表征(Devlin等人,2018)和視頻活動識別(Wang等人,2018)。

本文吸取了NMT變壓器的強大啟發,將其擴展到多模態設置。雖然NMT轉換器專注于從源文本到目標文本的單向翻譯,但人類多模態語言的時間序列既不像單詞嵌入那樣具有良好的表示,也不像單詞嵌入那樣離散,每個模態序列具有截然不同的頻率。因此,我們不建議明確地從一種模式轉換到其他模式(這可能是極具挑戰性的),而是通過注意力來潛在地適應不同模式的元素。因此,我們的模型(MulT)沒有編碼器-解碼器結構,但它是由多個堆疊成對和雙向的交叉注意塊,直接關注低級特征(同時刪除自我注意)。經驗上,我們證明了我們提出的方法在各種人類多模態語言任務上的改進超過了標準轉換器。

3、提出的方法

在本節中,我們描述了我們提出的用于建模非對齊多模態語言序列的多模態轉換器(MulT)(圖2)。

在高層,MulT通過前饋融合過程從多個方向兩兩交叉模態變壓器合并多模態時間序列。具體地說,每個跨模態轉換器(在第3.2節中介紹)通過學習對兩種模態特征的注意,用來自另一種源模態的低級特征反復強化目標模態。因此,MulT體系結構使用這種交叉模態變壓器對所有模態進行建模,然后使用融合特征進行預測的序列模型(例如,自我注意變壓器)。我們提出的模型的核心是跨模態注意模塊,我們在3.1節中首先介紹了該模塊。然后,在第3.2和3.3節中,我們詳細介紹了MulT體系結構的各種成分(參見圖2),并討論了跨模態注意和經典多模態對齊之間的區別。

圖2 MulT在模態(L,V,A)上的總體框架。跨模態transformers是MulT中用于多模態融合的核心部件,具有潛在的跨模態適應性。

3.1 Crossmodal Attention

跨模態注意

我們考慮兩個模態?α?和?β?,每個模態的兩個序列(潛在未對齊)分別表示為?

和??。在本文的其余部分,分別用??和??表示序列長度和特征維數。受NMT中將一種語言翻譯成另一種語言的解碼器transformer的啟發,我們假設,融合跨模態信息的一個好的方法是提供一種跨模態的潛在適應,即??β?到?α?。請注意,我們論文中考慮的模態可能跨越非常不同的領域,例如面部屬性和口語。

我們定義查詢(Query)為?,鍵(key)為?,值(value)為??,其中??,?,?:

注意,?和??有相同的長度(即),但同時在??的特征空間中表示。具體的說,公式(1)中按比例??縮放的 softmax?計算分數矩陣??,其第??項測量由模態的第???個時間步長對模態??的第??個時間步長給予的關注度。因此,?的第??個時間步長是??的加權總和,其權重由??中的第??行確定。我們稱公式(1)為單頭跨模態注意,如圖3(a)所示。

?圖3(a):跨模態注意??來自不同模態的序列 ?和???之間

基于先前關于transformer的工作,我們在跨模態注意計算中添加了殘差連接(residual ——connection)。然后引入positionwise feed-forward(相當于全連接層)以組成完整的跨模態注意塊(如圖3(b))。每個跨模態注意塊直接適應與低級特征序列(即圖3(b)中的??),并且不依賴與自注意力(self-attention),這使得它不同于NMT編解碼器的體系結構。我們認為,從低層特征進行自適應有利于我們的模型保留每個模態的低層信息。在第4.3節中,我們將從中級特征(即??)適應的實證研究留在消融研究中。

圖3(b):跨模態transformer是幾個跨模態注意塊的深層堆疊。

圖3:來自模態??和??的兩個時間序列之間的跨模態transformer的架構元素

3.2 總體架構

多模態語言序列通常涉及三種主要模態:語言(L)、視頻(V)和音頻(A)模態。我們用???表示這3中模態的輸入特征序列(及其維數)。有了這些符號,在這一小節中,我們將更詳細地描述多模態Transformer的組件以及如何應用跨模態注意模塊。

時間卷積

為了確保輸入序列的每個元素對其鄰域元素有足夠的感知,我們將輸入序列通過一維時間卷積層:?其中??是模態??的卷積核大小,?是公共維度。卷積序列預計將包含序列的局部結構,這一點很重要,因為序列是以不同的采樣率收集的。此外,由于時間卷積將不同通道的特征投影到相同的維度,因此點積在跨模態注意模塊中是允許的。

位置嵌入

為了使序列能夠攜帶時間信息,在(Vaswani等人,2017)之后,我們將位置嵌入(PE)添加到??上:? (3) 。其中??計算每個位置索引的(固定)嵌入,???是針對不同模態產生的低級位置感知特征。我們將位置嵌入的更多細節留在附錄A中。

Crossmodal Transformers

基于跨模態注意塊(crossmodal attention blocks ),我們設計了跨模態Transformer(crossmodal transformer ),使一種模態能夠接收來自另一模態的信息。在下面的示例中,我們使用將視覺 (V)?信息傳遞給語言 (L)?的示例,用??表示。我們將每個跨模態注意塊的所有維度??固定為 ?。每個跨模態transformer由D層跨模態注意塊組成(見圖3(b))。形式上,跨模態transformer按照??層進行前饋計算:

其中??是由??參數化的positionwise feed-forward 子層,??表示位于第??層的??的多頭版本。LN表示層歸一化。在這個過程中,每個模態通過來自多頭跨模態注意模塊(multi-head crossmodal attention module )的底層外部信息不斷更新其序列。在跨模態注意塊的每個級別,來自源模態的低級信號被變換成一組不同的鍵/值對以與目標模態交互。經驗上,我們發現跨模態transformer學習跨模態關聯有意義的元素(有關詳細信息,請參見第4節)。最終的MulT是基于對每對跨模態交互進行建模的。因此,考慮到3種模態(即L、V、A),我們總共有6臺跨模態transformer(參見圖2)。

Self-Attention Transformer and Prediction

作為最后一步,我們將來自共享相同目標模態的跨模態transformers的輸出連接起來,以產生??。例如,??。然后,它們中的每一個都通過序列模型來收集時間信息以進行預測。我們選擇self-attention transformer。最后,提取序列模型的最后一個元素,通過全連接層進行預測。

3.3 Discussion about Attention & Alignment

在對未對齊的多模態語言序列進行建模時,MulT依賴于跨模態注意塊來合并跨模態的信號。雖然在訓練之前的先前工作中,多模態序列被(手動)比對到相同的長度,但我們注意到,MulT通過完全不同的角度來看待非對其問題。具體地說,對于MulT來說,多個模態元素之間的相關性純粹基于注意力。換言之,MulT不會通過(簡單地)對齊來處理模態不對齊;相反,跨模態注意鼓勵模型直接關注存在強信號或相關信息的其他模態中的元素。因此,MulT能夠以一種常規對其不容易揭示的方式捕捉遠程跨模態突發事件。另一方面,傳統的跨模態對齊可以表示為一個特殊的(階梯對角線)跨模態注意矩陣(即單調注意(Yu et al.,2016))。我們在圖4中說明了它們的區別。

圖4 使用注意矩陣實現從模態??到??的可視化對齊的示例。多模態對齊是跨模態注意的一種特殊(單調)情況。?

4、實驗

在本節中,我們在三個數據集上對多模態變壓器(MulT)進行了實證評估,這些數據集在之前的研究中經常用于對人類多模態情感識別進行基準測試(Pham等人,2019;Tsai等人,2019;Liang et al., 2018)。我們的目標是在詞對齊(幾乎所有之前的作品都采用了詞對齊)和非對齊(更具挑戰性,MulT通常是為多模態語言序列設計的)的多模態語言序列上將MulT與之前的競爭方法進行比較。

4.1 Datasets and Evaluation Metrics

數據集和評估指標

每個任務由一個單詞對齊(處理方式與前面的工作相同)和一個未對齊的版本組成。對于這兩個版本,從文本(GloV e詞嵌入(Pennington等人,2014))、視覺(Facet (iMotions, 2017))和聲學(COV AREP (Degottex等人,2014))數據模式中提取多模態特征。附錄中包含了對特性的更詳細介紹。

對于單詞對齊的版本,如下(Zadeh等人,2018a;Tsai等人,2019;Pham等人,2019年),我們首先使用P2FA (Y元和Liberman, 2008年)來獲得對齊的時間步(分段w.r.t。

(Words)的音頻和視覺流,然后我們對這些時間范圍內的音頻和視覺特征進行平均。所有單詞對齊的序列的長度都是50。整個過程在所有數據集上都是相同的。另一方面,對于未對齊的版本,我們保留了提取的原始音頻和視覺特征,沒有任何分詞對齊或手動子采樣。結果,每個模態的長度變化很大,其中音頻和視覺序列可能包含多達>1000個時間步。我們將在下面詳細闡述這三項任務。

CMU-MOSI & MOSEI.?

CMU-MOSI (Zadeh等人,2016)是一個人類多模態情感分析數據集,包含2199個簡短的獨白視頻片段(每個片段的時長相當于一句話)。CMUMOSI的聲學和視覺特征分別以12.5和15 Hz的采樣率提取(而文本數據按每個單詞分割并表示為離散單詞嵌入)。與此同時,CMU-MOSEI (Zadeh等人,2018b)是一個情緒和情感分析數據集,由23454個電影評論視頻片段從Y ouTube(約10× CMU-MOSI的大小)組成。未對齊的CMU-MOSEI序列以20 Hz的采樣率提取聽覺信號,15 Hz的采樣率提取視覺信號。

對于CMU-MOSI和CMU-MOSEI,每個樣本都由人工注釋員用從-3(強烈負面)到3(強烈正面)的情感分數進行標記。我們使用各種度量來評估模型的性能,這與以前的工作中采用的方法是一致的:7-class accuracy7級準確度(即?中的情感得分分類),binary accuracy二進制精度(即??正面/負面情緒),F1 分數?,mean absolute error (MAE) of the score,和the correlation of the model’s prediction with human(模型預測與人體的相關性)。這兩個任務經常用于對模型融合多模態(情感)信息的能力進行基準測試。

IEMOCAP?

IEMOCAP (Busso et al., 2008)由10K個視頻組成,用于人類情感分析。Wang et al.(2019)選擇4種情緒(快樂、悲傷、憤怒和中性)進行情緒識別。與CMU-MOSI和CMU-MOSEI不同,這是一個多標簽任務(例如,一個人可以同時悲傷和憤怒)。它的多模態流考慮音頻(12.5 Hz)和視覺(15 Hz)信號的固定采樣率。我們跟隨(Poria等人,2017;Wang et al., 2019;Tsai et al., 2019)報告了二元分類精度和預測的F1分數。

4.2 Baselines

我們選擇早期融合LSTM (EF-LSTM)和晚期融合LSTM (LF-LSTM)作為基線模型,以及循環參與V變異嵌入網絡(RA VEN) (Wang et al., 2019)和多模態循環翻譯網絡(MCTN) (Pham et al., 2019),在各種詞對齊的人類多模態語言任務中實現SOTA結果。為了全面地比較這些模型,我們將連接主義者時間分類(CTC) (Graves等人,2006)方法與先前不能直接應用于未對齊設置的方法(如EFLSTM、MCTN、RA VEN)相適應。具體來說,這些模型訓練以優化CTC對齊。目標與人的多模態目標同時進行。我們將CTC模塊的更詳細的處理留在附錄中。為了公平比較,我們將所有模型的參數數量控制為近似相同。超參數在附錄中報告。

4.3 Quantitative Analysis

詞對齊實驗。

我們首先在單詞對齊的序列上評估MulT,這是先前建模人類多模態語言的方法的“主場”(Sheikh等人,2018;Tsai等人,2019;Pham等人,2019年;Wang et al., 2019)。表1、2和3的上半部分顯示了MulT和基線方法在單詞分配任務上的結果。使用類似的模型大小(大約200K參數),MulT在所有任務上的不同指標上都優于其他競爭方法,除了IEMOCAP上的“悲傷”類結果

不對齊的實驗。

接下來,我們在未對齊設置的同一組數據集上評估MulT。注意,MulT可以直接應用于未對齊的多模態流,而基線模型(LF-LSTM除外)需要額外的對齊模塊(例如,CTC模塊)。

結果顯示在表1、2和3的底部部分。在三個基準數據集上,MulT在大多數屬性上比之前的方法(有些帶有CTC)提高了10%-15%。

經驗上,我們發現,與其他競爭方法相比,MulT在訓練中收斂更快,獲得更好的結果(見圖5)。此外,雖然我們注意到,當我們從單詞對齊的多模態時間序列切換到非對齊的多模態時間序列時,通常所有模型的性能都會下降,但MulT所產生的影響比其他方法小得多。我們假設出現這種性能下降是因為異步(和更長的)數據流在識別重要特性和計算適當的注意力方面帶來了更多的困難。

圖5 與未對齊的CMU-MOSEI任務上的其他基線比較時,MULT的驗證集收斂性

表1 基于CMU-MOSI的對齊和非對齊多模態序列的多模態情感分析結果。h表示越高越好,l表示越低越好。 EF代表早期融合,LF代表晚期融合

表2:在CMU-MOSEI上(相對大規模)對齊和非對齊多模態序列的多模態情感分析結果。

?表3:基于IEMOCAP的對齊和非對齊多模態情緒分析結果。

消融研究

為了進一步研究MulT中單個成分的影響,我們使用CMU-MOSEI的未對齊版本進行全面的燒蝕分析。結果如表4所示。首先,我們考慮僅使用單峰transformers(即,僅語言、音頻或視覺)的性能。我們發現,語言transformers的性能遠遠超過其他兩種語言transformers。例如,對于??度量,將純音頻與純語言單模態transformer進行比較時,模型從65.6提升到77.4。這一事實與先前工作(Pham等人,2019年)的觀察結果一致,在先前的工作中,作者發現一個好的語言網絡在推理時已經可以取得良好的性能。

其次,我們考慮

1、一種晚融合transformer,它按特征串聯了三個自注意transformers的最后一個元件。

2、一種接受三個異步序列???的早期融合自我注意變壓器,經驗上,我們發現EF-和LF-Transformer(融合多模態信號)的性能都優于單模態變壓器。

3、我們根據目標模態研究了單個跨模態transformers的重要性(例如??網絡)。如表4所示,在未對齊的CMU-MOSEI上,

我們發現,在未對齊的CMU-MOSEI上的大多數指標中,跨模態注意模塊比后期和早期融合變壓器模型持續改進。特別是在三種跨模態轉換中,以語言(L)為目標模態的轉換效果最好。

此外,我們還研究了在跨通道注意塊(類似于NMT編碼器-解碼器架構,但沒有自我注意;見3.1節)。雖然在其他燒蝕條件下,利用中級特征的MulT仍然優于模型,但我們從經驗上發現,從低級特征中調整效果最好。這些結果表明,跨模態注意具體地有利于多模態學習,使其獲得更好的表征學習。

?表4:利用CMU-MOSEI對MulT跨模態變壓器效益的消融研究)。

4.4 Qualitative Analysis

為了理解跨模態注意是如何在建模未對齊的多模態數據時起作用的,我們通過可視化注意激活來實證檢驗MulT接收到的是哪種信號。圖6顯式了MulT第三層??網絡上的跨模態注意矩陣的一部分(原始矩陣具有維度??,該圖顯示了與該矩陣的大約6秒短窗口相對應的注意力)。我們發現跨模態注意已經學會了注意跨兩種模態的有意義的信號。例如,更強烈的注意力會集中在那些傾向于暗示情感的詞語(如“電影”、“令人失望”)和視頻中劇烈的面部表情變化(上述視覺序列的開始和結束)的交集上。這一觀察結果證明了MulT相對于傳統對齊的一個上述優勢(見第3.3節):跨頻注意使MulT能夠直接捕捉潛在的遠程信號,包括注意矩陣上的對角線。

圖6:CMU-MOSEI上[V→L]跨頻變壓器第三層跨頻注意權重樣本的可視化。我們發現,跨模態注意已經學會了將某些有意義的單詞(如“movie”、“令人失望”)與更強的視覺信號片段(通常是更強的面部運動或表情變化)聯系起來,盡管原始的L/V序列之間缺乏對齊。注意,由于時間卷積,每個文本/視覺特征都包含附近元素的表示。?

5.結論

在本文中,我們提出了用于分析人類多模態語言的多模態變壓器(Multimodal Transformer, MulT)。多模態分析的核心是跨模態注意機制,通過直接關注其他模態的低階特征,提供了一種潛在的跨模態適應機制,融合了多模態信息。而之前的方法主要集中在對齊的多模式流,MulT作為一個強大的基線,能夠捕獲長期偶發,無論對齊假設。經驗上,我們表明,與之前的方法相比,多方法表現出最好的性能。

我們相信,MulT在未對齊的人類多模態語言序列上的結果為其未來的應用提供了許多令人興奮的可能性(例如,視覺問答任務,其中輸入信號是靜態和時間進化信號的混合)。我們希望MulT的出現可以鼓勵在一些任務上的進一步探索,在這些任務中,聯合曾經被認為是必要的,但跨通道的注意力可能是一個同等(如果不是更多)競爭性的選擇。

總結

以上是生活随笔為你收集整理的【《Multimodal Transformer for Unaligned Multimodal Language Sequences》论文翻译】的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。