當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘

發(fā)布時間：2024/7/5 ChatGpt 29 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記整理：劉雅，天津大學碩士。

鏈接：

https://aaai.org/ojs/index.php/AAAI/article/view/6525

動機

近年來，隨著計算機視覺以及自然語言處理技術的發(fā)展，多模態(tài)自動文摘技術逐漸成為學術界和工業(yè)界研究的熱點。當前的多模態(tài)自動文摘受限于數(shù)據(jù)集本身的原因只能采用文本模態(tài)的負對數(shù)似然損失作為目標函數(shù)訓練整個網絡，同時利用注意力機制來輔助挑選圖片。這種做法容易帶來模態(tài)偏差的問題，即整個網絡會傾向于優(yōu)化文本生成的質量而忽視了圖片的挑選過程。該論文提出了多模態(tài)基準指導的多模態(tài)自動文摘方法。基本想法是優(yōu)化多模態(tài)摘要訓練的目標函數(shù)，即在文本損失的基礎上增加圖片選擇的損失函數(shù)。

亮點

論文亮點主要包括：

（1）提出一種新的評估指標，該論文是第一個從信息完整性的角度評估多模式摘要的方法，該方法學習了模型摘要和參考摘要的聯(lián)合多模式表示形式。包含信息完整性的評估指標與人類判斷的相關性更好。

（2）提出一種多模態(tài)損失函數(shù)，以多模態(tài)參考為指導，以利用摘要生成和圖象選擇中的損失

概念及模型

該方法由三部分組成：

首先利用數(shù)據(jù)集本身的特征將只有文本基準的訓練數(shù)據(jù)擴展至多模態(tài)基準，主要采用兩種方式，即直接使用輸入圖片的順序對圖片進行排序或者使用圖片的文字描述與標準文本摘要參考答案之間的ROUGE值大小對輸入圖片進行排序。
在模型上添加圖片判別器用于訓練圖片挑選的過程，模型的損失函數(shù)也由文本的損失函數(shù)及圖片挑選的損失函數(shù)加權求和而成。
通過數(shù)據(jù)集中的圖片和文本描述構造文本-圖片對齊片段從而用來訓練能夠更好地評價多模態(tài)片段的評價模型，具體而言論文將兩對圖片-描述的文本部分（或圖像部分）進行交換去構造兩個匹配的多模態(tài)片段。

模型整體框架如下：

多模態(tài)匹配片段構造示意圖如下：

多模態(tài)目標函數(shù)

為了在訓練中利用多峰參考，論文提出了一種多峰目標函數(shù)，該函數(shù)除了考慮文本摘要的負對數(shù)似然損失外，還考慮了圖像選擇的交叉熵損失。論文將多模態(tài)摘要分解為兩個任務：摘要生成和文本圖像關系識別。為此，論文提出了一種圖像識別器來指導圖像選擇。圖像鑒別器將確定圖像是否與文本內容有關。我們應用多任務學習來同時訓練兩個子任務。在多任務設置中，共享兩個子任務的文本編碼器和摘要解碼器。論文使用另一個圖片解碼器將全局圖象特征g轉化為g’.

可以通過兩種方式顯示文本信息：（1）文本編碼器的最后一個隱藏狀態(tài)；或（2）摘要解碼器的最后隱藏狀態(tài)。為了將兩個向量投影到一個聯(lián)合語義空間中，論文使用兩個具有ReLU激活功能的多層感知器將文本向量和視覺向量轉換為I_txt和I_vis。圖象和文本信息之間的相關性可以表示為:

圖像分為文本相關和非文本相關，這意味著可以將文本-圖像關系識別視為分類任務。因此,論文采用了交叉熵損失：

其中P_A（img）表示圖像的實際概率分布（如果選擇排名前k位的圖像作為目標，則圖像的概率為1 / k。）。最后，將交叉熵損失（由超參數(shù)λ加權）添加到摘要生成的損失函數(shù)中，以產生一個同時考慮了文本參考和圖像參考的新?lián)p失函數(shù)：

聯(lián)合多模態(tài)表示

在跨模式檢索中，輸入是一對圖像和一個文本。但是在該論文提出的模型中，輸入變成一對多模態(tài)分段（m_a，m_b），其中m_a =（Image_a，Text_a）和m_b =（Image_b，Text_b）。關鍵問題是如何構建訓練數(shù)據(jù)。MSMO數(shù)據(jù)集中有很多圖像字幕對，并且假定每個圖像都與相應的字幕相匹配。因此，通過交換兩個圖像標題對的圖像（或文本）以獲得匹配的多模態(tài)分段對（m_a^*，m^*_b），其中m^*_a =（Image_b，Text_a）和m^*_b =（Image_a ，Text_b）。值得注意的是，由于m^*_b中的Image_a與m^*_a中的Text_a相匹配，而m^*_a中的Image_b與m^*_b中的Text_b相匹配，因此m^*_a在語義上與m^*_b相匹配對圖像和文本進行編碼,然后使用多模式注意力機制融合文本向量和圖像特征。最后模型是在一個新的最大利潤率損失下訓練的：

其中（m，m *）是匹配的多模態(tài)分段對，（m，）是從批次中采樣的負對。論文還使用MSMO數(shù)據(jù)集中的圖像字幕對構造訓練數(shù)據(jù)。

理論分析

實驗

目前多模態(tài)自動文摘的數(shù)據(jù)集還比較匱乏，這項工作在MSMO數(shù)據(jù)集上進行實驗驗證。一般圖文式摘要的評價關注三個方面的指標：圖片準確率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系統(tǒng)輸出中圖片文本的相關度(Msim)。該論文引入一個新的自動評價指標MRmax用來直接度量兩個多模態(tài)信息之間的相似度（輸出和參考答案的最大相似度）。MMAE是對IP、ROUGE和Msim的組合，MMAE++是IP、ROUGE、Msim和MRmax四個自動評價指標的組合。利用與人工打分之間的相關度來對比不同的自動評價指標。

下表給出了不同的自動評價指標與人工打分的相關度，可以看出融入了直接測量多模態(tài)片段的評價指標MR之后，新的自動評價模型MMAE++相比于MMAE在與人工打分的相關度上有一個顯著的提升。為了衡量論文提出的多模態(tài)基準指導的模型，論文同多個強基線模型進行了對比，包括融入全局或者局部視覺特征的多模態(tài)注意力機制的生成式自動文摘模型（ATG、ATL）、層次化的多模態(tài)自動文摘模型（HAN）以及基于圖模型的抽取式自動文摘模型（GR）

下表給出了不同模型生成的圖文式摘要的質量對比，可以看出在引入多模態(tài)基準指導后，模型的圖片挑選質量（IP）得到了顯著的改善，并且文本生成質量也有略微改進，從而生成更高質量的圖文摘要。相對于使用編碼器隱層狀態(tài)而言，采用解碼器隱層狀態(tài)去進行圖片選擇效果會更好。另一方面，使用圖片描述與文本摘要之間ROUGE值的大小對圖片排序獲得的多模態(tài)基準對于模型的指導作用更加明顯。

同時，本論文也對比了不同的圖片選擇損失函數(shù)權重對于模型性能的影響，可以看到當圖片和文本的損失函數(shù)的權重都相同時，圖文摘要的質量是最好的。

論文對比了在計算圖片損失中考慮的圖片數(shù)量（即top-K圖片作為gold standard）所帶來的影響，并且發(fā)現(xiàn)當 K=3的時候，模型取得了最好的效果。

總結

在本文中，論文著重于通過提出一種多模式目標函數(shù)來改進多模式摘要，該目標函數(shù)同時考慮了文本摘要生成的負對數(shù)似然損失和圖像選擇的交叉熵損失。實驗表明，該模型可以在真實的人工標記測試集和自動構建的測試集上提高多模式輸出的質量。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：图谱实战 | 徐美兰：深度应用驱动的医学
下一篇：学术联赛 | 运用知识图谱技术，赋能多领