论文浅尝 - ICLR2020 | 具有通用视觉表示的神经机器翻译
論文筆記整理:柏超宇,東南大學(xué)在讀碩士。
來源:ICLR2020 https://openreview.net/forum?id=Byl8hhNYPS
代碼鏈接:https://github.com/cooelf/UVR-NMT
簡介和動機(jī)
近年來,不少工作已經(jīng)證明了視覺信息在機(jī)器翻譯(NMT)這個任務(wù)上面是幫助的,但是這種模型存在著不少的限制,視覺信息僅僅用于小型的多模態(tài)數(shù)據(jù)集,而不能應(yīng)用于大規(guī)模純文本數(shù)據(jù)集上面,并且是制作訓(xùn)練集的成本較高,一幅圖片要配上兩種語言的平行句子對,當(dāng)前多模態(tài)機(jī)器翻譯模型無法充分利用視覺信息。
在這篇文章中作者提出了一種僅依靠在單語文本中將圖像信息作為客觀信息融入進(jìn)來,而不是現(xiàn)有的依靠圖像雙語標(biāo)注方法,從而突破了在NMT中使用視覺信息的瓶頸,并在多個數(shù)據(jù)集上取得了提升。
模型方法
模型先基于多模態(tài)數(shù)據(jù)集Multi30K制作了一個主題-圖像查找表,在訓(xùn)練和解碼的過程中,計(jì)算每個詞的TF-IDF,從主題-圖像查找表中檢索出與源句子具有相似主題的一組圖像。然后設(shè)計(jì)了一個簡單的注意力層,將圖像表示和原始源句表示融合在一起,作為對解碼器的輸入,以預(yù)測目標(biāo)翻譯。這種方法可以容易地應(yīng)用到純文本的NMT模型中,而無需標(biāo)注大規(guī)模的雙語并行語料庫。
在獲得主題-圖像查找表后,模型可以對純文本數(shù)據(jù)集進(jìn)行翻譯,對于輸入進(jìn)來的句子,模型仍然會執(zhí)行上面相似的操作①去除句子中停用詞②計(jì)算每個詞的TF-IDF③取k個TF-IDF值最高的詞④在主題-圖片查詢表中找到k個詞對應(yīng)的圖片⑤取出出現(xiàn)次數(shù)最多的m張圖片,這個圖片集合可以和文本輸入一起送入后續(xù)的網(wǎng)絡(luò),增強(qiáng)翻譯的效果。
后面的任務(wù)可以看作是一個seq2seq模型,即將文本序列和圖片序列進(jìn)行編碼融合,隨后解碼出另一種語言的序列。
在文本的encoder和decoder階段作者使用了流行的Transformer模型,而在融合階段有所創(chuàng)新使用了一個單層的attention來完成文本embeeding和圖片特征向量之間的融合,將文本表示向量作為Q輸入進(jìn)了圖片的attention層中。
由于機(jī)器翻譯任務(wù)最終需要生成的是另一種語言的文本序列,圖像只是起輔助作用,所以需要調(diào)整下兩個模態(tài)信息的權(quán)重。最終得到的H向量即可送入解碼器進(jìn)行解碼。
數(shù)據(jù)集和實(shí)驗(yàn)
我們在三個數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):WMT16 En-RO, WMT14 EN-DE和WMT14 EN-FR。這三個數(shù)據(jù)集大小從小到大增加,從而在不同大小的數(shù)據(jù)集上都能驗(yàn)證該方法。加上視覺特征后,翻譯效果都有了不錯的提升。更重要的是,由于視覺模塊只加了一層的attention層,所以加上視覺特征后參數(shù)量沒有顯著增加,訓(xùn)練和推理的時間也不會長很多,
而在Multi30K這個多模態(tài)數(shù)據(jù)集上面,該模型也能取得不錯的效果,比起傳統(tǒng)的多模態(tài)方法在一些指標(biāo)上面也能有所提升。
同時作者也對融合權(quán)重λ和每個句子配合的圖片數(shù)量進(jìn)行了研究,手動去設(shè)置權(quán)重的話是很難得到一個平衡兩個模態(tài)信息的值,而像這個模型中采用了自動計(jì)算的方法所得到的結(jié)果始終優(yōu)于手動設(shè)置的值。同時,為單個句子配上過多的圖片也會讓模型產(chǎn)生困惑,需要在保證信息充足的情況下減少噪聲的引入。
這個工作突破了原有機(jī)器翻譯依賴雙語視覺標(biāo)注的限制,能將訓(xùn)練好的模型應(yīng)用在純文本的數(shù)據(jù)集上并取得不錯的效果。
模型沒有過多的增加Transformer的復(fù)雜度,可能將中間的層換成VL-BERT這樣的包含更多背景知識的模型會得到更好的效果。但肯定會大大提升模型復(fù)雜度。希望感興趣的同學(xué)一起閱讀原文。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - ICLR2020 | 具有通用视觉表示的神经机器翻译的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ICML2020 | 对比
- 下一篇: 论文浅尝 - WWW2020 | 从自