日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ACL2020 | 用于多媒体事件提取的跨媒体结构化公共空间

發(fā)布時(shí)間:2024/7/5 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - ACL2020 | 用于多媒体事件提取的跨媒体结构化公共空间 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

筆記整理 | 王琰,東南大學(xué)


來源:ACL 2020

鏈接:https://arxiv.org/pdf/2005.02472.pdf

概述

本論文引入一項(xiàng)新任務(wù):多媒體事件提取(M2E2),該任務(wù)旨在從多模態(tài)中抽取出事件和其論點(diǎn)(M2E2)。此外,構(gòu)造了第一個(gè)帶注釋的新聞數(shù)據(jù)集作為基準(zhǔn),以支持對跨媒體事件的深入分析。并且提出了一種新方法:弱對齊結(jié)構(gòu)嵌入(WASE),該方法將語義信息的結(jié)構(gòu)化表示形式從文本和視覺數(shù)據(jù)編碼為共同的嵌入空間,通過采用弱監(jiān)督的訓(xùn)練策略進(jìn)行跨模態(tài)結(jié)構(gòu)對齊,從而能夠在無需顯式跨媒體注釋的情況下利用可用資源。

背景及動(dòng)機(jī)

傳統(tǒng)事件提取方法的目標(biāo)是單一形式,例如文本、圖像或視頻。但是,當(dāng)代新聞業(yè)是通過多媒體信息來傳播新聞。從美國之音(VOA)中隨機(jī)抽取的多媒體新聞文章進(jìn)行分析,我們可以發(fā)現(xiàn)報(bào)道中33%的圖像包含用作事件自變量的可視對象,但新聞文章中未提及它們。這說明了多媒體數(shù)據(jù)之間存在著的互補(bǔ)性和整體性的影響,因此作者提出了多媒體事件提取(M2E2),這是一項(xiàng)旨在從多種模式中聯(lián)合提取事件和論點(diǎn)的新任務(wù)。

數(shù)據(jù)集

通過映射新聞?lì)I(lǐng)域(ACE2)的NLP社區(qū)中的事件本體和通用領(lǐng)域(imSitu)的CV社區(qū)中的事件本體,來定義具有多媒體新聞價(jià)值的事件類型。M2E2中的事件類型和論點(diǎn)角色統(tǒng)計(jì)結(jié)果如下表,其中包含8種ACE類型,映射到98種imSitu類型,通過添加來自imSitu的視覺論點(diǎn)來擴(kuò)展ACE事件角色集。粗體顯示擴(kuò)展的事件類型和論點(diǎn)角色,括號中的數(shù)字表示文本和視覺事件/自變量的計(jì)數(shù)。

作者從美國之音(VOA)網(wǎng)站上收集了108,693篇多媒體新聞文章,內(nèi)容涉及軍事,經(jīng)濟(jì)和健康等一系列具有新聞價(jià)值的主題,并且基于信息性、多樣性、具有較多插圖等標(biāo)準(zhǔn)選擇了245個(gè)文檔作為注釋集。下表顯示了該數(shù)據(jù)集的統(tǒng)計(jì)信息。

模型方法

1.Overview

訓(xùn)練階段包含三項(xiàng)任務(wù):文本事件提取,圖像事件提取和跨媒體對齊。學(xué)習(xí)了跨媒體共享編碼器,共享事件分類器和共享論點(diǎn)分類器。在訓(xùn)練期間共同訓(xùn)練三個(gè)任務(wù)以建立跨媒體結(jié)構(gòu)的嵌入空間;在測試階段,給定多媒體新聞文章,將句子和圖像編碼到結(jié)構(gòu)化的公共空間中,并共同提取文本和視覺事件和論點(diǎn),然后進(jìn)行交叉模態(tài)共指解析。模型總體如下圖表示:

2. Text Event Extraction

Text Structured Representation:

本文選擇Abstract Meaning Representation (AMR)來表示文本,對每個(gè)文本句子運(yùn)行CAMR parser生成AMR圖,串聯(lián)了預(yù)訓(xùn)練的 GloVe 單詞嵌入、POS 嵌入、實(shí)體類型嵌入和位置嵌入來表示句子中每個(gè)單詞。然后,將單詞序列輸入Bi-LSTM網(wǎng)絡(luò)對單詞順序進(jìn)行編碼,獲取每個(gè)單詞的表示形式。給定 AMR 圖,應(yīng)用GCN對圖形上下文信息進(jìn)行編碼。多媒體結(jié)構(gòu)化共同空間構(gòu)建如下圖:

Event and Argument Classifier:

將每個(gè)單詞分類為事件類型,并把每個(gè)實(shí)體分類到論點(diǎn)角色,計(jì)算公式為:

將真實(shí)文本實(shí)體提及作為訓(xùn)練期間的輸入,并使用命名實(shí)體提取器獲取測試的實(shí)體提及。

3. Image Event Extraction

Image Structured Representation:

用情況圖表示每個(gè)圖像,如上圖所示,其中中心節(jié)點(diǎn)標(biāo)記為動(dòng)詞,相鄰節(jié)點(diǎn)標(biāo)記為,其中 n 是用于指示實(shí)體類型從 WordNet 合成集中派生的名詞,r表示實(shí)體在事件中根據(jù) FrameNet 所扮演的論點(diǎn)。本文開發(fā)了以下兩種方法從圖像構(gòu)造情況圖,并使用 imSitu 數(shù)據(jù)集進(jìn)行訓(xùn)練。

(1) Object-based Graph:

首先獲取由在Open Images上訓(xùn)練的Faster R-CNN 模型檢測到的對象邊界框,使用 VGG-16 CNN 提取圖像的視覺特征,使用另一個(gè) VGG-16 來編碼邊界框,然后應(yīng)用多層感知器(MLP)預(yù)測從圖像和另一個(gè) MLP 嵌入的動(dòng)詞來預(yù)測每個(gè)邊界框的名詞嵌入。

將預(yù)測動(dòng)詞嵌入與 imSitu 分類中的所有動(dòng)詞進(jìn)行比較,以便對動(dòng)詞進(jìn)行分類,并同樣將每個(gè)預(yù)測名詞嵌入與所有 imSitu 名詞進(jìn)行比較:

定義損失函數(shù)為:

(2) Attention-based Graph

提出了一個(gè)基于對象的圖形構(gòu)造模型的開放詞匯替代方法。首先構(gòu)造一個(gè)角色驅(qū)動(dòng)的attention圖,其中每個(gè)論點(diǎn)節(jié)點(diǎn)由以角色 r 為條件的熱圖派生。然后,使用熱圖獲取特征圖的加權(quán)平均值,以表示視覺空間中論點(diǎn)的每個(gè)角色。與基于對象的模型類似,接下來嵌入論點(diǎn)并將其與 imSitu 名詞嵌入進(jìn)行比較以定義分布并與基于對象的方法相類似定義損失函數(shù):

Event and Argument Classifier:

使用基于對象或基于注意力的計(jì)算方法,并在 imSitu 數(shù)據(jù)集上預(yù)先訓(xùn)練,然后應(yīng)用GCN獲取公共空間中每個(gè)節(jié)點(diǎn)的結(jié)構(gòu)化嵌入。接下來通過與上一部分相同的分類器,使用公共空間嵌入對每個(gè)視覺事件和論點(diǎn)進(jìn)行分類:

4. Cross-Media Joint Training

為了使事件和論點(diǎn)分類器實(shí)現(xiàn)跨模態(tài)共享,圖像圖和文本圖應(yīng)編碼到同一空間。本文使用單模態(tài)數(shù)據(jù)集中的事件和論點(diǎn)注釋來訓(xùn)練分類器,同時(shí)使用VOA新聞圖像和標(biāo)題對來對齊這兩種模式。使用圖像和字幕對進(jìn)行弱監(jiān)督訓(xùn)練,從每個(gè)單詞到圖像對象學(xué)習(xí)軟對齊。

將圖像標(biāo)題對的對齊成本定義為每個(gè)節(jié)點(diǎn)與其對齊表示之間的歐幾里德距離:

使用triplet loss來拉近相關(guān)的圖像標(biāo)題對:

公共空間使事件和論點(diǎn)分類器能夠跨模式共享權(quán)重并在數(shù)據(jù)集上共同訓(xùn)練,從而最大限度地減少以下目標(biāo)函數(shù):

總損失函數(shù)為:

5. Cross-Media Joint Inference

在測試階段,采用帶句子和圖像的多媒體文檔作為輸入,首先對于每個(gè)句子和每個(gè)圖像生成結(jié)構(gòu)化的通用嵌入,計(jì)算其成對相似性。然后匹配句子與其最接近的圖像并聚合每個(gè)單詞的特征與對齊表示。

實(shí)驗(yàn)及結(jié)果:

分別對M2E2數(shù)據(jù)集中的純文本,純圖像和多媒體事件提及進(jìn)行評估。作者采用了傳統(tǒng)的事件提取評價(jià)指標(biāo)Precision,Recall和F1,實(shí)驗(yàn)結(jié)果如下表所示:

可以看出,和的F1得分優(yōu)于三個(gè)評估設(shè)置中的所有基線。與其他多媒體模型的比較證明了本文模型架構(gòu)和培訓(xùn)策略的有效性。在多媒體事件上,本論文提出的模型優(yōu)于其僅文本和僅圖像的模型,這表明單模式信息不足以用于復(fù)雜的新聞理解。此外,本文模型在純文本和純圖像事件上具有更好的性能,證明了多媒體培訓(xùn)框架在模式之間的知識轉(zhuǎn)移中的有效性。

此外,為了評估跨媒體事件共指性能,將同一文檔中的文字和視覺事件提及配對,并計(jì)算Precision,Recall和F1,如下表所示。優(yōu)于所有多媒體嵌入模型的基線,證明了跨媒體對齊的有效性。

總結(jié)展望

本文提出了多媒體事件提取的新任務(wù)并建立了新的基準(zhǔn),開發(fā)了多媒體結(jié)構(gòu)的公共空間構(gòu)造方法,并且利用現(xiàn)有的圖像字幕對和單模態(tài)注釋數(shù)據(jù)進(jìn)行弱監(jiān)督訓(xùn)練。實(shí)驗(yàn)證明了它的有效性,這也是是邁向?qū)Χ嗝襟w數(shù)據(jù)中事件進(jìn)行語義理解的新步驟。

之后的工作可以在擴(kuò)展框架從視頻中提取事件,并擴(kuò)展到新的事件類型;將提取結(jié)果應(yīng)用于下游應(yīng)用程序,包括跨媒體事件推斷,時(shí)間軸生成等方面。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 用于多媒体事件提取的跨媒体结构化公共空间的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。