日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

When 多模态 meets 信息抽取

發布時間:2024/10/8 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 When 多模态 meets 信息抽取 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者 | 寧金忠

單位 | 大連理工大學

研究方向 | 信息抽取

都 2222 年了,信息抽取領域早已經是諸神黃昏。然而,多模態方法的興起給這個卷成麻花的領域帶來的新的希望。就像陽光穿過黑夜,黎明悄悄劃過天邊,既然新的多模態風暴已經出現,我們怎能停滯不前?

讓我們通過本文了解一下信息抽取領域中多模態方法的最新進展。本文分為兩大主要章節,第一章介紹多模態關系抽取任務(Multimodal Neural Relation Extraction, MNRE),第二章介紹多模態命名實體識別任務(Multimodal Named Entity Recognition MNER)。


多模態關系抽取

任務介紹:多模態關系抽取任務的一個例子如下圖所示。和基于文本的關系抽取方法相比,其他模態數據(例如圖片)中的提示信息有利于性能的提升。

1.1 MNRE

論文標題:

MNRE: A Challenge Multimodal Dataset for Neural Relation Extraction with Visual Evidence in Social Media Posts

收錄會議:

ICME 2021

論文鏈接:

https://ieeexplore.ieee.org/document/9428274

代碼鏈接:

https://github.com/thecharm/MNRE

Motivation:關系抽取模型在面對社交媒體領域中長度偏短且缺少有效內容的文本時表現乏善可陳。同樣,遠程監督方法面對這種情景也顯得力不從心。于是,尋找文本之外的內容來補充文本信息勢在必行。

Contribution:

  • 作者首次提出了多模態關系抽取這個任務,即利用圖片中的視覺內容來對文本中缺失的信息進行補充。

  • 作者構建并發布了一個人工標注的多模態關系抽取數據集。該數據集包含 10089 條實例,包含 31 中關系類別。

  • 作者提出了幾個多模態關系抽取的 baseline。

作者選擇 Glove+CNN,BERTNRE,BERT+CNN 為本文的對比實驗。在三個對比實驗的基礎上分別增加 Image Labels、Visual Objects、Visual Attention 做為多模態關系抽取的基準模型。

1.2 Mega

論文標題:

Multimodal Relation Extraction with Efficient Graph Alignment

收錄會議:

ACM MM 2021

論文鏈接:

https://dl.acm.org/doi/abs/10.1145/3474085.3476968

代碼鏈接:

https://github.com/thecharm/Mega

Motivation:使用 image-related information 對純 text-based 信息中的缺失內容進行補充,從而提升社交媒體領域的關系抽取任務的性能。

Method:

對于輸入文本,作者使用 BERT 作為語義特征編碼器。除此之外,作者使用句法解析工具提取了文本的句法解析樹。對于輸入圖片,作者提取出其中目標的? scene graph。作者使用雙流模型結構分別從圖關系結構和語義兩個方面來對齊文本和圖像兩個模態的信息。在模態特征融合階段,作者把包含雙模態的圖結構對齊信息和語義表示對齊信息融合成一個向量,然后將其與頭尾實體的表示向量進行拼接,最終得出關系的預測。


多模態命名實體識別

相比于多模態關系抽取任務,多模態多模態命名實體(MNER)任務由于起步較早已經涌現出了較多的工作。本章節中,我們把多模態命名實體識別任務按照使用的模態劃分為:(1)基于語音-文本的 MNER(2)基于漢字結構特征 MNER(3)基于圖片-文本的 MNER。

2.1 基于語音-文本的MNER

論文標題:

A Large-Scale Chinese Multimodal NER Dataset with Speech Clues

收錄會議:

ACL 2021

論文鏈接:

https://aclanthology.org/2021.acl-long.218

代碼鏈接:

https://github.com/dianbowork/cnerta

Motivation:

由于中文缺少天然的分詞間隔,中文 NER 任務面臨著比較大的挑戰。語音中包含的停頓信息對于確定中文的分詞邊界具有很大的潛在的價值。例如上圖所示的“南京市長江大橋”這個例子。

Method:

作者構建了一個包含語音和文本數據的中文 MNER 數據集,其中包含 34102 條訓練樣本,測試集數量為 4445,開發集容量為 4440。

作者使用 BERT 作為文本特征編碼器,使用 CNN 下采樣的梅爾濾波器組特征作為語音特征表示。文中提出的模型使用多任務學習的方法來對齊和融合模型特征。模型包含 CRF loss 和 masked CTC loss 兩部分。對于 masked CTC loss 的獲得,首先把語音特征表示會輸入到一個 Transformer 模塊進行編碼,然后使用語音識別領域中常用的 CTC loss 進行語音和文本的對齊。

由于模型重點關注于同一條數據中語音和文本的對齊,作者提出了 masked CTC loss,將 CTC 對齊結果里沒有在文本中出現的字的概率置為負無窮。這樣操作將 CTC 的對齊結果限制到了文本的詞匯之內。對于 CRF loss 的獲取,作者使用多模態領域常用的 Cross-Transformer 將 masked CTC loss 約束的語音表示和文本表示進行交叉融合,得到語音信息輔助的文本表示,然后經過 CRF 層得到 CRF loss。最終,CRF loss 和 masked CTC loss 相加進行聯合訓練。

2.2 使用漢字結構信息的MNER

漢字屬于象形文字,漢字的結構中具有語義相關的信息。例如包含部首“疒”的漢字,例如,“病”,“痙”等漢字可能代表某些疾病。因此,利用漢字的結構信息具有提升命名實體識別性能的潛力。

2.2.1 Glyce

論文標題:

Glyce: Glyph-vectors for Chinese Character Representations

收錄會議:

NeurlPS 2019

論文鏈接:

https://arxiv.org/abs/1901.10125

代碼鏈接:

https://github.com/ShannonAI/glyce

Motivation:將漢字圖片的視覺特征融合進模型以提升 NLP 任務。

Method:

由于簡體字經過了簡化,其結構體現出的語義信息變少,作者使用隸屬,繁體字等古漢字的文字圖片來編碼漢字結構信息。

作者設計了一種名叫“田字格 CNN”的 CNN 結構進行漢字圖片的特征提取。輸入的漢字圖像以此經過上圖所示的卷積層,max-pooling 層,卷積層。最后經過一個? group convolutions 得到最終的輸出——Glyph Embedding。作者在文中解釋到,使用尺寸較小的 group convolutions 可以防止過擬合,并且在全體漢字上具有較好的泛化性能。

關于 Glyph Emb 和 BERT 輸出向量的融合,作者把 Glyph Emb 和其對應的位置編碼向量進行相加,然后與 BERT 拼接到一起。

使用漢字圖片的分類任務作為一個 auxiliary 任務和下游的 nlp 任務聯合訓練。以 NER 任務為例,模型的損失函數由漢字圖片分類任務和 CRF loss 加權相加得到。


2.2.2 MECT

論文標題:

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

收錄會議:

ACL 2021

論文鏈接:

https://arxiv.org/abs/2107.05418

代碼鏈接:

https://github.com/CoderMusou/MECT4CNER

Motivation:使用漢字的部首特征來提升命名實體識別模型的性能。

▲ MECT

Method:作者把文本中的每個漢字拆解成部首,然后使用 CNN 提取漢字的部首特征。把漢字和文本中匹配上的詞匯,作為文本的一個特征。作者把漢字的部首特征看做文本的另外一個模態。對于兩個模態的特征,作者使用多模態領域中常用的 two-stream Cross-Transformer 來進行特征的融合。作者在 Cross-Transformer 中引入相對位置信息和 Random Attention 增強模型的表達能力。


2.2.3 ChineseBERT

論文標題:

ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

收錄會議:

ACL 2021

論文鏈接:

https://arxiv.org/abs/2106.16038

代碼鏈接:

https://github.com/ShannonAI/ChineseBert

motivation:使用漢字的 Glyph embedding 來提升命名實體識別模型的性能。

method:

對于同一個漢字,作者使用漢字的詞向量,漢字圖片的特征表示和拼音的特征表示這三個模態的特征得到一個漢字的融合特征。作者將三個模態的特征向量拼接,然后經過線性層進行特征的融合表示。

作者將漢字的多模態融合特征輸入到一個 BERT 當中,然后使用大規模語料從頭進行預訓練。作者在預訓練的過程中,使用了 Whole WordMasking(WWM) and Char Masking(CM)策略。

2.3 使用圖片-文本的MNER

社交媒體用戶產生的文本具有噪音大,長度短等特點。因此社交媒體的命名實體識別面臨著很大挑戰。然而,社交媒體上的配圖可以作為文字的補充可以結合文字中的信息共同提升多模態 NER 任務。

2.3.1 MNER

論文標題:

Multimodal Named Entity Recognition for Short Social Media Posts

收錄會議:

NAACL 2018

論文鏈接:

https://arxiv.org/abs/1802.07862

Method:

作者首次提出了多模態命名實體識別(MNER)任務,并且發布了一個 MNER 數據集 SnapCaption。

作者將詞匯的詞向量,詞匯的字符信息以及 Inception 提取的目標特征融合到三個模態的通過一個注意力機制融合到一起,當做詞匯的多模態融合特征,然后使用 Bilstm+CRF 來編碼出 NER 標簽。

2.3.2 NERmultimodal

論文標題:

Adaptive co-attention network for named entity recognition in tweets

收錄會議:

AAAI 2018

論文鏈接:

https://ojs.aaai.org/index.php/AAAI/article/view/11962

代碼鏈接:

https://github.com/jlfu/NERmultimodal

method:作者首次提出字 MNER 任務上使用 co-attention 進行融合視覺和文本兩個模態的特征,啟發了日后使用 Cross-Transformer 來進行信息抽取領域中視覺-文本特征的融合的工作。作者使用 Char 表示和 word 表示進行拼接,作為文本的語義特征表示。然后使用雙向 LSTM 進行序列編碼。

對于圖像,作者使用 VGG-NET16 進行圖像特征編碼。之后,作者提出了 Co-attention 得到 Word-Guided Visual Attention 和 Image-Guided Textual Attention,然后使用注意力機制融合兩個 attention。這是初代的 two-stream 多模態模型。

2.3.3 UMT

論文標題:

Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer

收錄會議:

ACL 2020

論文鏈接:

https://aclanthology.org/2020.acl-main.306

代碼鏈接:

https://github.com/jefferyYu/UMT

Method:作者提出使用統一的 Transformer 結構來進行多模態信息的交互。作者使用三個 cross transformer 分別獲得圖像指導的文本表示、文本指導的圖像表示以及文本模態內部的交互表示。作者在兩個模態信息交互的過程中通過一個 Visual Gate 動態控制兩個模態之間的交互。除此之外,作者還附加了一個實體范圍識別的任務作為 auxiliary 任務,通過多任務的方式訓練模型。


2.3.4 RIVA

論文標題:

RIVA: A Pre-trained Tweet Multimodal Model Based on Text-image Relation for Multimodal NER

收錄會議:

COLING 2020

論文鏈接:

https://aclanthology.org/2020.coling-main.168

Motivation:在模型中引入判斷圖像-文本關系的部分來應對社交媒體數據存在“圖文無關”現象。

Method:

作者的總體思路為:搭建模型,利用文本和圖像兩種模態的信息,得到一個融合雙模態的文本表示。然后作者利用雙模態的文本表示在數據集上使用自監督的方式預訓練出一個語言模型。具體來看,作者使用 Bilstm 編碼文字的表示,使用 resnet 編碼圖像的表示。RGN 是用來判斷圖文關系的模塊,作者使用在 Bloomberg 圖文匹配數據集上訓練的一個模型當做 teacher 模型,RGN 模塊當做teacher模型來得到預訓練的圖文關系判斷能力。

VCN 和 Transformer 中的多頭注意力部分類似,使用文本信息當做 query,圖像信息當做 key 和 value,得到的是視覺信息指導的文本表示序列,然后通過一個線性層得到?。 和圖文關系調節因數? 相乘得到視覺向量?。 在前向 lstm 中當做頭向量,在后向 lstm 中當做尾向量,最終的輸出為文本的最終表示。然后使用 Next word prediction 方式對模型進行預訓練。

預訓練完成后,模型在 MNER 任務上進行微調,使用最終的文本圖像融合表示和詞向量,拼接,輸入到 LSTM 中。

2.3.5 RpBERT

論文標題:

RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER

收錄會議:

AAAI 2021

論文鏈接:

https://arxiv.org/abs/2102.02967

代碼鏈接:

https://github.com/Multimodal-NER/RpBERT

method:作者使用了一個共享參數的多模態 BERT 結構——RpBERT,來同時完成圖像-文本關系判斷以及圖像文本特征的融合。詞特征和 resnet 編碼的圖特征,通過 [SEP] 符號相連,輸入到 rpBERT 中,輸出的 [CLS] 表示向量用來圖像文本分類。和上一篇論文相同,作者同樣使用一個外部的數據集上訓練了圖像文本關系分類器。之后作者根據圖文關系的置信度乘以視覺表示,連同詞向量一同輸入到 RpBERT 進行 NER 任務的訓練。

2.3.6 UMGF

論文標題:

Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance

收錄會議:

AAAI 2021

論文鏈接:

https://ojs.aaai.org/index.php/AAAI/article/view/17687

代碼鏈接:

https://github.com/TransformersWsz/UMGF

Motivation:使用圖像中檢測出來的 objects 和文本模態進行交互和融合。

Method:和之前的 MNER 任務使用的圖像劃分方案不同,本文的作者使用圖像目標檢測器檢測出的 objects 作為圖像模態的交互單元。作者使用圖神經網絡來實現多模態的交互。在構圖過程中,每個圖像目標作為一個圖像節點,每個詞當做一個文本節點。除此之外,作者使用了句法解析器來輔助構圖。使用圖神經網絡交互過的兩個模態的單元再使用一個雙流的 cross-transformer 級聯一層交叉的門控機制,然后再經過一個線性層和 CRF,得到最終輸出。


總結與展望

本章節為開放環節,歡迎各位小伙伴把自己的想法發到評論區,供大家討論交流。

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的When 多模态 meets 信息抽取的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产99久久久久久免费看 | 人妻无码一区二区三区免费 | 日本不卡二区 | 干欧美少妇 | 色呦呦呦呦 | 亚洲一级片| 星空大象在线观看免费播放 | 一级成人免费视频 | 色偷偷888欧美精品久久久 | 国产黄色大片视频 | 国产成人在线免费 | 懂色中文一区二区在线播放 | 国产精品久久久久久久免费看 | 一级v片| 新天堂av| 青青草小视频 | 成人av手机在线 | 国产精品久久久99 | 日本黄a三级三级三级 | 亚洲天堂国产 | 日韩三级中文字幕 | 色综合免费 | 成人国产精品视频 | 爱色av网站| 成人综合精品 | 午夜激情久久久 | 久久综合操 | 黄色免费91 | 在线观看av网站 | 欧美xxxx性xxxxx高清 | 色秀视频网 | 在线观看国产免费视频 | 国产精品无码av在线有声小说 | 超碰超碰97| 国产人成视频在线观看 | 精品成人一区二区 | 中国av免费看 | 久草网视频在线观看 | 天降女子在线观看 | 亚洲在线视频观看 | 中文字幕综合网 | 国产微拍精品一区 | 99riav3国产精品视频 | 亚洲精品视频观看 | 久操精品在线 | 激情综合久久 | 中文字幕日本人妻久久久免费 | 夜夜久久 | 自拍偷拍福利 | 黄色免费网站观看 | 黄色一级片黄色一级片 | 国产伦精品一区二区三区 | 亚洲在线日韩 | 男女啪啪无遮挡 | 永久免费54看片 | 亚洲欧美激情另类 | 国产精品色婷婷99久久精品 | 美丽的姑娘在线观看免费 | 亚洲精品国产a | 欧美一区二区三区色 | 高清av网站| 亚洲国产日韩在线一区 | 菊肠扩张playh | www夜插内射视频网站 | 午夜成年视频 | 最新不卡av | 丁香六月综合 | 国产亚洲精品久久久 | avav我爱av | 波多野结衣三级视频 | 日韩在线一区视频 | 丁香六月五月婷婷 | 亚洲国产精品免费视频 | 黑料视频在线 | 久久久国产片 | 日韩乱论| 亚洲国产毛片 | 国产一区毛片 | 日韩伦理中文字幕 | 日韩免费高清视频网站 | 日韩av专区 | 国产欧美一区二区在线观看 | 99亚洲精品 | a v免费视频 | 欧美精品久久久久久久 | 老女人黄色片 | 精品人妻二区中文字幕 | 波多野结av衣东京热无码专区 | 欧美日韩中文字幕一区二区 | 日韩v片 | 日本不卡高字幕在线2019 | 欧美一级高潮片 | 五月婷婷激情综合 | 色5566 | 最新日韩视频 | 91抖音成人 | 日韩在线观看视频一区二区 | 久久国产精品无码一区二区 | 毛片免|