日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文NER涨点神器!基于多元数据的双流Transformer编码模型

發(fā)布時間:2024/10/8 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文NER涨点神器!基于多元数据的双流Transformer编码模型 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者?|?寧金忠

學(xué)校?|?大連理工大學(xué)博士生

研究方向?|?信息抽取

本篇論文發(fā)表于 ACL 2021,作者聚焦于中文 NER 任務(wù)。近些年來,在模型中引入詞匯信息已經(jīng)成為提升中文 NER 性能的主流方法。已有的中文 NER 詞增強(qiáng)方式主要通過 lattice 結(jié)構(gòu)在模型中引入詞匯的邊界信息和詞嵌入信息?,F(xiàn)如今我們使用的漢字從古老的象形文字演化而來,漢字中包含的偏旁部首等結(jié)構(gòu)可以代表某些含義。因此,本文的作者提出在模型中融合進(jìn)漢字的結(jié)構(gòu)信息(例如部首等)。

論文標(biāo)題:

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

論文鏈接:

https://aclanthology.org/2021.acl-long.121.pdf

中文詞匯增強(qiáng)回顧

中文 NER 的詞匯增強(qiáng)主要分為兩條路線:

1. Dynamic Architecture:通過動態(tài)結(jié)構(gòu),在模型中注入詞匯信息;

2. Adaptive Embedding:將詞匯信息融合到 Embeding 中。

近些年來各大頂會上的中文 NER 詞匯增強(qiáng)相關(guān)論文總結(jié)如下(參考博文 [1] ):

其具體實(shí)現(xiàn)方法總結(jié)為:

▲ 詞增強(qiáng)NER模型簡介

已有的詞增強(qiáng) NER 模型的性能如下圖所示:

▲ 模型實(shí)驗結(jié)果(表中LEBERT使用的詞表和預(yù)訓(xùn)練詞向量與其他模型不同,結(jié)果在此處僅做參考,詳情見論文)

論文方法介紹

文中作者的主要貢獻(xiàn)為:

  • 在中文 NER 模型中使用了多元數(shù)據(jù)特征(字特征,詞特征以及漢字的結(jié)構(gòu)特征)。

  • 提出了一種能夠?qū)⒆痔卣?、詞特征和部首特征結(jié)合的雙流(two-stream)模型來提高 MECT 方法的性能。

  • 在多個中文 NER 數(shù)據(jù)集上的結(jié)果說明了模型結(jié)果的有效性。

▲ The whole architecture

本文模型的整體架構(gòu)如上圖所示。模型的輸入為中文原始文本,例如圖中所示的“南京市長江大橋”。模型中采用了模型 FLAT 中類似的 encoder 結(jié)構(gòu),從而可以將漢字以及詞匯的語義 & 邊界信息整合到模型當(dāng)中。

▲ FLAT

關(guān)于 FLAT,不了解的小伙伴可以通過該帖子 [1] 進(jìn)行了解。

與 FLAT 中的改進(jìn) Transformer encoder 不同的是,本文的作者提出了一種使用 Cross-Transformer 模塊的 two-stream 模型。作者把漢字和包含漢字的詞語看作一個“元(Meta)”,把每個漢字的包含的字根看做另外一個“元”。之后使用與 Transformer 中類似的自注意力機(jī)制,作者對兩個“元”中的數(shù)據(jù)進(jìn)行雙路的交叉計算相關(guān)性,從而實(shí)現(xiàn)了多元信息的融合。

另外,作者在兩個“元”的自注意力矩陣中加入一個隨機(jī)初始化的注意力矩陣來對多元數(shù)據(jù)之前注意力值的偏差進(jìn)行校正。

2.1 使用CNN提取Radical-level特征

漢字是象形文字,其字形和字義具有非常密切的聯(lián)系。例如,包含“”或者“”的文字通常和植物有關(guān),包含“”的文字通常和疾病有關(guān)。因此,作者采用漢字中包含的字根(Structural Components)的嵌入特征來表達(dá)漢字的結(jié)構(gòu)信息。作者使用的拆分方法是將漢字拆分成無法拆分的最小字根單位(如下圖所示):

▲ 漢字結(jié)構(gòu)信息

之后作者使用如下圖所示的 CNN 網(wǎng)絡(luò)來提取 Radical-level 特征。

作者首先對原始文本中的漢字進(jìn)行拆字,然后把得到的字根特征輸入到 CNN 特征提取器當(dāng)中,然后使用最大值池化和全連接網(wǎng)絡(luò)得到每個漢字的 Radical-level 特征。

2.2 Cross-Transformer模塊

獲取 Radical-level 特征特征后,作者使用 Cross-Transformer 模塊(如下圖所示)來對融合多元數(shù)據(jù)。

模型的輸入 通過詞嵌入特征和 Radical-level 嵌入特征的線性映射得到:

其中, 和 分別是 lattice 嵌入特征和 Radical-level 特征, 為單位矩陣,每一個線性映射矩陣 均為可學(xué)習(xí)參數(shù)。之后,作者使用和 FLAT 模型一樣的相位位置編碼來計算 Cross-Transformer 的注意力矩陣:

其中 是 lattice 注意力得分, 表示部首注意力得分, 為可學(xué)習(xí)參數(shù)。 為相對位置編碼,和 FLAT 中原本的相對位置編碼相比,進(jìn)行了一定的簡化:

2.3 Random Attention & 融合方法

Random Attention 是指在注意力矩陣上加上的一個隨機(jī)初始化的參數(shù)學(xué)習(xí)矩陣:

關(guān)于模型的融合方法,作者將兩路的注意力值拼接以后經(jīng)過一個線性映射來多元數(shù)據(jù)中提取的特征。最后,作者 mask 掉提取的詞部分的特征,將提取的字特征通過 CRF 來進(jìn)行解碼。

實(shí)驗結(jié)果展示

3.1 主試驗

作者在四個經(jīng)典的中文 NER 數(shù)據(jù)集(Weibo,Resume,MSRA,Ontonotes 4.0)上進(jìn)行了實(shí)驗,并且選取 FLAT 作為 baseline。

結(jié)果顯示,相比于 baseline 模型 FLAT,在模型中加入漢字結(jié)構(gòu)特征以后,性能有了一定提升。據(jù)觀察,在小規(guī)模數(shù)據(jù)集(例如 weibo)或者多類別數(shù)據(jù)集(Ontonotes 4.0)上,模型的提升更加顯著。

3.2 Cross-Transformer注意力值可視化

▲ Visualization of cross-attention

從上圖中(a)可以看出,Radical 注意力更關(guān)注全局的相關(guān)性,而 lattice 注意力更關(guān)心漢字和詞匯的相關(guān)性。

3.3 Radical特征的影響

▲ Visualization of cross-attention

  • 作者利用 Resume 數(shù)據(jù)集訓(xùn)練得到的漢字 radical-level embedding 進(jìn)行了可視化,發(fā)現(xiàn)結(jié)構(gòu)相近或者包含字根相近的字,在 radical-level embedding 空間中的距離就越近。結(jié)果如上圖所示。

  • 作者發(fā)現(xiàn)引入 radical-level 特征,可是使得一些常見的錯誤得到修正。例如在 Ontonotes 4.0 數(shù)據(jù)集中,“百分之四十三點(diǎn)二(43.2%)”被標(biāo)注成了 PER 人名。引入 radical-level 特征后可以對該問題進(jìn)行校正。

3.4 推理速度

▲ Relative inference speed of each model

由于模型采用了 Transformer 編碼結(jié)構(gòu),模型具有不錯的推理速度。

3.5 消融實(shí)驗

▲ 消融試驗方案

▲ 消融實(shí)驗結(jié)果

作者設(shè)計了三個消融實(shí)驗:

  • 實(shí)驗 A:把 Radical 特征和 lattice 特征拼接,使用 single-stream 模型。

  • 實(shí)驗 B:依然使用 two-stream 模型,但兩個 stream 之間不再交叉計算注意力值。

  • -RA 實(shí)驗:指去掉 random attention 的實(shí)驗。

實(shí)驗結(jié)果顯示,模型中的模塊均有效。

結(jié)論

本文提出了一個融入漢字結(jié)構(gòu)特征的 two-stream Transformer 編碼模型——MECT,該模型在多個中文 NER 數(shù)據(jù)集上均取得了很好的效果。

參考文獻(xiàn)

[1] Li X , ?Yan H , ?Qiu X , et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C]. ACL 2020.

[2] Wu S, Song X, Feng Z. MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition[J]. ACL 2021.

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

·

總結(jié)

以上是生活随笔為你收集整理的中文NER涨点神器!基于多元数据的双流Transformer编码模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 蜜臀视频一区二区三区 | 欧美性生活 | 欧美在线激情 | 日本三级理论片 | 欧美成人免费网站 | 国产老女人精品毛片久久 | 人妻熟女一区二区aⅴ水 | 激情伦成人综合小说 | av综合站| 九九视频在线播放 | 国产视频99| 国产亚洲av综合人人澡精品 | 911亚洲精选| 男人捅爽女人 | 曰本女人与公拘交酡 | 亚洲精品一二三区 | 亚洲永久精品国产 | 国产精品欧美激情在线播放 | 久操热线 | 日韩草逼视频 | 国产视频999 | 国产剧情av引诱维修工 | 美女视频黄色在线观看 | 国产午夜一区二区三区 | 中文字幕av免费在线观看 | 日产久久久久久 | 欧美成人乱码一区二区三区 | 美女啪啪动态图 | 五十路av | 亚洲激情午夜 | 粉色视频免费 | 好姑娘在线观看高清完整版电影 | 欧美日韩久久久久久 | 精品人妻无码一区二区性色 | 久久视频一区 | 精品日韩一区二区三区 | 国产精品免费一区二区三区在线观看 | 欧美日韩在线综合 | 天堂在线观看 | 二区三区在线 | 欧美图片第一页 | 国产成人精品一区二区三区在线观看 | 久草视 | 日韩欧美精品国产 | 少妇献身老头系列 | 欧美日本一道 | 天堂中文字幕免费一区 | 在线精品免费视频 | ,午夜性刺激免费看视频 | 欧美精品成人一区二区三区四区 | 国产视频一区在线观看 | 精品国产91 | 最好看的中文字幕国语电影mv | 亚洲AV成人无码久久 | 男人操女人逼逼视频 | 精品中文字幕一区二区 | 亚洲色图第一页 | 狠狠躁18三区二区一区视频 | 久久小视频| 18岁毛片 | 91激情影院 | 三级做爰在线观看视频 | 天天做天天爽 | 欧美精品乱码99久久蜜桃 | 91在线视频导航 | 女人下面流白浆的视频 | 奇米中文字幕 | 亚洲成a人 | 成年网站| 91高清免费 | 日本性视频网站 | 亚洲人妖在线 | 天天天天天操 | 69网站在线观看 | 久久久久国产 | 日韩天天| 三级免费网址 | 欧美另类极品videosbest使用方法 | 国产原创在线播放 | 日本三级中文字幕 | 中文免费av | 日韩无码精品一区二区三区 | 亚洲欧美va天堂人熟伦 | ,亚洲人成毛片在线播放 | 免费看黄色的网址 | 视频在线免费观看 | 中文字幕在线观看免费视频 | 日日嗨av一区二区三区四区 | av免费网站在线观看 | 中文字幕人乱码中文字 | 成人黄色动漫在线观看 | 亚洲少妇18p | 深夜国产视频 | 你懂的网站在线 | 欧美精品动漫 | 欧洲黄色网 | 1024金沙人妻一区二区三区 | 国产原创91 | 国产欧美精品在线 |