日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Chinese NER Using Lattice LSTM 论文解读

發(fā)布時(shí)間:2023/12/16 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Chinese NER Using Lattice LSTM 论文解读 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Abstract

我們研究了一種籬笆(Lattice)結(jié)構(gòu)的LSTM模型為中文NER任務(wù)。它能夠編一序列的a sequence 的characters 和words。相對(duì)于characters編碼,它能夠加載words信息;相對(duì)于words編碼,它不用承受 分割誤差(segmentation errors)。門(mén)控循環(huán)細(xì)胞單元(gated recurren cell )使我們可以選擇句子中最相關(guān)的characters和words,以獲得最好的結(jié)果。各種實(shí)驗(yàn)結(jié)果表明,我們的模型比 characters類(lèi)和words類(lèi)的模型都要棒。

1 Introduction

NER近些年來(lái)很火,這是一個(gè)序列標(biāo)注任務(wù),需要預(yù)測(cè)實(shí)體編輯和類(lèi)別標(biāo)簽。目前的 state-of-the-art 模型是 LSTM-CRF模型,它用character信息來(lái)預(yù)測(cè)words。
中文NER是一般需要先進(jìn)行word segment的,然而,segment-> NER 過(guò)程會(huì)遭受 segment的誤差傳播,即segment 誤差會(huì)影響NER的識(shí)別結(jié)果。
目前已經(jīng)證實(shí),character類(lèi)的模型 outperform word類(lèi)的模型。character類(lèi)的模型有一個(gè)缺點(diǎn)就是:word信息沒(méi)有被利用,而這些信息應(yīng)該是很有用的。為了解決這個(gè)問(wèn)題,我們提出了籬笆(Lattice)結(jié)構(gòu)的LSTM-CRF模型。如圖1所示,我們用字典構(gòu)建了一個(gè)匹配句子的 charater-word 籬笆網(wǎng)絡(luò),結(jié)果,word信息,如 長(zhǎng)江大橋、長(zhǎng)江、大橋,可以被用來(lái)消除 潛在的相關(guān)命名實(shí)體,如 江大橋。

因?yàn)樵趌attice中,word-character path是指數(shù)級(jí)的,為此,我們搞了一個(gè)Lattice-LSTM結(jié)構(gòu)來(lái)自動(dòng)控制信息流。如圖2所示,對(duì)每個(gè)character來(lái)說(shuō),門(mén)控單元被用來(lái)動(dòng)態(tài)的routine 來(lái)自不同路徑的信息。

結(jié)果證明,我們的模型效果超棒。

2 Related Work

3 Model

Follow 最好的英文NER任務(wù),我們用 LSTM-CRF 作為我們的主要網(wǎng)絡(luò)結(jié)構(gòu),用BIOES作為tagging架構(gòu)。

3.1 Character-Based Model



在這里,ece^cec代表一個(gè) character embedding lookup table。
用的是雙向LSTM來(lái)做特征提取,即hcj=[hcj←,→hcj]h_c^j=[h_c^j \leftarrow ,\rightarrow h_c^j]hcj?=[hcj?,hcj?]。接著,一個(gè)標(biāo)準(zhǔn)的CRF被用在hcjh_c^jhcj?上為序列標(biāo)注。

  • Char + bichar.

    這里,ebe^beb代表一個(gè)charater bigram lookup table。
  • Char + softword.
    已經(jīng)被證實(shí),用segment作為一個(gè)soft特征,確實(shí)可以提高 character類(lèi)NER任務(wù)的表現(xiàn)。

    這里,ese^ses代表一個(gè) segmentation label embedding lookup table。seg(cj)seg(c_j)seg(cj?)代表 cjc_jcj?上的segment label,它是一個(gè)word segmentor提供的,用BMES來(lái)作表征。

3.2 Word-Based Model



在這里,ewe^wew代表一個(gè)word embedding lookup table. 用的是雙向LSTM來(lái)做特征提取,即hcj=[hcj←,→hcj]h_c^j=[h_c^j \leftarrow ,\rightarrow h_c^j]hcj?=[hcj?,hcj?]。接著,一個(gè)標(biāo)準(zhǔn)的CRF被用在hcjh_c^jhcj?上為序列標(biāo)注。
新點(diǎn):Integrating character representations

character CNN和LSTM一直以來(lái)可以被表示 一個(gè)word中的character表征,這里我們用了它們2個(gè)。上式子中 xjcx_j^cxjc?代表此wjw_jwj?種的character表征。

  • Word + char LSTM.
    令每個(gè)輸入character cjc_jcj? embedding為ec(cj)e^c(c_j)ec(cj?),我們用雙向LSTM來(lái)學(xué)習(xí)word中每個(gè)character的雙向隱層表示,最后詞wiw_iwi?的character表示為:

    其中,len(i)是詞wiw_iwi?的character長(zhǎng)度。
  • Word + char LSTM
    我們研究“ Word + char LSTM”的一個(gè)變體,即 用一個(gè)single LSTM來(lái)得到每個(gè)cjc_jcj?的隱層表征hjc←h_j^c \leftarrowhjc?→hjc\rightarrow h_j^chjc?。將 character hidden states 融入 word representation 的方式和上面相同。
  • Word + char CNN
    令每個(gè)輸入character cjc_jcj? embedding為ec(cj)e^c(c_j)ec(cj?),那么每word的character表征向量 xicx_i^cxic? 的表示為:

    其中,ke=3是卷積核的大小,max意味著 max pooling.

3.3 Lattice Model

咱的模型看起來(lái)像是 character類(lèi)模型的擴(kuò)展,添加了word信息和門(mén)控單元。

如第2節(jié)所示,我們用自動(dòng)分割的大原始文本來(lái)構(gòu)建詞典D。模型的基本循環(huán)單元是由一個(gè)character單元向量 cjcc_j^ccjc? 和一個(gè)隱藏向量hjch_j^chjc? 構(gòu)成的。這基本的循環(huán)LSTM函數(shù)是:
]
其中,ijci_j^cijc?fjcf_j^cfjc?ojco_j^cojc?分別代表輸入門(mén)、遺忘門(mén)、輸出門(mén)。與character類(lèi)模型不同的是,現(xiàn)在cjcc_j^ccjc?的計(jì)算考慮了句子中的詞典級(jí)次級(jí)序列wb,edw_{b,e}^dwb,ed?,每個(gè)wb,edw_{b,e}^dwb,ed?的表征公式如下:

其中,ewe^wew代表著 word embedding lookup table.
另外,cb,ewc_{b,e}^wcb,ew? 被用來(lái)表示 xb,ewx_{b,e}^wxb,ew? 的循環(huán)狀態(tài),cb,ewc_{b,e}^wcb,ew? 的計(jì)算公式如下:

這里沒(méi)有輸出門(mén),因?yàn)樾蛄袠?biāo)注是對(duì) character level 而言的。
with cb,ewc_{b,e}^wcb,ew?,這里就有了更多的數(shù)據(jù)流入到 character cjcc_j^ccjc?。例如,在figure2中,c7cc_7^cc7c? 的輸入就有 x7cx_7^cx7c?(橋)、c6,7wc_{6,7}^wc6,7w?(大橋)、c4,7wc_{4,7}^wc4,7w?(長(zhǎng)江大橋)。我們連接所有的 cb,ewc_{b,e}^wcb,ew? with b∈{b′∣wb′,ed∈D}b \in \{ b'|w_{b',e}^d \in D \}b{bwb,ed?D} 和這細(xì)胞狀態(tài)cecc_e^ccec?。我們?cè)儆靡粋€(gè)門(mén)控單元 ib,eci_{b,e}^cib,ec?來(lái)控制 子序列 cb,ewc_{b,e}^wcb,ew? 流入到 cb,ecc_{b,e}^ccb,ec?的contribution。

細(xì)胞單元的值 cjcc_j^ccjc? 的計(jì)算公式因此變?yōu)?#xff1a;

在公式15中,這門(mén)控值 ib,jci_{b,j}^cib,jc?ijci_j^cijc?被正則化為 αb,jcα_{b,j}^cαb,jc?αjcα_j^cαjc?,計(jì)算公式如下所示:

這最后的隱藏向量hjch_j^chjc?仍然和公式11中一樣。

3.4 Decoding and Training

CRF層是建立在 h1h_1h1?h2h_2h2?hμh_μhμ?之上,對(duì)應(yīng)的標(biāo)簽序列 y=l1,l2,...,lμy = l_1,l_2,...,l_μy=l1?,l2?,...,lμ?的概率為:

其中,y′y'y代表了一條被任意標(biāo)注的序列。訓(xùn)練損失函數(shù)為:

其中,代表著參數(shù)集合。

4 Experiments

我們做了大量實(shí)驗(yàn)。

4.1 Experimental Settings

Data:OntoNotes 4、MSRA、Weibo NER、a Chinese resume datase。
Segmentation:對(duì)OntoNotes 4 和MSRA來(lái)講,其訓(xùn)練集上的 黃金標(biāo)注分割是可以得到的。對(duì)OntoNotes 來(lái)講,其驗(yàn)證集和測(cè)試集上的黃金分割也是可以得到的,但是,對(duì)MSRA來(lái)講,其測(cè)試集得不到 黃金分割,Weibo 和 resume 數(shù)據(jù)集也得不到。于是,我們采用 神經(jīng)網(wǎng)絡(luò)分詞器 來(lái)自動(dòng)進(jìn)行分割。具體的,針對(duì)OntoNotes 4 和MSRA,我們訓(xùn)練分詞器在它們各自的訓(xùn)練集上;對(duì)Weibo 和 resume ,我們采用了 Yang et al 的最好的模型。
Word Embeddings:我們用word2vec 預(yù)訓(xùn)練了word embedding,然后在NER訓(xùn)練中進(jìn)行微調(diào);我們用word2vec 預(yù)訓(xùn)練了character embedding 和 character bigram embedding,然后在NER訓(xùn)練中進(jìn)行微調(diào);
Hyper-parameter settings:參數(shù)設(shè)置如圖所示。針對(duì)每個(gè)具體的數(shù)據(jù)集,沒(méi)有用網(wǎng)格搜索進(jìn)行微調(diào)。

4.2 Development Experiments
結(jié)果如下所示:

其中,值得注意的是:
(1)a word-based LSTM CRF baseline 給出了F1值為64.12%,比 a character-based LSTM CRF baseline 要高。
(2)A CNN representation of character sequences gives a slightly higher F1-score compared to LSTM character representations.
(3)在 word embedding中,當(dāng)給char CNN增加 bichar后,F1值卻下降了。考慮原因?yàn)?#xff1a;CNN本身已經(jīng)抓住了 character 級(jí)的N-gram信息。
(4)Lattice-based 結(jié)果最棒。值得注意的是:當(dāng)bigram 信息加強(qiáng)后,F1值并沒(méi)有提升。考慮其原因: words are better sources of information for character disambiguation compared with bigrams, which are also ambiguous.
(5)Lattice-based 表現(xiàn)超過(guò) char+subword,說(shuō)明:ws the advantage of lattice word information as compared with segmentor word information

4.3 Final Results

用4.2節(jié)得到的3種類(lèi)最優(yōu)模型和歷史上那些名模一起 來(lái)在四種數(shù)據(jù)上做實(shí)驗(yàn)。

4.4 Discussion

F1 against sentence length

值得注意的是以下幾點(diǎn):
(1)The word-based baseline gives substantially higher F1-scores over short sentences, but lower F1-scores over long sentences, which can be because of lower segmentation accuracies over longer sentences.
(2)The accuracy of lattice also decreases as the sentence length increases, which
can result from exponentially increasing number of word combinations in lattice.
Case Study
注意到word+char+bichar和lattice有相同的word信息源,區(qū)別在于:word+char+bichar首先使用詞匯是在分詞器中,這會(huì)施加硬約束(即,固定詞)到NER任務(wù)中。相比之下,lattice LSTM可以自由考慮所有詞典匯詞。

5 Conclusion

由于lattice方法和word segment是獨(dú)立的,所以在利用word信息上對(duì)NER消歧更有效果。

總結(jié)

以上是生活随笔為你收集整理的Chinese NER Using Lattice LSTM 论文解读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。