日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法

發布時間:2024/7/5 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉載自公眾號:機器之心。




選自arXiv

作者:Yue Zhang、Jie Yang

機器之心編譯

參與:路、王淑婷


近日,來自新加坡科技設計大學的研究者在 arXiv 上發布了一篇論文,介紹了一種新型中文命名實體識別方法,該方法利用 Lattice LSTM,性能優于基于字符和詞的方法。與基于字符的方法相比,該模型顯性地利用詞和詞序信息;與基于詞的方法相比,lattice LSTM 不會出現分詞錯誤。這篇論文已被 ACL 2018 接收。


作為信息抽取的一項基本任務,命名實體識別(NER)近年來一直受到研究人員的關注。該任務一直被作為序列標注問題來解決,其中實體邊界和類別標簽被聯合預測。英文 NER 目前的最高水準是使用 LSTM-CRF 模型實現的(Lample et al., 2016; Ma and Hovy, 2016; Chiu and Nichols, 2016; Liu et al., 2018),其中字符信息被整合到詞表征中。


中文 NER 與分詞相關。命名實體邊界也是詞邊界。執行中文 NER 的一種直觀方式是先執行分詞,然后再應用詞序列標注。然而,分割 → NER 流程可能會遇到誤差傳播的潛在問題,因為 NE 是分割中 OOV 的重要來源,并且分割錯誤的實體邊界會導致 NER 錯誤。這個問題在開放領域可能會很嚴重,因為跨領域分詞仍然是一個未解決的難題(Liu and Zhang, 2012; Jiang et al., 2013; Liu et al., 2014; Qiu and Zhang, 2015; Chen et al., 2017; Huang et al., 2017)。已有研究表明,中文 NER 中,基于字符的方法表現要優于基于詞的方法(He and Wang, 2008; Liu et al., 2010; Li et al., 2014)。


圖 1:詞-字符網格。


基于字符的 NER 的一個缺陷在于無法充分利用顯性的詞和詞序信息,而它們是很有用的。為了解決這一問題,本論文研究者利用 lattice LSTM 來表征句子中的 lexicon word,從而將潛在詞信息整合到基于字符的 LSTM-CRF 中。如圖 1 所示,研究者使用一個大型自動獲取的詞典來匹配句子,進而構建基于詞的 lattice。因此,詞序如「長江大橋」、「長江」和「大橋」可用于語境中的潛在相關命名實體消歧,如人名「江大橋」。


由于在網格中存在指數級數量的詞-字符路徑,因此研究者利用 lattice LSTM 結構自動控制從句子開頭到結尾的信息流。如圖 2 所示,門控單元用于將來自不同路徑的信息動態傳送到每個字符。在 NER 數據上訓練后,lattice LSTM 能夠學會從語境中自動找到更有用的詞,以取得更好的 NER 性能。與基于字符和基于詞的 NER 方法相比,本論文提出的模型的優勢在于利用利用顯性的詞信息而不是字符序列標注,且不會出現分詞誤差。


圖 2:Lattice LSTM 結構。


結果顯示該模型顯著優于基于字符的序列標注模型和使用 LSTMCRF 的基于詞的序列標注模型,在不同領域的多個中文 NER 數據集上均獲得最優結果。


模型


研究者遵循最好的英文 NER 模型(Huang et al., 2015; Ma and Hovy, 2016; Lample et al., 2016),使用 LSTM-CRF 作為主要網絡結構。形式上,指定輸入句子為 s = c_1, c_2, . . . , c_m,其中 c_j 指第 j 個字符。s 還可以作為詞序列 s = w_1, w_2, . . . , w_n,其中 w_i 指句子中的第 i 個詞,使用中文分詞器獲得。研究者使用 t(i, k) 來指句子第 i 個詞中第 k 個字符的索引 j。以圖 1 中的句子為例。如果分詞是「南京市 長江大橋」,索引從 1 開始,則 t(2, 1) = 4 (長),t(1, 3) = 3 (市)。研究者使用 BIOES 標記規則(Ratinov and Roth, 2009)進行基于詞和基于字符的 NER 標記。


圖 3:模型。


表 4:在開發集上的結果。


表 5:在 OntoNotes 上的主要結果。


論文:Chinese NER Using Lattice LSTM



  • 論文鏈接:https://arxiv.org/abs/1805.02023

  • 項目鏈接:https://github.com/jiesutd/LatticeLSTM


摘要:我們研究了用于中文命名實體識別(NER)的 lattice LSTM 模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息。與基于詞的方法相比,lattice LSTM 不會出現分詞錯誤。門控循環單元使得我們的模型能夠從句子中選擇最相關的字符和詞,以生成更好的 NER 結果。在多個數據集上的實驗證明 lattice LSTM 優于基于詞和基于字符的 LSTM 基線模型,達到了最優的結果。



OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。