當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

發布時間：2024/7/5 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理：譚亦鳴，東南大學博士生，研究方向為跨語言知識圖譜問答。

來源：EMNLP 2018

鏈接：https://www.aclweb.org/anthology/D18-1034

問題背景與動機

本文關注小語種/資源匱乏語言的跨語言命名實體識別問題，首先作者肯定了現有無監督/弱監督方法在單語資源豐富的情況下能夠取得不錯的性能。但是對于單語資源不足的情況下，這些方法卻無法適用，原因在于：無監督方法需要構建單語embedding并投影到共享空間中，但是單語資源不足的情況下，無法構建有質量的embedding；弱監督方法則需要使用一定規模（10K~1M）的雙語詞典作為語言對齊的seed，顯然這個要求對于小資源語言（如維吾爾語）也是相對苛刻了。

為了解決這一問題，作者提出結合詞典方法與embedding方法，利用微量平行數據（<10K）構建embedding，將豐富資源的英語數據與微量資源的小語種詞匯投影到共享空間中，而后利用近鄰方式構建規模更大的雙語詞典，再利用雙語詞典將英語數據word-by-word譯為小語種數據，用于NER模型的訓練。同時，考慮到這種方法產生的語言距離真實的自然語言表達存在差異，作者在NER模型中引入self-attention試圖減緩這種影響

貢獻

1.? 提出了一種通過語言遷移實現的跨語言NER策略

2. 提出一種 order-invariant self-attention 機制用于緩解語言遷移以及數據量不足對 NER 模型產生的影響

方法說明

本文的方法過程描述如下：

1.? 使用單語語料獨立訓練兩種語言的 embedding 單語嵌入使用的方法類似 (Mikolovetal., 2013b; Pennington et al., 2014; Bojanowskiet al., 2017)等人的工作，利用單語文本訓練嵌入矩陣。

2.? 利用給定的微量雙語字典，將上述兩種語言的embedding投影到一個共享空間中投影方法，采用的是 (Zhang et al., 2016; Artetxe et al., 2016; Smithet al., 2017) 等類似的方式，通過訓練投影矩陣，實現將兩種語言的 embedding 投影

3.? 對于單語資源豐富的英語embedding，利用最近鄰策略，挑選另一語言的詞語的embedding作為其翻譯結果，從而構建較大規模的雙語字典在計算embedding相似度方面，采用cross-domain similarity local scaling (CSLS) metric(Lample et al., 2018)實現。

4.? 利用3中的翻譯將英語命名實體識別語料譯為另一語言，同時保留命名實體標簽，用于NER模型的訓練

下圖是上述過程的一個示意，語言對為英語-西班牙語：

模型

NER模型方面，作者采用了一個分層神經網絡+self-attention+CRF的序列標注方案：其中輸入粒度被細化到了char級，每個單詞的字母都通過雙向RNN融合得到，此基礎上再通過一層雙向RNN做詞級別的embedding，之后使用self-attention對得到的每個詞的embedding做一步轉換得到embedding_a，而后將embedding與embedding_a進行組合，得到用于訓練CRF序列標注過程的單詞表示。

實驗

數據集

實驗數據方面，作者采用了CoNLL 2002以及2003 NER公開數據集，其中包含英德荷及西班牙語共四種語言，通過將英語與其他三種語言組合為“資源豐富-資源缺乏”的語言組合，構建出上述方法所需的數據形式。

實驗結果

表1 反映了本文方法在公開數據集上的實驗，采用F1值作為評價指標，結果上看，相對其他同類模型，本方法的性能提升較為顯著。

同時作者也針對embedding過程的效果進行統計評判，這種使用近鄰進行翻譯的方法，在雙語性能上表現出了一定提升。

同時作者也對小語種維吾爾語進行了NER實驗對比，在無額外知識補充的且使用微量平行數據的情況下，本文增量模型的性能提升還是比較明顯。但是整體結果上，相對目前最好的模型差距還是是否明顯，作者認為產生這一情況的原因在于維吾爾語極低的單語質量，且英語和維吾爾語之間的天然差異本身就非常的大。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - ACL2020 | 用于链
下一篇：领域应用 | HiTA知识图谱 “药品-