日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

發布時間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:譚亦鳴,東南大學博士生,研究方向為跨語言知識圖譜問答。


來源:EMNLP 2018

鏈接:https://www.aclweb.org/anthology/D18-1034

?

問題背景與動機

本文關注小語種/資源匱乏語言的跨語言命名實體識別問題,首先作者肯定了現有無監督/弱監督方法在單語資源豐富的情況下能夠取得不錯的性能。但是對于單語資源不足的情況下,這些方法卻無法適用,原因在于:無監督方法需要構建單語embedding并投影到共享空間中,但是單語資源不足的情況下,無法構建有質量的embedding;弱監督方法則需要使用一定規模(10K~1M)的雙語詞典作為語言對齊的seed,顯然這個要求對于小資源語言(如維吾爾語)也是相對苛刻了。

為了解決這一問題,作者提出結合詞典方法與embedding方法,利用微量平行數據(<10K)構建embedding,將豐富資源的英語數據與微量資源的小語種詞匯投影到共享空間中,而后利用近鄰方式構建規模更大的雙語詞典,再利用雙語詞典將英語數據word-by-word譯為小語種數據,用于NER模型的訓練。同時,考慮到這種方法產生的語言距離真實的自然語言表達存在差異,作者在NER模型中引入self-attention試圖減緩這種影響

?

貢獻

1.? 提出了一種通過語言遷移實現的跨語言NER策略

2. 提出一種 order-invariant self-attention 機制用于緩解語言遷移以及數據量不足對 NER 模型產生的影響

?

方法說明

本文的方法過程描述如下:

1.? 使用單語語料獨立訓練兩種語言的 embedding 單語嵌入使用的方法類似 (Mikolovetal., 2013b; Pennington et al., 2014; Bojanowskiet al., 2017)等人的工作,利用單語文本訓練嵌入矩陣。

2.? 利用給定的微量雙語字典,將上述兩種語言的embedding投影到一個共享空間中投影方法,采用的是 (Zhang et al., 2016; Artetxe et al., 2016; Smithet al., 2017) 等類似的方式,通過訓練投影矩陣,實現將兩種語言的 embedding 投影

3.? 對于單語資源豐富的英語embedding,利用最近鄰策略,挑選另一語言的詞語的embedding作為其翻譯結果,從而構建較大規模的雙語字典在計算embedding相似度方面,采用cross-domain similarity local scaling (CSLS) metric(Lample et al., 2018)實現。

4.? 利用3中的翻譯將英語命名實體識別語料譯為另一語言,同時保留命名實體標簽,用于NER模型的訓練

下圖是上述過程的一個示意,語言對為英語-西班牙語:

模型

NER模型方面,作者采用了一個分層神經網絡+self-attention+CRF的序列標注方案:其中輸入粒度被細化到了char級,每個單詞的字母都通過雙向RNN融合得到,此基礎上再通過一層雙向RNN做詞級別的embedding,之后使用self-attention對得到的每個詞的embedding做一步轉換得到embedding_a,而后將embedding與embedding_a進行組合,得到用于訓練CRF序列標注過程的單詞表示。

?

實驗

數據集

實驗數據方面,作者采用了CoNLL 2002以及2003 NER公開數據集,其中包含英德荷及西班牙語共四種語言,通過將英語與其他三種語言組合為“資源豐富-資源缺乏”的語言組合,構建出上述方法所需的數據形式。

?

實驗結果

表1 反映了本文方法在公開數據集上的實驗,采用F1值作為評價指標,結果上看,相對其他同類模型,本方法的性能提升較為顯著。

同時作者也針對embedding過程的效果進行統計評判,這種使用近鄰進行翻譯的方法,在雙語性能上表現出了一定提升。

同時作者也對小語種維吾爾語進行了NER實驗對比,在無額外知識補充的且使用微量平行數據的情況下,本文增量模型的性能提升還是比較明顯。但是整體結果上,相對目前最好的模型差距還是是否明顯,作者認為產生這一情況的原因在于維吾爾語極低的單語質量,且英語和維吾爾語之間的天然差異本身就非常的大。

?


OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。