當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记

發(fā)布時間：2023/12/14 pytorch 40 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者及其單位：北京郵電大學，張俊遙，2019年6月，碩士論文

摘要

實驗數據：來源于網絡公開的新聞文本數據；用隨機欠采樣和過采樣的方法解決分類不均衡問題；使用BIO格式的標簽識別5類命名實體，標注11種標簽。

學習模型：基于RNN-CRF框架，提出Bi-GRU-Attention模型；基于改進的ELMo可移植模型。

一，緒論

1，研究背景及意義

研究背景主要介紹的是時代背景及NER的應用領域。

2，研究現狀

1）基于規(guī)則和詞典的方法；

2）基于統(tǒng)計的方法：語言的N元模型，隱馬爾科夫模型，最大熵模型，條件隨機場，支持向量機，決策樹，基于轉換的學習方法；

3）基于深度學習的方法：基于雙向循環(huán)神經網絡與條件隨機場結合的框架；基于標簽轉移與窗口滑動的方法；注意力機制(Attention)；

4）基于遷移學習的方法。

面臨挑戰(zhàn)：

1）中文命名實體界限難劃分；

2）中文命名實體結構更多樣復雜；

3）中文命名實體分類標準不同，劃分標注結果不同。

3，研究內容

1）數據集收集與預處理；

2）基于雙向循環(huán)神經網絡與條件隨機場模型的研究；

3）基于ELMo的可移植模型研究。

二，相關技術

1，基于循環(huán)神經網絡方法的技術

1）神經單元結構：循環(huán)是指一個神經單元的計算是按照時間順序展開依次進行的過程。具有記憶特征，常用來處理與序列相關的問題。

2）循環(huán)神經網絡的發(fā)展：LSTM取代CNN，主要是解決CNN單元的反向傳播的計算問題。

3）深層網絡搭建：Dropout常被用作防止模型過擬合，減少網絡冗余度，增加模型魯棒性；批量歸一化策略是批量梯度下降算法過程的一項操作；clip是一種有效控制梯度爆炸的算法。

4）目標函數，即損失函數，衡量經過模型計算的預測結果和事實上的結果之間的差距。如：平方差，交叉熵，softmax。

5）注意力機制：論文研究了在LSTM中引入注意力機制。

6）Adam優(yōu)化算法：適合解決梯度稀疏或噪音較高的優(yōu)化問題。

2，基于遷移學習方法的技術

1）基本思想：

（1）預訓練的兩種基本思路：

a）基于共同表示形式的思路：電子文本大多以某種向量形式（詞，句，段，文本）表示輸入到網絡中，如ELMo模型。

b）基于網絡微調的思想：借鑒機器視覺領域的模型思想，在預訓練好的模型上加入針對任務的功能層，在對后幾層進行結構和參數設置的精調。

2）語言模型：雙向語言模型

3）詞向量技術：One-hot向量，稀疏向量和稠密向量。

（1）基于統(tǒng)計的方法

a）基于共現矩陣的方法：在設定的窗口大小內，統(tǒng)計了一個句子中詞語前后相鄰出現的次數，使用這個次數構成的向量當作詞向量，這個向量比較稀疏。

b）奇異值分解的方法：可以看作一種降維過程，把稀疏矩陣壓縮為稠密矩陣的過程。

（2）基于語言模型的方法：

a）跳字模型（skip-gram）：使用一個詞來預測上下文詞語；

b）連續(xù)詞袋模型（CBOW）：使用周圍詞語預測中心詞；

c）ELMo模型：詞向量表達過程是動態(tài)的，即一詞多義下的詞向量完全不同。

4）混淆矩陣：數據科學，數據分析和機器學習中統(tǒng)計分類的實際結果和預測結果的表格表示。

三，命名實體識別任務與數據集

1，命名實體識別任務

1）定義：命名實體識別屬于序列標注類問題，分為三大類（實體類，數量類，時間類），七小類（人名，地名，組織名，日期，時間，貨幣或者百分比）。

2）任務過程：準確劃分出命名實體的邊界，并將命名實體進行正確的分類。

3）判別標準：（1）準確劃分出命名實體的邊界；（2）命名實體的標注分類正確；（3）命名實體內部位置標注有序。
$準確率=標注結果正確的數量標注結果的數量×100%召回率=標注命名實體正確的數量標注命名實體的數量×100%F1=(β2+1)×準確率×召回率(β2×準確率)+召回率×100%準確率=\frac{標注結果正確的數量}{標注結果的數量}\times{100\%} \\召回率=\frac{標注命名實體正確的數量}{標注命名實體的數量}\times{100\%}\\F_1=\frac{(\beta^{2}+1)\times 準確率\times 召回率}{(\beta^{2}\times 準確率) + 召回率}\times{100\%}$

2，數據集收集與處理

1）數據源：本論文數據來源于搜狗實驗室公開的2012年6月到7月期間的國內外國際、體育、社會、娛樂等18類新聞文本。

2）數據處理：jieba+盤古工具，本文研究NER分為五類：人名（58136），地名（87412），機構名（5142），時間（75491），數量（148392）。數據集（句子個數）分：訓練集（197828），驗證集（8994），測試集（3485）。

四，基于改進的神經網絡與注意力機制結合的研究

1，RNN-CRF框架

1）框架結構：以Bi-LSTM-CRF模型為例，包括字嵌入層（字量化表示，輸入到神經網絡），Bi-LSTM神經網絡層（雙向網絡記錄了上下文信息，據此共同訓練計算當前的字的新向量表示，其輸出字或詞的向量維度與神經單元數量有關），CRF層（進行進一步標簽順序的規(guī)則學習）。

2）模型原理：將輸入的語句轉換為詞向量，然后輸入到LSTM網絡計算，接著在CRF層中計算輸出標簽，根據定義的目標函數計算損失，使用梯度下降等算法更新模型中的參數。

2，改進與設計

1）改進的思想與結構設計：改進思路就是簡化神經單元結構，本文使用雙向的GRU結構代替LSTM單元結構，使用神經網絡與注意力機制結合。

2）改進的模型設計

3，實驗與分析

1）實驗思路是以Bi-LSTM-CRF為基礎，并進行網絡優(yōu)化，對比本文提出的Bi-GRU-Attention模型。

實驗一：Bi-LSTM網絡參數

參數名稱數值

batch_size	20
max_num_steps	20
優(yōu)化器	Admin
初始學習率	0.001
衰減率	0.8
clip	5
one-hot_dim	11

實驗二：GRU-Attention模型實驗參數

參數數值

batch_size	20
char_dim	100
max_num_steps	20
神經單元數	128
優(yōu)化器	Adam
初始學習率	0.001
衰減率	0.8
one-hot_dim	11
epoch	100

實驗結果如下：

分類/F1/模型Bi-LSTM-CRFBi-LSTM-AttentionBi-GRU-CRFBi-GRU-Attention

人名	82.32%	82.45%	82.22%	82.42%
地名	89.97%	90.19%	89.93%	91.06%
機構名	91.94%	91.96%	91.94%	91.95%
數量	94.98%	95.06%	95.01%	95.26%
時間	96.05%	96.14%	96.06%	96.14%

五，基于ELMo的可移植模型研究

1，改進的ELMo模型設計

ELMo模型在2018年由Peter提出，Peter團隊使用雙層的循環(huán)神經網絡實現模型的預先訓練。本章基于Peter的ELMo模型設計，提出了直通結構，實現詞向量的提前訓練模型。

1）模型原理：Peters使用CNN-BIG-LSTM網絡實現模型，使用卷積神經網絡實現字符編碼，使用兩層雙向循環(huán)神經網絡實現詞向量的訓練模型。

2）改進與設計：本文使用改進的ELMo預先訓練模型包含輸入層，卷積神經網絡7層，雙向神經網絡2層，輸出層結構。

2，基于ELMo的嵌入式模型設計

1）連接結構：在模型嵌入的銜接層中，本文使用維度映射的方法，將不同維度的輸入輸出維度進行統(tǒng)一。

2）模型設計：本文的嵌入ELMo模型，包含ELMo層，銜接層，神經網絡層，注意力層和輸出調整層結構。

3，實驗

實驗參數配置如下：

1）ELMo模型實驗參數

參數名稱數值

word_dim	100
char_dim	50
activation	ReLU
每層神經單元數目	512
優(yōu)化器	Adam
初始學習率	0.001
lr_decay	0.8
clip	3

2）卷積神經網絡參數

卷積層輸出詞向量維度過濾器個數

conv1	32	32
conv2	32	32
conv3	64	64
conv4	128	128
conv5	256	256
conv6	512	512
conv7	1024	1024

3）移植模型實驗參數

參數名稱數值

batch_size	20
char_dim	100
max_num_steps	20
神經單元數	128
優(yōu)化器	Adam
初始化學習率	0.001
clip	5
dropout	0.1
one-hot_dim	11
epoch	100

實驗結果對比：

分類/F1/模型Bi-LSTM-CRFBi-GRU-Attention改進的ELMo嵌入模型

人名	82.32%	82.42%	83.14%
地名	89.97%	91.06%	92.36%
機構名	91.94%	91.95%	93.02%
數量	94.98%	95.26%	96.13%
時間	96.05%	96.14%	96.55%

六，總結與展望

1，總結

本文主要研究了基于深度學習的中文命名實體識別任務，提出了Bi-GRU-Attention模型減少訓練時間，提升模型準確率；提出了基于改進的ELMo可移植模型，用于應對少量數據集和快速移植不同場景的問題。

2，不足與發(fā)展趨勢

1）公開的權威的中文文本數據集不足；

2）可以劃分更細的領域或分類，分別涉及分類器；

3）基于遷移學習的多任務模型研究是熱點。

閱讀心得：緒論內容相對詳細，結構中規(guī)中矩，美中不足缺乏對研究對象現狀的介紹，國內外研究現狀，要解決的問題以及達到的預期效果未盡闡述。技術要點論述詳盡，本文設計實驗充分且多角度論證，擴展實驗與改進設計也具有一定創(chuàng)新性。通過本篇論文研究學習，在NER領域收獲頗多，很多知識有待彌補，如ELMo模型，遷移學習方面需要加強學習。

本文由博客群發(fā)一文多發(fā)等運營工具平臺 OpenWrite 發(fā)布

總結

以上是生活随笔為你收集整理的【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：巨量引擎搜索计划搭建流程和优化技巧
下一篇：结合深度学习检测心脏智能戒指体积小又准