當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

bilstm+crf中文分词_基于LSTM的中文分词模型

發布時間：2023/12/31 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 bilstm+crf中文分词_基于LSTM的中文分词模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

中文分詞任務是一個預測序列的經典問題，已知的方法有基于HMM[1]的分詞方法、基于CRF[2]的方法和基于LSTM的分詞方法。

本文介紹Xinchi Chen等人[3]提出的基于LSTM的分詞方法。根據Atlas ML團隊的工作[4]，基于ICWS2005MSRA數據集上的最佳模型，由上述LSTM模型的分詞方法取得，F1值為97.40%，其模型結構為預處理層+多字(Bigram)+LSTM層+CRF層。

本文根據Xinchi Chen等人的論文，在ICWS2005PKU數據集上，利用Keras構建網絡進行了重復實驗，損失函數用了文中提到的squared_hinge方法，optimizer用了nadam方法。模型分為四層，第一層輸入層的最大長度為1019，由于在PKU訓練集和測試集上最長語句為1019個字；第二層為嵌入層，其中根據PKU訓練集生成的字表為4698個字，并增加一個未登錄詞字符，共4699個元素，嵌入空間100維，標識0為特殊字符在空間隱去（對于未登陸此，輸入層傳參時索引賦值為0）；第三層為雙向LSTM層，含150個lstm cell單元，經過Xinchi Chen實驗證明窗口為(0,2)時，即對于每個字符c，(c+0,c+2)的滑動窗口時LSTM效果最佳，直接采用它的結論進行實驗；最后加入全連接層，kernelregularizer使用了0.0001的L2正則。訓練的batch_size為1024，訓練100輪，在PKU測試集上達到了0.9566的精度。

原始論文的F1值為95.7%，僅利用C0窗口的BiLSTM模型在PKU測試集上的準確率，見圖1：

圖1 Bi-LSTM在ICWS2005-PKU訓練集下的評價

各損失函數與優化函數在模型下，訓練1輪達到的精度如圖2：

實現的程序見[5]。

[1]隱馬爾可夫模型；部分可見馬爾可夫模型. https://zhuanlan.zhihu.com/p/106054580.

[2]Conditional Random Field中文分詞. https://zhuanlan.zhihu.com/p/107593308.

[3]Xinchi Chen etc al. Long short-term memory neural networks for Chinese word segmentation. //Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing.

[4]Atlas ML. Chinese Segment State of the art. https://paperswithcode.com/task/chinese-word-segmentation

[5]LSTM中文分詞. https://github.com/ShenDezhou/LSTM.

總結

以上是生活随笔為你收集整理的bilstm+crf中文分词_基于LSTM的中文分词模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SRS之安装与使用
下一篇： mfc如何删除lineto画的_有哪些好