bilstm+crf中文分词_基于LSTM的中文分词模型
中文分詞任務是一個預測序列的經典問題,已知的方法有基于HMM[1]的分詞方法、基于CRF[2]的方法和基于LSTM的分詞方法。
本文介紹Xinchi Chen等人[3]提出的基于LSTM的分詞方法。根據Atlas ML團隊的工作[4],基于ICWS2005MSRA數據集上的最佳模型,由上述LSTM模型的分詞方法取得,F1值為97.40%,其模型結構為預處理層+多字(Bigram)+LSTM層+CRF層。
本文根據Xinchi Chen等人的論文,在ICWS2005PKU數據集上,利用Keras構建網絡進行了重復實驗,損失函數用了文中提到的squared_hinge方法,optimizer用了nadam方法。模型分為四層,第一層輸入層的最大長度為1019,由于在PKU訓練集和測試集上最長語句為1019個字;第二層為嵌入層,其中根據PKU訓練集生成的字表為4698個字,并增加一個未登錄詞字符,共4699個元素,嵌入空間100維,標識0為特殊字符在空間隱去(對于未登陸此,輸入層傳參時索引賦值為0);第三層為雙向LSTM層,含150個lstm cell單元,經過Xinchi Chen實驗證明窗口為(0,2)時,即對于每個字符c,(c+0,c+2)的滑動窗口時LSTM效果最佳,直接采用它的結論進行實驗;最后加入全連接層,kernelregularizer使用了0.0001的L2正則。訓練的batch_size為1024,訓練100輪,在PKU測試集上達到了0.9566的精度。
原始論文的F1值為95.7%,僅利用C0窗口的BiLSTM模型在PKU測試集上的準確率,見圖1:
圖1 Bi-LSTM在ICWS2005-PKU訓練集下的評價各損失函數與優化函數在模型下,訓練1輪達到的精度如圖2:
實現的程序見[5]。
[1]隱馬爾可夫模型;部分可見馬爾可夫模型. https://zhuanlan.zhihu.com/p/106054580.
[2]Conditional Random Field中文分詞. https://zhuanlan.zhihu.com/p/107593308.
[3]Xinchi Chen etc al. Long short-term memory neural networks for Chinese word segmentation. //Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing.
[4]Atlas ML. Chinese Segment State of the art. https://paperswithcode.com/task/chinese-word-segmentation
[5]LSTM中文分詞. https://github.com/ShenDezhou/LSTM.
總結
以上是生活随笔為你收集整理的bilstm+crf中文分词_基于LSTM的中文分词模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SRS之安装与使用
- 下一篇: mfc如何删除lineto画的_有哪些好