日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

bilstm+crf中文分词_基于LSTM的中文分词模型

發布時間:2023/12/31 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 bilstm+crf中文分词_基于LSTM的中文分词模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

中文分詞任務是一個預測序列的經典問題,已知的方法有基于HMM[1]的分詞方法、基于CRF[2]的方法和基于LSTM的分詞方法。

本文介紹Xinchi Chen等人[3]提出的基于LSTM的分詞方法。根據Atlas ML團隊的工作[4],基于ICWS2005MSRA數據集上的最佳模型,由上述LSTM模型的分詞方法取得,F1值為97.40%,其模型結構為預處理層+多字(Bigram)+LSTM層+CRF層。

本文根據Xinchi Chen等人的論文,在ICWS2005PKU數據集上,利用Keras構建網絡進行了重復實驗,損失函數用了文中提到的squared_hinge方法,optimizer用了nadam方法。模型分為四層,第一層輸入層的最大長度為1019,由于在PKU訓練集和測試集上最長語句為1019個字;第二層為嵌入層,其中根據PKU訓練集生成的字表為4698個字,并增加一個未登錄詞字符,共4699個元素,嵌入空間100維,標識0為特殊字符在空間隱去(對于未登陸此,輸入層傳參時索引賦值為0);第三層為雙向LSTM層,含150個lstm cell單元,經過Xinchi Chen實驗證明窗口為(0,2)時,即對于每個字符c,(c+0,c+2)的滑動窗口時LSTM效果最佳,直接采用它的結論進行實驗;最后加入全連接層,kernelregularizer使用了0.0001的L2正則。訓練的batch_size為1024,訓練100輪,在PKU測試集上達到了0.9566的精度。

原始論文的F1值為95.7%,僅利用C0窗口的BiLSTM模型在PKU測試集上的準確率,見圖1:

圖1 Bi-LSTM在ICWS2005-PKU訓練集下的評價

各損失函數與優化函數在模型下,訓練1輪達到的精度如圖2:

實現的程序見[5]。

[1]隱馬爾可夫模型;部分可見馬爾可夫模型. https://zhuanlan.zhihu.com/p/106054580.

[2]Conditional Random Field中文分詞. https://zhuanlan.zhihu.com/p/107593308.

[3]Xinchi Chen etc al. Long short-term memory neural networks for Chinese word segmentation. //Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing.

[4]Atlas ML. Chinese Segment State of the art. https://paperswithcode.com/task/chinese-word-segmentation

[5]LSTM中文分詞. https://github.com/ShenDezhou/LSTM.

總結

以上是生活随笔為你收集整理的bilstm+crf中文分词_基于LSTM的中文分词模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。