當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

以jieba为首的主流分词工具总结

發(fā)布時間：2024/7/5 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了以jieba为首的主流分词工具总结小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

工具篇

下面列了幾個較為主流的分詞工具（排名不分先后，大家自行試用），相關(guān)的paper請在訂閱號「夕小瑤的賣萌屋」后臺回復(fù)【中文分詞】領(lǐng)取。

1 Jieba

說到分詞工具第一個想到的肯定是家喻戶曉的“結(jié)巴”中文分詞，主要算法是前面講到的基于統(tǒng)計的最短路徑詞圖切分，近期還內(nèi)置了百度飛槳的預(yù)訓(xùn)練模型+大規(guī)模蒸餾的前沿分詞模型。

github項目地址：https://github.com/fxsjy/jieba

2 THULAC（THU Lexical Analyzer for Chinese）

由清華大學(xué)自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包，具有中文分詞和詞性標(biāo)注功能。該工具所采用的分詞模型為結(jié)構(gòu)化感知機。更多算法細(xì)節(jié)請參考github項目和閱讀論文原文。

github項目地址：https://github.com/thunlp/THULAC

論文鏈接：https://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35403

使用示例：

#THULAC #pip install thulac import thulacsentence = "不會講課的程序員不是一名好的算法工程師" thu1 = thulac.thulac(seg_only=True) #只分詞 text = thu1.cut(sentence, text=True) #進行一句話分詞 print("THULAC: " + text)#output #Model loaded succeed #THULAC: 不會講課的程序員不是一名好的算法工程師

3 NLPIR-ICTCLAS漢語分詞系統(tǒng)

北京理工大學(xué)海量語言信息處理與云計算工程研究中心大數(shù)據(jù)搜索與挖掘?qū)嶒炇?#xff08; Big Data Search and Mining Lab.BDSM@BIT）發(fā)布。是基于層次HMM的分詞庫，將分詞、POS、NER等都納入到了一個層次HMM的框架之下聯(lián)合訓(xùn)練得到。

主頁：http://ictclas.nlpir.org/github

項目地址：https://github.com/tsroten/pynlpir

使用示例：

#NLPIR-ICTCLAS #pip install pynlpir import pynlpirsentence = "不會講課的程序員不是一名好的算法工程師" pynlpir.open() tokens = [x[0] for x in pynlpir.segment(sentence)] print("NLPIR-TCTCLAS: " + " ".join(tokens)) pynlpir.close()#output #NLPIR-TCTCLAS: 不會講課的程序員不是一名好的算法工程

4 LTP

哈工大出品，同THULAC一樣，LTP也是基于結(jié)構(gòu)化感知器（Structured Perceptron, SP），以最大熵準(zhǔn)則學(xué)習(xí)的分詞模型。

項目主頁:https://www.ltp-cloud.com/github

項目地址：https://github.com/HIT-SCIR/ltp

論文鏈接：http://jcip.cipsc.org.cn/CN/abstract/abstract1579.shtml

使用示例：使用前需下載分詞模型（http://ltp.ai/download.html）

5 HanLP

HanLP是隨《自然語言處理入門》配套開源的一系列NLP算法庫。除了經(jīng)典的1.x版本在不斷迭代更新以外，今年還全新推出了2.0版本。1.x版本有有基于詞典的分詞工具和基于CRF的切詞模型。2.0版本開源了基于深度學(xué)習(xí)算法的分詞工具。

1.x版本

github項目地址：https://github.com/hankcs/pyhanlp

2.0版本

github地址：https://github.com/hankcs/HanLP/tree/doc-zh

使用示例：要求Python 3.6以上使用

#HanLP #v2.0 #pip install hanlp import hanlpsentence = "不會講課的程序員不是一名好的算法工程師" tokenizer = hanlp.load('PKU_NAME_MERGED_SIX_MONTHS_CONVSEG') tokens = tokenizer(sentence) print("hanlp 2.0: " + " ".join(tokens)) #output #hanlp 2.0: 不會講課的程序員不是一名好的算法工程

6 Stanford CoreNLP

斯坦福推出的切詞工具，可以支持多種語言。算法核心是基于CRF模型。

github項目地址：https://github.com/Lynten/stanford-corenlp

論文鏈接：https://nlp.stanford.edu/pubs/sighan2005.pdf

使用示例：需要先從stanford官網(wǎng)下載中文切詞模型（https://stanfordnlp.github.io/CoreNLP/）

###stanford CoreNLP #pip install stanfordcorenlp from stanfordcorenlp import StanfordCoreNLPsentence = "不會講課的程序員不是一名好的算法工程師" with StanfordCoreNLP(r'stanford-chinese-corenlp-2018-10-05-models', lang='zh') as nlp:print("stanford: " + " ".join(nlp.word_tokenize(sentence)))

總結(jié)

以上是生活随笔為你收集整理的以jieba为首的主流分词工具总结的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：卖萌屋原创专辑首发，算法镇魂三部曲！
下一篇：分类问题后处理技巧CAN，近乎零成本获取