當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jieba初步了解

發布時間：2024/1/17 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 jieba初步了解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

http://www.gowhich.com/blog/147

jieba自帶詞典：dict.txt

一個詞占一行；每一行分三部分，一部分為詞語，另一部分為詞頻，最后為詞性（可省略），用空格隔開

例如：詞頻率詞性

一不注意 3 i
一不留神 3 i
一專多能 27 l
一世 770 t
一世之雄 2 i
一世英名 3 m
一世龍門 3 i

這篇文檔介紹的比較詳細：http://www.cnblogs.com/wangtao_20/p/3647240.html

關于中文分詞方法的了解：

一、基于詞典分詞

機械分詞：

按照長度優先級不同，分為最大匹配與最小匹配

按匹配方向不同，分為正向匹配與逆向匹配

缺點：缺乏歧義分析處理，切分精度低

基于規則分詞方式：

基于統計分詞方式：

以上兩者可以依賴庫也可以不依賴庫，與詞典分詞結合起來用。難以嚴格區分

實踐中，經常以正向匹配方式為主。

依賴于詞典的方法，缺點是：沒有在詞典中出現的詞語，就沒法作為關鍵詞進行切分(識別新詞一般使用統計法)。

二、基于詞頻統計分詞

將文章中任意兩個字同時出現的頻率進行統計,次數越高的就可能是一個詞。

實際應用的統計分詞系統都要使用一部基本的分詞詞典（常用詞詞典）進行串匹配分詞，同時使用統計方法識別一些新的詞，即將串頻統計和串匹配結合起來，既發揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

三、基于規則分詞

即基于理解分詞

規則法,目前常見的是CRF（Conditional random field, http://en.wikipedia.org/wiki/Conditional_random_field）。具體的實現可參考http://nlp.stanford.edu/software/segmenter.shtml
基于統計和基于規則的分詞法是非詞典,也就是可以不需要詞典的(實際中是多種方式結合，所以會與詞典結合)。
基于詞典的和不基于詞典的兩類分詞法,有他們各自的優缺點
基于詞典的，部署比較簡單，只需要安裝詞庫即可。實現也簡單，對比查找詞語庫的思路。
缺點是，分詞精度有限，對于詞典里沒有的詞語識別較差。

非詞典分詞法，優點是，對于出現過的詞語識別效果較好，能夠根據使用領域達到較高的分詞精度。
缺點：實現比較復雜。前期需要做大量的工作。

現實中，沒有一種分詞方法能夠滿足所有需求。所以一般都是多種分詞方法結合起來使用，相互彌補。

現實中的使用詞典來存儲大部分關鍵詞，而識別新詞使用統計法。最后就是詞典+統計法結合起來使用。

既能達到分詞精準，又能分詞速度快，往往是比較理想的狀態。但要求精準就會存在性能消耗。搜索引擎需要在分詞速度與分詞準確度方面求得平衡。

中文分詞一直要解決的兩大技術難點為：歧義識別和新詞識別(新的人名、地名等)

轉載于:https://www.cnblogs.com/lwhp/p/6079227.html

總結

以上是生活随笔為你收集整理的jieba初步了解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

Jieba

上一篇： Android开发7：简单的数据存储（使
下一篇： quantum theory