jieba初步了解
http://www.gowhich.com/blog/147
jieba自帶詞典:dict.txt
一個詞占一行;每一行分三部分,一部分為詞語,另一部分為詞頻,最后為詞性(可省略),用空格隔開
例如:詞 頻率 詞性
一不注意 3 i
一不留神 3 i
一專多能 27 l
一世 770 t
一世之雄 2 i
一世英名 3 m
一世龍門 3 i
?
這篇文檔介紹的比較詳細:http://www.cnblogs.com/wangtao_20/p/3647240.html
關于中文分詞方法的了解:
?
一、基于詞典分詞
?
機械分詞:
按照長度優先級不同,分為最大匹配與最小匹配
按匹配方向不同,分為正向匹配與逆向匹配
缺點:缺乏歧義分析處理,切分精度低
?
基于規則分詞方式:
基于統計分詞方式:
以上兩者可以依賴庫也可以不依賴庫,與詞典分詞結合起來用。難以嚴格區分
實踐中,經常以正向匹配方式為主。
依賴于詞典的方法,缺點是:沒有在詞典中出現的詞語,就沒法作為關鍵詞進行切分(識別新詞一般使用統計法)。
?
二、基于詞頻統計分詞
?
將文章中任意兩個字同時出現的頻率進行統計,次數越高的就可能是一個詞。
實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
?
三、基于規則分詞
?
即基于理解分詞
規則法,目前常見的是CRF(Conditional random field, http://en.wikipedia.org/wiki/Conditional_random_field)。具體的實現可參考http://nlp.stanford.edu/software/segmenter.shtml
基于統計和基于規則的分詞法是非詞典,也就是可以不需要詞典的(實際中是多種方式結合,所以會與詞典結合)。
基于詞典的和不基于詞典的兩類分詞法,有他們各自的優缺點
基于詞典的,部署比較簡單,只需要安裝詞庫即可。實現也簡單,對比查找詞語庫的思路。
缺點是,分詞精度有限,對于詞典里沒有的詞語識別較差。
非詞典分詞法,優點是,對于出現過的詞語識別效果較好,能夠根據使用領域達到較高的分詞精度。
缺點:實現比較復雜。前期需要做大量的工作。
?
現實中,沒有一種分詞方法能夠滿足所有需求。所以一般都是多種分詞方法結合起來使用,相互彌補。
現實中的使用詞典來存儲大部分關鍵詞,而識別新詞使用統計法。最后就是詞典+統計法結合起來使用。
既能達到分詞精準,又能分詞速度快,往往是比較理想的狀態。但要求精準就會存在性能消耗。搜索引擎需要在分詞速度與分詞準確度方面求得平衡。
中文分詞一直要解決的兩大技術難點為:歧義識別和新詞識別(新的人名、地名等)
轉載于:https://www.cnblogs.com/lwhp/p/6079227.html
總結
- 上一篇: Android开发7:简单的数据存储(使
- 下一篇: quantum theory