日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jieba初步了解

發布時間:2024/1/17 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 jieba初步了解 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

http://www.gowhich.com/blog/147

jieba自帶詞典:dict.txt

一個詞占一行;每一行分三部分,一部分為詞語,另一部分為詞頻,最后為詞性(可省略),用空格隔開

例如:詞 頻率 詞性

一不注意 3 i
一不留神 3 i
一專多能 27 l
一世 770 t
一世之雄 2 i
一世英名 3 m
一世龍門 3 i

?

這篇文檔介紹的比較詳細:http://www.cnblogs.com/wangtao_20/p/3647240.html

關于中文分詞方法的了解:

?

一、基于詞典分詞

?

機械分詞:

按照長度優先級不同,分為最大匹配與最小匹配

按匹配方向不同,分為正向匹配與逆向匹配

缺點:缺乏歧義分析處理,切分精度低

?

基于規則分詞方式:

基于統計分詞方式:

以上兩者可以依賴庫也可以不依賴庫,與詞典分詞結合起來用。難以嚴格區分

實踐中,經常以正向匹配方式為主。

依賴于詞典的方法,缺點是:沒有在詞典中出現的詞語,就沒法作為關鍵詞進行切分(識別新詞一般使用統計法)。

?

二、基于詞頻統計分詞

?

將文章中任意兩個字同時出現的頻率進行統計,次數越高的就可能是一個詞。

實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

?

三、基于規則分詞

?

即基于理解分詞

規則法,目前常見的是CRF(Conditional random field, http://en.wikipedia.org/wiki/Conditional_random_field)。具體的實現可參考http://nlp.stanford.edu/software/segmenter.shtml
基于統計和基于規則的分詞法是非詞典,也就是可以不需要詞典的(實際中是多種方式結合,所以會與詞典結合)。
基于詞典的和不基于詞典的兩類分詞法,有他們各自的優缺點
基于詞典的,部署比較簡單,只需要安裝詞庫即可。實現也簡單,對比查找詞語庫的思路。
缺點是,分詞精度有限,對于詞典里沒有的詞語識別較差。

非詞典分詞法,優點是,對于出現過的詞語識別效果較好,能夠根據使用領域達到較高的分詞精度。
缺點:實現比較復雜。前期需要做大量的工作。

?

現實中,沒有一種分詞方法能夠滿足所有需求。所以一般都是多種分詞方法結合起來使用,相互彌補。

現實中的使用詞典來存儲大部分關鍵詞,而識別新詞使用統計法。最后就是詞典+統計法結合起來使用。

既能達到分詞精準,又能分詞速度快,往往是比較理想的狀態。但要求精準就會存在性能消耗。搜索引擎需要在分詞速度與分詞準確度方面求得平衡。

中文分詞一直要解決的兩大技術難點為:歧義識別和新詞識別(新的人名、地名等)

轉載于:https://www.cnblogs.com/lwhp/p/6079227.html

總結

以上是生活随笔為你收集整理的jieba初步了解的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。