日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

paoding 中文分词学习

發布時間:2023/12/20 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 paoding 中文分词学习 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

因為畢業設計需要用到中文分詞這個功能,自己寫分詞軟件?簡直是天方夜譚。

查了一下比較通用的分詞軟件,最后選擇了paoding中文分詞,理由看圖片:




僅支持java語言作為一個java愛好者,有什么比這句話更有誘惑的呢。

俗話說:萬事開頭難。第一步當然是先現在開發包了,下載地址:點擊打開鏈接

下載之后,下一步就是去閱讀開發文檔了。于是,果斷淚奔了!



有這么簡陋的開發文檔嗎!!!能再簡陋點嗎!!!好吧,忍了!

還好上面還是有“效果體驗”和“開始使用”兩部分的文檔。

先體驗一下



效果還行吧~~


于是就開始使用



原來要設置一個詞庫,瞅瞅下載的開發包,里面有 dic 目錄隨便打開一個文件:

原來是這樣子的。


大致明白了,庖丁是根據這些庫里面的詞組,進行對中文的分詞的。按照開發文檔設置好環境變量,把example包下面的例子拷貝到自己新建的項目中,根據提示,導入需要的包:


paoding依賴的是lucene,所以lucene的jar包要導入,logging的jar包主要負責日志生成,junit復測單元測試。

在paoding的開發包里面的lib目錄下面,有兩個spring的jar包,根據開發文檔目錄(因為只有目錄沒內容)推測,這個是用來支持spring的,暫時不用。


然后運行,結果報錯!錯誤提醒說我沒有設置PAODING_IDC_HOME,我明明設置了啊!重新搞了很多次,依舊不行。沒辦法了問google老師吧,查了半天,原來是開發文檔搞錯了



PAODING_DIC_HOME的變量值少個'/',應該是 E:/data/paoding/dic/ ?

不知道是哪個部分責任的寫的開發文檔。google環境變量的同時也找到了另一種方法,根據環境變量報錯提示,發現還有另一種方法設置paoding_dic_home。


paoding-analysis.jar ?包里面有個文件paoding-dic-home.properties

把里面的修改為下面的

#values are "system-env" or "this"; #if value is "this" , using the paoding.dic.home as dicHome if configed! paoding.dic.home.config-fisrt=this#dictionary home (directory) #"classpath:xxx" means dictionary home is in classpath. #e.g "classpath:dic" means dictionaries are in "classes/dic" directory or any other classpath directory paoding.dic.home=E:/paoding/dic/#seconds for dic modification detection #paoding.dic.detector.interval=60 里面的英文就不需要翻譯了,修改之后就可不修改系統的環境變量了。
然后就可以運行example里面的例子了:


下一步就是研究具體怎么使用paoding分詞了。

-------------------------------------------------------------------------------------------------------------------------------------------------------

自己把自己的這個demo和paoding的開發包放在csdn了,供大家免積分下載,共同交流;點擊打開鏈接



------------------------------------------2013年4月25日17:13:24 補充----------------------------------------------------------

上面是在公司電腦弄得,今天在家里電腦又搞了一次,發現關于PAODING_IDC_HOME總是出現各種問題,如果用電腦的環境變量,貌似不用加最后的"/"而且不區分“\”和“/”……而且每次設置之后貌似eclipse不能檢測到,必須重啟。搞了半天也沒弄明白怎么回事。


最后建議不適用環境變量設置,配置文件中設置,文件夾符合要用“/”最后的一個“/”貌似加不加無所謂。

現在在糾結paoding的自定義詞庫。

總結

以上是生活随笔為你收集整理的paoding 中文分词学习的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。