日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

小叮咚切分词方法加入sourceforge.net中WebLucene分词模块

發布時間:2024/6/3 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 小叮咚切分词方法加入sourceforge.net中WebLucene分词模块 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

??? 小叮咚采用的是逆向最大匹配分詞法,算法簡單,可以滿足大部分的分詞應用。現在已經集成到WebLucene項目中,開放源代碼。有需要的朋友可以下載代碼使用。
??? 這個版本還沒有實現我在一種面向搜索引擎的中文切分詞方法 一文中提到的分詞思路。比如: 漢字的StopWords,對標點符號的處理等等。
??? 也希望對分詞感興趣的朋友一起討論實現改進實現小叮咚分詞的切分效果。
???

??? 下面是Readme.txt中的內容:


使用說明:
-------------------------------------------------------------------------
||| !!! 注意分詞的詞庫位置:
||| Util.java 中的配置路徑一定要正確,指向:dict\chinesePhraseIndex
||| 詞庫包括3個文件:
||| 2005-01-13 16:05 4 deletable
||| 2005-01-13 16:24 0 a.txt
||| 2005-01-13 16:05 30 segments
||| 2005-01-13 16:05 1,485,193 _11p5.cfs
||| 4 個文件 1,485,227 字節
-------------------------------------------------------------------------
java類說明:
SentenceSpliter.java
分詞主類,可以直接運行來打印測試分詞語句.
ChineseAnalyzer.java
ChineseTokenizer.java
是為lucene寫的中文分詞算法,其中調用了SentenceSpliter.java來獲得分詞結果。
SearchUtil.java 中說明了使用ChineseAnalyzer的方法。
-------------------------------------------------------------------------
使用的類庫:
java jdk 1.4.2
lucene-1.4.3.jar
java-getopt.jar
下載地址:http://apache.justdn.org/jakarta/lucene/binaries/lucene-1.4.3.zip
相關說明:
http://jakarta.apache.org/lucene/docs/index.html
http://blog.csdn.net/accesine960/archive/2004/12/23/227134.aspx
可以使用eclipse 直接打開這個項目
-------------------------------------------------------------------------
其他信息:
**************************************************************************
作者信息:
* @time Created on 2005-1-13
* @author tcf
* @mail xiaodingdong@gmail.com
* @website http://blog.csdn.net/accesine960
* @info 歡迎大家來 http://blog.csdn.net/accesine960/category/35308.aspx
* 這個算法還是beta版本,大家共同努力,把中文分詞做的更好
**************************************************************************

?? 近期將推出C#版本的實現。

?

??? 有相關問題請寫信給小叮咚: xiaodingdong A T Gmail dot Com

轉載于:https://www.cnblogs.com/tianchunfeng/archive/2005/01/18/93799.html

總結

以上是生活随笔為你收集整理的小叮咚切分词方法加入sourceforge.net中WebLucene分词模块的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。