日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

coreseek添加新词库

發(fā)布時(shí)間:2023/12/10 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 coreseek添加新词库 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

coreseek添加新詞庫

coreseek使用mmseg作為分詞工具,默認(rèn)的詞庫是有限的,我們需要為mmseg增加自定義詞,用來豐富詞庫,實(shí)現(xiàn)更加精準(zhǔn)的搜索服務(wù)。本文介紹如何自定義mmseg詞,并通過腳本和mmseg命令導(dǎo)入詞庫。

1、下載搜狗詞庫
搜狗詞庫下載地址:http://pinyin.sogou.com/dict/

2、然后通過以下工具 把搜狗詞庫scel轉(zhuǎn)txt/mmseg
https://www.toolnb.com/tools/scelto.html

3、將多個(gè)詞庫txt文本文件合并為一個(gè)文件

新建一個(gè)文本文檔,文本中輸入如下代碼:

copy *.txt unigram.txt
將文本文檔的擴(kuò)展名改為bat,如“merge.bat”。

雙擊運(yùn)行merge.bat,會(huì)將所有以.txt結(jié)尾的文件合并到unigram.txt中


4、生成uni.lib最終詞庫
用cmd命令行進(jìn)入bin文件夾,里面有個(gè)mmseg.exe 程序
cd E:\..\coreseek-3.2.14-win32\coreseek-3.2.14-win32\bin
unigram.txt也放入這個(gè)文件夾
在cmd中運(yùn)行以下命令

mmseg -u unigram.txt

將會(huì)在unigram.txt所在目錄中產(chǎn)生一個(gè)名為unigram.txt.uni的文件,
將該文件改名為uni.lib,
完成詞典的構(gòu)造。

需要注意的是,unigram.txt需要預(yù)先準(zhǔn)備,并且編碼格式必須為UTF-8編碼。

?

  5. 測試新詞庫能否正解分詞。在C:\coreseek\bin下新建文本文件test.txt。輸入要測試的關(guān)鍵詞。 例如:四季服裝網(wǎng)中大面料輔料,然后保存。當(dāng)中一定要包含你新加進(jìn)詞庫的某個(gè)關(guān)鍵詞。例如四季服裝網(wǎng)是我新加的 關(guān)鍵詞。然后在剛才的命令行下執(zhí)行mmseg -d C:\coreseek\bin test.txt>result.txt .執(zhí)行完后打開新生產(chǎn) 的結(jié)果文件result.txt .如果看到分詞結(jié)果類似四季服裝網(wǎng)/x 中大/x 面料/x 輔料/x 的話證明詞庫已正確生成, 如果看到新關(guān)鍵詞被分切開如: 四/x 季/x 服/x 裝/x網(wǎng)/x 中大/x 面料/x 輔料/x的話就說明新的詞庫并不正確。 要檢查一下哪里出錯(cuò)了,重新生產(chǎn)。

  6. 再把得到的uni.lib復(fù)制到C:\coreseek\etc覆蓋原文件就大功告成了

?

把uni.lib放回uni.lib所在目錄


?

總結(jié)

以上是生活随笔為你收集整理的coreseek添加新词库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。