coreseek添加新词库
coreseek添加新詞庫
coreseek使用mmseg作為分詞工具,默認(rèn)的詞庫是有限的,我們需要為mmseg增加自定義詞,用來豐富詞庫,實(shí)現(xiàn)更加精準(zhǔn)的搜索服務(wù)。本文介紹如何自定義mmseg詞,并通過腳本和mmseg命令導(dǎo)入詞庫。
1、下載搜狗詞庫
搜狗詞庫下載地址:http://pinyin.sogou.com/dict/
2、然后通過以下工具 把搜狗詞庫scel轉(zhuǎn)txt/mmseg
https://www.toolnb.com/tools/scelto.html
3、將多個(gè)詞庫txt文本文件合并為一個(gè)文件
新建一個(gè)文本文檔,文本中輸入如下代碼:
copy *.txt unigram.txt
將文本文檔的擴(kuò)展名改為bat,如“merge.bat”。
雙擊運(yùn)行merge.bat,會(huì)將所有以.txt結(jié)尾的文件合并到unigram.txt中
4、生成uni.lib最終詞庫
用cmd命令行進(jìn)入bin文件夾,里面有個(gè)mmseg.exe 程序
cd E:\..\coreseek-3.2.14-win32\coreseek-3.2.14-win32\bin
unigram.txt也放入這個(gè)文件夾
在cmd中運(yùn)行以下命令
mmseg -u unigram.txt
將會(huì)在unigram.txt所在目錄中產(chǎn)生一個(gè)名為unigram.txt.uni的文件,
將該文件改名為uni.lib,
完成詞典的構(gòu)造。
需要注意的是,unigram.txt需要預(yù)先準(zhǔn)備,并且編碼格式必須為UTF-8編碼。
?
5. 測試新詞庫能否正解分詞。在C:\coreseek\bin下新建文本文件test.txt。輸入要測試的關(guān)鍵詞。 例如:四季服裝網(wǎng)中大面料輔料,然后保存。當(dāng)中一定要包含你新加進(jìn)詞庫的某個(gè)關(guān)鍵詞。例如四季服裝網(wǎng)是我新加的 關(guān)鍵詞。然后在剛才的命令行下執(zhí)行mmseg -d C:\coreseek\bin test.txt>result.txt .執(zhí)行完后打開新生產(chǎn) 的結(jié)果文件result.txt .如果看到分詞結(jié)果類似四季服裝網(wǎng)/x 中大/x 面料/x 輔料/x 的話證明詞庫已正確生成, 如果看到新關(guān)鍵詞被分切開如: 四/x 季/x 服/x 裝/x網(wǎng)/x 中大/x 面料/x 輔料/x的話就說明新的詞庫并不正確。 要檢查一下哪里出錯(cuò)了,重新生產(chǎn)。
6. 再把得到的uni.lib復(fù)制到C:\coreseek\etc覆蓋原文件就大功告成了
?
把uni.lib放回uni.lib所在目錄
?
總結(jié)
以上是生活随笔為你收集整理的coreseek添加新词库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Docker Kafka 单机版安装
- 下一篇: Docker 安装nginx,并挂载文件