日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Elasticsearch7.15.2 ik中文分词器 定制化分词器之扩展词库(远程)

發布時間:2024/9/27 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Elasticsearch7.15.2 ik中文分词器 定制化分词器之扩展词库(远程) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


IK分詞提供的兩個分詞器,并不支持一些新的詞匯,有時候也不能滿足實際業務需要,這時候,我們可以定義自定義詞庫來完成目標。

文章目錄

          • 一、靜態web搭建
            • 1. 安裝nginx
            • 2. 創建es目錄
            • 3. 創建分詞文件
            • 4. 存放靜態
            • 5. 驗證
          • 二、配置遠程分詞
            • 2.1. 切換用戶
            • 2.2. 配置分詞
            • 2.3. 遠程分詞
            • 2.4. 重啟es
            • 2.5. 驗證分詞
          • 三、熱更新詞庫
            • 3.1. 自定義分詞
            • 3.2. 分詞結果
            • 3.3. 添加分詞庫
            • 3.4. 日志監控
            • 3.5. 分詞驗證

一、靜態web搭建
1. 安裝nginx

nginx 1.9.9 Linux 環境安裝

2. 創建es目錄

在nginx新建一個文件夾es,將ik所需要使用的資源放在里面,用于存放新建的詞庫

cd /usr/local/nginx mkdir es

3. 創建分詞文件

在es目錄下,新建一個文件new_word_fenci.dic,將需要分詞的內容放在該文件中

cd es vim new_word_fenci.dic

添加內容:

凱悅
4. 存放靜態

將es移動到html目錄下,因為nginx默認訪問的是html目錄

mv es ./html/
5. 驗證
http://192.168.92.128/es/new_word_fenci.dic

如圖:

二、配置遠程分詞
2.1. 切換用戶
su - es
2.2. 配置分詞

編輯IKAnalyzer

cd /app/elasticsearch-7.15.2/config/analysis-ik vim IKAnalyzer.cfg.xml
2.3. 遠程分詞

原配置

調整后配置

<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties><comment>IK Analyzer 擴展配置</comment><!--用戶可以在這里配置自己的擴展字典 --><entry key="ext_dict"></entry><!--用戶可以在這里配置自己的擴展停止詞字典--><entry key="ext_stopwords"></entry><!--用戶可以在這里配置遠程擴展字典 --><entry key="remote_ext_dict">http://192.168.92.128:80/es/new_word_fenci.dic</entry><!--用戶可以在這里配置遠程擴展停止詞字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> --> </properties>
2.4. 重啟es

說明:kibana需要一直處于啟動

2.5. 驗證分詞
# 查閱凱悅分詞 GET /shop/_analyze {"analyzer": "ik_smart","text": "凱悅" }GET /shop/_analyze {"analyzer": "ik_max_word","text": "凱悅" }

三、熱更新詞庫
3.1. 自定義分詞
# 查閱凱悅分詞 GET /shop/_analyze {"analyzer": "ik_smart","text": "我是專家" }GET /shop/_analyze {"analyzer": "ik_max_word","text": "我是專家" }
3.2. 分詞結果
{"tokens" : [{"token" : "我","start_offset" : 0,"end_offset" : 1,"type" : "CN_CHAR","position" : 0},{"token" : "是","start_offset" : 1,"end_offset" : 2,"type" : "CN_CHAR","position" : 1},{"token" : "專家","start_offset" : 2,"end_offset" : 4,"type" : "CN_WORD","position" : 2}] }
3.3. 添加分詞庫

把我是專家添加分詞庫

cd /usr/local/nginx/html/es/ vim new_word_fenci.dic

添加我是專家到分詞庫:

我是專家

一個分詞為一行

3.4. 日志監控

[2021-11-21T16:26:35,785][INFO ][o.w.a.d.Dictionary ] [es] start to reload ik dict. [2021-11-21T16:26:35,787][INFO ][o.w.a.d.Dictionary ] [es] try load config from /app/elasticsearch-7.15.2/config/analysis-ik/IKAnalyzer.cfg.xml [2021-11-21T16:26:35,938][INFO ][o.w.a.d.Dictionary ] [es] [Dict Loading] http://192.168.92.128:80/es/new_word_fenci.dic [2021-11-21T16:26:35,946][INFO ][o.w.a.d.Dictionary ] [es] 凱悅 [2021-11-21T16:26:35,947][INFO ][o.w.a.d.Dictionary ] [es] 我是專家 [2021-11-21T16:26:35,947][INFO ][o.w.a.d.Dictionary ] [es] reload ik dict finished.
3.5. 分詞驗證
# 查閱凱悅分詞 GET /shop/_analyze {"analyzer": "ik_smart","text": "我是專家" }GET /shop/_analyze {"analyzer": "ik_max_word","text": "我是專家" }

總結

以上是生活随笔為你收集整理的Elasticsearch7.15.2 ik中文分词器 定制化分词器之扩展词库(远程)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。