當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Elasticsearch 英文分词中文分词

發(fā)布時間：2023/12/29 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Elasticsearch 英文分词中文分词小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對于倒排索引來說，很重要的一件事情就是需要對文本進行分詞，經(jīng)過分詞可以獲取情感、詞性、質(zhì)性、詞頻等等的數(shù)據(jù)。

在 Elasticsearch 中進行行分詞的需要經(jīng)過分析器的3個模塊，字符過濾器將文本進行替換或者刪除，在由分詞器進行拆分成單詞，最后由Token過濾器將一些無用語氣助詞刪掉。

在Elasticsearch 中共支持5種不同的分詞模式，在不同的場景下發(fā)揮不同的效果。

GET /_analyze {"analyzer": "standard","text": "The programmer's holiday is 1024!" }

GET /_analyze {"analyzer": "simple","text": "The programmer's holiday is 1024!" }

GET /_analyze {"analyzer": "whitespace","text": "The programmer's holiday is 1024!" }

GET /_analyze {"analyzer": "stop","text": "The programmer's holiday is 1024!" }

GET /_analyze {"analyzer": "keyword","text": "The programmer's holiday is 1024!" }

因為 Elasticsearch 默認的分詞器只能按照單字進行拆分，無法具體分析其語意等，所以我們使用 analysis-icu 來代替默認的分詞器。

GET /_analyze {"analyzer": "standard","text": "南京市長江大橋" }

通過命令./bin/elasticsearch-plugin install analysis-icu進行安裝

GET /_analyze {"analyzer": "icu_analyzer","text": "南京市長江大橋" }

elasticsearch-thulac-plugin 支持中文分詞和詞性標注功能
https://github.com/microbun/elasticsearch-thulac-plugin

elasticsearch-analysis-ik 支持熱更新分詞字典及自定義詞庫
https://github.com/medcl/elasticsearch-analysis-ik

以上是生活随笔為你收集整理的Elasticsearch 英文分词中文分词的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。