日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Elasticsearch 英文分词 中文分词

發(fā)布時間:2023/12/29 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Elasticsearch 英文分词 中文分词 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對于倒排索引來說,很重要的一件事情就是需要對文本進行分詞,經(jīng)過分詞可以獲取情感、詞性、質(zhì)性、詞頻等等的數(shù)據(jù)。

Elasticsearch 分詞工作原理

在 Elasticsearch 中進行行分詞的需要經(jīng)過分析器的3個模塊,字符過濾器將文本進行替換或者刪除,在由分詞器進行拆分成單詞,最后由Token過濾器將一些無用語氣助詞刪掉。

英文分詞

在Elasticsearch 中共支持5種不同的分詞模式,在不同的場景下發(fā)揮不同的效果。

standard (過濾標點符號)
GET /_analyze {"analyzer": "standard","text": "The programmer's holiday is 1024!" }

simple (過濾數(shù)字和標點符號)
GET /_analyze {"analyzer": "simple","text": "The programmer's holiday is 1024!" }

whitespace (不過濾,按照空格分隔)
GET /_analyze {"analyzer": "whitespace","text": "The programmer's holiday is 1024!" }

stop (過濾停頓單詞及標點符號,例如is are等等)
GET /_analyze {"analyzer": "stop","text": "The programmer's holiday is 1024!" }

keyword (視為一個整體不進行任何處理)
GET /_analyze {"analyzer": "keyword","text": "The programmer's holiday is 1024!" }

中文分詞

因為 Elasticsearch 默認的分詞器只能按照單字進行拆分,無法具體分析其語意等,所以我們使用 analysis-icu 來代替默認的分詞器。

GET /_analyze {"analyzer": "standard","text": "南京市長江大橋" }

通過命令./bin/elasticsearch-plugin install analysis-icu進行安裝

GET /_analyze {"analyzer": "icu_analyzer","text": "南京市長江大橋" }

其他的中文分詞器

elasticsearch-thulac-plugin 支持中文分詞和詞性標注功能
https://github.com/microbun/elasticsearch-thulac-plugin

elasticsearch-analysis-ik 支持熱更新分詞字典及自定義詞庫
https://github.com/medcl/elasticsearch-analysis-ik

總結

以上是生活随笔為你收集整理的Elasticsearch 英文分词 中文分词的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。