當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Elasticsearch索引分析

發布時間：2024/9/16 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 Elasticsearch索引分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

首先把一個文本塊分析成一個個單獨的詞(term)，為了后面的倒排索引做準備。然后標準化這些詞為標準形式，提高它們的“可搜索性”，這些工作是分析器（analyzers）完成的。一個分析器（analyzers）是一個組合，實現以下三個功能：

字符過濾器：字符串經過字符過濾器(character filter)處理，他們的工作是在標記化之前處理字符串。字符過濾器能夠去除HTML標記，或者轉換&為and

分詞器：分詞器（tokenizer）被標記化成獨立的詞，一個簡單的分詞器（tokenizer）可以根據空格或逗號將單詞分開。

詞元過濾器：每個詞都通過所有標記過濾（token filters）處理，他可以修改詞（例如將Quick轉為小寫），去掉詞（例如像a、and、the等），或者增加詞（例如同義詞像jump和leap）。

Elasticsearch提供了很多內置的字符過濾器，分詞器和標記過濾器。這些可以組合來創建自定義過濾器以應對不同的需求。

分析器

POST _analyze {"analyzer": "standard","text": "this is a test" }

使用standard分析器，該結果返回this is a test，在這個分詞器下，將會分析成this，is，a，test四個詞。
使用自定義分詞器

POST _analyze {"tokenizer": "keyword","filter": ["lowercase"], "char_filter": ["html_strip"],"text": "this is a <b>Test</b>" }

結果返回：

{"tokens": [{"token": "this","start_offset": 0,"end_offset": 4,"type": "<ALPHANUM>","position": 0},{"token": "is","start_offset": 5,"end_offset": 7,"type": "<ALPHANUM>","position": 1},{"token": "a","start_offset": 8,"end_offset": 9,"type": "<ALPHANUM>","position": 2},{"token": "test","start_offset": 10,"end_offset": 14,"type": "<ALPHANUM>","position": 3}] }

使用keyword分詞器、lowercase詞元過濾器、html_strip字符過濾器，這三個部分組成一個分詞器。
上面的結果返回：

{"tokens": [{"token": "this is a test","start_offset": 0,"end_offset": 21,"type": "word","position": 0}] }

總結

以上是生活随笔為你收集整理的Elasticsearch索引分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ElasticSearch重启策略
下一篇： elasticsearch索引模板