日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Elasticsearch索引分析

發布時間:2024/9/16 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Elasticsearch索引分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

首先把一個文本塊分析成一個個單獨的詞(term),為了后面的倒排索引做準備。然后標準化這些詞為標準形式,提高它們的“可搜索性”,這些工作是分析器(analyzers)完成的。一個分析器(analyzers)是一個組合,實現以下三個功能:

  • 字符過濾器:字符串經過字符過濾器(character filter)處理,他們的工作是在標記化之前處理字符串。字符過濾器能夠去除HTML標記,或者轉換&為and
  • 分詞器:分詞器(tokenizer)被標記化成獨立的詞,一個簡單的分詞器(tokenizer)可以根據空格或逗號將單詞分開。
  • 詞元過濾器:每個詞都通過所有標記過濾(token filters)處理,他可以修改詞(例如將Quick轉為小寫),去掉詞(例如像a、and、the等),或者增加詞(例如同義詞像jump和leap)。
  • Elasticsearch提供了很多內置的字符過濾器,分詞器和標記過濾器。這些可以組合來創建自定義過濾器以應對不同的需求。

    分析器

    POST _analyze {"analyzer": "standard","text": "this is a test" }

    使用standard分析器,該結果返回this is a test,在這個分詞器下,將會分析成this,is,a,test四個詞。
    使用自定義分詞器

    POST _analyze {"tokenizer": "keyword","filter": ["lowercase"], "char_filter": ["html_strip"],"text": "this is a <b>Test</b>" }

    結果返回:

    {"tokens": [{"token": "this","start_offset": 0,"end_offset": 4,"type": "<ALPHANUM>","position": 0},{"token": "is","start_offset": 5,"end_offset": 7,"type": "<ALPHANUM>","position": 1},{"token": "a","start_offset": 8,"end_offset": 9,"type": "<ALPHANUM>","position": 2},{"token": "test","start_offset": 10,"end_offset": 14,"type": "<ALPHANUM>","position": 3}] }

    使用keyword分詞器、lowercase詞元過濾器、html_strip字符過濾器,這三個部分組成一個分詞器。
    上面的結果返回:

    {"tokens": [{"token": "this is a test","start_offset": 0,"end_offset": 21,"type": "word","position": 0}] }

    總結

    以上是生活随笔為你收集整理的Elasticsearch索引分析的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。