當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

solr模糊查询_《Solr实战》之一

發布時間：2023/12/19 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 solr模糊查询_《Solr实战》之一小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文記錄筆者在閱讀《Solr實戰》的讀書筆記，將筆者認為重要的內容摘錄出來。

Solr擅長處理的數據類型

以文本為中心

讀主導文檔被讀取的次數遠大于被創建和更新的次數

面向文檔

靈活的模式

大量的數據

底層使用Lucene

導入示例數據到已有core

cd C:Program FilesApache Software Foundationsolr-6.6.5exampleexampledocs java -Durl=http://localhost:8983/solr/test1/update -jar post.jar *.xml

排名檢索

根據score字段在內部相對排名
返回的搜索結果按照得分由高到低排序，文檔的分越高，說明與該查詢越相關。

分頁

默認的頁面調整頁面大小為10，調整start參數(start=0 第一頁)，因為底層的Lucene索引并未對一睇返回大量文檔做成優化設計，所以盡可能使用小頁面非常重要。相反，Lucene優化了查詢處理，底層的數據結構設計用于最大限度滿足文檔匹配和評分。

排序

搜索結果根據相關度得分將文檔按降序排列，還可以根據文檔的其他字段進行排序。文檔得分相同時，他們以索引的次序返回，該次序基于Lucene的內部文檔ID。這個文檔ID大致等于被索引文檔的次序，但是，由于索引變化時ID值會隨之變化，所以不依賴此ID進行排序。

文檔

提交給Solr處理的每一分數據都是一個文檔。

倒排索引

不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置 1. 倒排索引仲的所有詞項對應一個或多個文檔 2. 倒排索引仲的詞項根據字典順序升序排序

邏輯運算符

AND、+ (與)

OR、空格(或)

-、NOT(排除)

詞項位置

搜索詞的順序將使Solr按照詞序搜索

| 詞項 | 文檔位置 | 詞項位置 | | ---- | -------- | -------- | | a | 1 | 1 | | | | 3 | | | | 4 |

好處：詞序位置允許在各自的文檔中重新構造索引詞項的初始位置，使其在查詢階段可以搜索特定的短語。

模糊匹配

通配符搜素
*

區間搜索
使用方括號。 [18 TO 21] 匹配18、19、20、21 3. 編輯距離搜索
使用~符號表示模糊編輯距離搜索。
administrator~N 匹配N個以內的距離編輯。 4. 鄰近搜索
要求全部特定詞項出現。 "chief office"~N 兩個單詞之間最多相隔N個詞

配置Solr

三個常用xml文件

solr.xml————定義管理、日志、分片和SolrCloud的有關屬性

solrconfig.xml————定義solr內核的主要配置

schema.xml————定義索引結構，包括字段及其數據類型

定位配置文件方式

Solr通過掃描core.properties定位內核，并利用solrconfig.xml來初始化內核。

solrconfig.xml中常見的數據類型元素

|元素|說明|舉例| |-|-|-| ||命名的對象有序數組|
spellcheck
||命名的鍵值對有序列表|
true
json
||布爾值 true 或 false| ||字符串值| ||整數| ||長整數| ||單精度浮點值| ||雙精度浮點值|

<arr> 和 <lst>之間的最大不同是<lst>中的每個子元素都有一個 name 屬性，而的子元素則沒有。

重啟核心

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ailI3u3T-1577758320446)(https://s2.ax1x.com/2019/12/30/lMxPLn.png)]

查詢請求處理

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-vPBJmTjP-1577758320447)(https://s2.ax1x.com/2019/12/30/lMz0c4.png)]

搜索處理器

Solr 中有兩類主要的請求處理器
1. 處理查詢請求的搜索處理器 2. 處理索引請求的更新處理器

通常情況下，一個搜索處理器由以下組件組成，其中每個組件都定義在 solrconfig.xml 文件中。 [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-qWjWIiAE-1577758320448)(https://s2.ax1x.com/2019/12/30/lQ90gS.png)] 1. 請求參數修飾組件，包括：
a. 默認值修飾 (defaults) —— 為客戶端未指定值的參數添加默認值。
b. 常量修飾 (invariants) —— 將客戶端的參數值覆寫為固定值。
c. 后綴修飾 (appends) —— 在客戶端請求的末尾添加額外參數。
2. 預處理組件 (first-components) —— 一組優先執行的可選搜索組件，執行預處理任務。 3. 主搜索組件(components) —— 一組鏈式組合的搜索組件,至少包含查詢組件。 4. 后處理組件 (lastcomponents) —— 一組可選的鏈式組合的搜索組件，執行后處理任務。

利用搜索組件擴展查詢處理

1. 查詢組件

查詢組件在索引中找出所有符合條件的文檔，形成結果文檔集。

2. 分頁組件

分頁組件將根據字段分面進行結果統計與過濾。

3. 更多類似結果組件

當給定一組由查詢組件生成的結果文檔集時，如果更多類似結果組件被啟用了，它將識別出與搜索結果集中的文檔相似的其他文檔。

4. 高亮組件

如果高亮組件被啟用了，它將對結果文檔中與查詢語句高度相關的文檔內容進行高亮表示。

5. 統計組件

統計組件可以為結果文檔中的數值字段計算最小值、最大值、總和、平均值和標準差等簡單的統計指標。

6. 調試組件

調試組件會返回執行過的查詢語句解析后的結果，以及結果文檔集中每個文檔相關度分數計算的詳細信息。

http://localhost:8983/solr/ collection1/browse?q=iPod&wt=xml&debugQuery=true

拼寫檢查

<last-component>

管理搜索器

在Solr中，任何時候只能存在一個“處于活躍狀態的”搜索器。

新添加的文檔如何才能出現在搜索結果中？

關閉當前的搜索器，打開一個新的搜索器，這個搜索器添加了索引更新以后的只讀視圖。

新搜索器預熱

利用舊緩存自動預熱新緩存

緩存預熱查詢就是向搜索器提交一段預先在solrconfig.xml文件中配置好的查詢語句，目的是讓新搜索器將需要緩存的査詢結果載入它的緩存中。預熱查詢語句應當包含應用程序中使用最頻繁的查詢請求參數（q、fq、sort等）。

<useColdSearcher>

適用于一個搜索請求己經被提交，而目前 Solr 中沒有定義搜索器的情形。如果的值為 false, 那么 Solr 將會一直處于阻塞狀態，直到正在預熱的搜索器執行完所有的預熱查詢。

<maxWarmingSearchers>

<maxWarmingSearchers>元素允許開發者控制后臺并發預熱的搜索器的最大數目。一旦達到閾值，新的提交請求將會失敗。該元素的默認值為2。

緩存管理

1. 緩存大小及緩存置換法

為了控制緩存大小，Solr 要求為每一個緩存都設置一個緩存對象的數量上限。當達到上限時,Solr將采用最久未使用(Least Recently Used, LRU) 置換法或最近最少使用(Least Frequently Used, LFU) 置換法回收一部分緩存空間。

2. 緩存命中率與緩存回收

緩存命中率是指應用程序的緩存命中的用戶請求數量占所有用戶請求數量的比例。
緩存回收數表明有多少緩存對象根據上文介紹的緩存置換法被回收了。

緩存回收數和緩存命中率是緊密相關的，高的緩存回收數往往導致一個較好的緩存命中率。

3. 緩存對象失效

搜索器只是Lucene索引快照的一個只讀視圖,所有緩存中的對象都會鏈接到對應的搜索器實例，并且在搜索器關閉后立即失效。

4. 自動預熱新的緩存

自動預熱 Solr利用即將被關閉的舊搜索器中的部分緩存內容構建新搜索器的緩存。
<autowarmCount>表示自動預熱的舊緩存對象的最大數目或百分比。

緩存類型

1. 過濾器緩存

假設有一個過濾條件相同(fq=manu:Belkin)但查詢內容不同的查詢請求，例如q=USB，如果應用程序在處理該查詢請求時可以相同過濾條件的查詢結果，那么查詢效率會得到大幅提高。

2. 自動預熱過濾器緩存

預熱新的緩存時，一部分鍵從舊的緩存中抽取出來，向新搜索器提交查詢，形成新的過濾器。要利用新搜索器自動預熱過濾器緩存，就需要Solr重新執行過濾査詢。因此，自動預熱過濾器緩存可能導致Solr在性能和資源利用方面出現問題。

建議開發者為過濾器緩存啟用自動預熱功能，但是給<autowarmCount>設一個較小值作為初始值。除此之外，LFU置換法更適合過濾器緩存，因為它能保證被請求頻率高的過濾器被賦予較高優先級，同時降低過濾器緩存的大小。
下面是推薦的過濾器緩存配置：

查詢結果緩存

原理是將査詢語句作為鍵，內部Lucene文檔ID作為值，存儲在查詢結果緩存中。內部Lucene文檔ID會隨著搜索器的改變而改變，所以在預熱查詢結果緩存時，緩存的內部Lucene文檔ID需要重新計算。

建議將<autowarmCount>的值設為一個較小值。

查詢結果窗口大小

<queryResultWindowSize>允許在執行查詢請求時定義單次返回查詢結果的頁數。
一般情況下，我們會將這個元素的值設為每頁查詢結果數量的兩到三倍。

查詢結果緩存的最大文檔數

<queryResultMaxDocsCached>元素允許對查詢結果緩存中每個緩存對象包含的文檔數目做出限制。在大多數搜索應用中，用戶一般僅査看前幾頁的搜索結果，所以可以將這個值設為每頁結果文檔數目的兩倍或三倍大小。

啟用字段延遲加載

將<enableLazyFieldLoading>元素的值設為 true, 這樣可以避免加載用戶不需要的字段。

文檔緩存

文檔緩存以文檔的內部 ID為鍵，將硬盤中的文檔內容加載到緩存中。這樣，查詢結果緩存可以從文檔緩存中調用需要的文檔內容。
如果更新索引的頻率很高，每個査詢返回的結果文檔也在經常變化，則配置文檔緩存就可能把資源耗費在了對應用程序性能無益的地方。但另一方面，如果索引更新頻率很低，那么文檔緩存可能有助于提高應用程序的性能。

字段值緩存

字段值緩存提供了通過內部文檔 ID 快速訪問存儲的字段值的途徑，主要在排序和從匹配文檔中生成響應內容時使用。

總結

以上是生活随笔為你收集整理的solr模糊查询_《Solr实战》之一的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：李斌：平均每1.9秒就有一辆蔚来从换电站
下一篇：双向dcdc变换器simulink仿真_