日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

lucene 查询示例_高级Lucene查询示例

發(fā)布時間:2023/12/3 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 lucene 查询示例_高级Lucene查询示例 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

lucene 查詢示例

本文是我們名為“ Apache Lucene基礎知識 ”的學院課程的一部分。

在本課程中,您將了解Lucene。 您將了解為什么這樣的庫很重要,然后了解Lucene中搜索的工作方式。 此外,您將學習如何將Lucene Search集成到您自己的應用程序中,以提供強大的搜索功能。 在這里查看 !

目錄

1.引言 2.Lucene查詢 3,Lucene查詢API 4,基本搜索
4.1。條款 4.2。通配符查詢 4.3。布爾運算符 4.3分組 4.4。短語查詢 4.5。范圍查詢 4.6。前綴查詢 4.7。模糊查詢

1.引言

在上一章中,我們了解了Lucene搜索引擎的不同組件 。 我們還使用lucene索引和搜索程序構建了一個小型搜索應用程序。 在本章中,我們將討論Lucene查詢。

2.Lucene查詢

Lucene具有用于查詢其索引的自定義查詢語法。 查詢分為術語和運算符。 術語有兩種類型: 1 . 單詞2.短語 。 單個術語是一個單詞,例如“測試”或“樣本”。 詞組是一組用雙引號括起來的單詞,例如“ welcome lucene”。 可以將多個術語與布爾運算符組合在一起以形成更復雜的查詢。 對于Lucene Java,TermQuery是最原始的查詢。 然后是BooleanQuery,PhraseQuery和許多其他Query子類可供選擇。

字段執(zhí)行搜索時,我們可以指定要搜索的字段。任何現(xiàn)有的字段名稱都可以用作字段名稱。 語法為FieldName:VALUE 。 有一些特殊的字段類型具有自己的語法來定義查詢詞。 例如,DateTime:ModificationDate:>'2010-09-01 12:00:00'我們將在后面的部分中解釋對這些字段的搜索操作。

3,Lucene查詢API

當Lucene的QueryParser解析人類可讀的查詢時,它將轉換為Query類的單個具體子類。 我們需要對基礎的具體Query子類有所了解。 下表列出了相關的子類,它們的用途以及一些示例表達式:

查詢實施目的樣本表達
TermQuery 單項查詢,實際上是一個單詞。 雷諾
PhraseQuery 多個項的順序匹配或彼此接近的匹配項 “前方點亮”
RangeQuery 用開始和結束詞之間(包括或排除端點)的詞來匹配文檔。 [A到Z]

{A到Z}

WildcardQuery 輕量級的,類似于正則表達式的術語匹配語法。 j * v?

f ?? bar

PrefixQuery 匹配以指定字符串開頭的所有術語。 起司*
FuzzyQuery Levenshtein緊密匹配算法。 樹?
BooleanQuery 將其他Query實例聚合為允許AND,OR和NOT邏輯的復雜表達式。 雷諾和“前方點亮”

奶酪*-奶酪


所有這些Query實現(xiàn)都在org.apache.lucene.search包中。 BooleanQuery是一種特殊情況,因為它是一個聚合其他查詢(包括用于復雜表達式的嵌套BooleanQuery )的Query容器。

這是一個基于查詢片段的BooleanQuery 。 在這里,我們可以看到QueryParser創(chuàng)建的查詢與API創(chuàng)建的查詢等效:

public class RulezTest extends TestCase { public void testJavaNotDotNet() throws Exception { BooleanQuery apiQuery = new BooleanQuery(); apiQuery.add(new TermQuery(new Term("contents", "java")), true, false); apiQuery.add(new TermQuery(new Term("contents", "net")), true, false); apiQuery.add(new TermQuery(new Term("contents", "dot")), false, true); Query qpQuery = QueryParser.parse("java AND net NOT dot", "contents", new StandardAnalyzer()); // Query and subclasses behave as expected with .equals assertEquals(qpQuery, apiQuery); } }

Query類的一些有趣的功能是它們的toString方法。 每個Query子類都會生成等效的QueryParserexpression (盡管不一定在文本上精確)。 有兩種變體:一種是標準的Object.toString重寫方法,另一種接受默認字段名稱。 下面的測試案例演示了這兩種方法的工作原理,并說明了如何返回等效(但不是確切)的表達式。

public void testToString() throws Exception { Query query = QueryParser.parse("java AND net NOT dot", "contents", new StandardAnalyzer()); assertEquals("+java +net -dot", query.toString("contents")); assertEquals("+contents:java +contents:net -contents:dot", query.toString()); }

注意,解析的表達式是“ java AND net NOT dot”,但是從toString方法返回的表達式使用了縮寫語法“ + java + net -dot”。 我們的第一個測試用例( testJavaNotDotNet )證明了底層查詢對象本身是等效的。

no-arg toString方法不對每個術語的字段名稱做任何假設,并使用字段選擇器語法明確指定它們。 使用這些toString方法可方便地診斷QueryParser問題。

4,基本搜索

在大多數(shù)情況下,您要查找單個術語或短語,即由雙引號引起的一組單詞(“示例應用程序”)。 在這些情況下,我們將在默認索引數(shù)據(jù)中查找包含這些單詞的內(nèi)容,這些默認索引數(shù)據(jù)包含內(nèi)容的所有相關文本。

在更復雜的情況下,我們可能需要根據(jù)要查找的內(nèi)容的類型或位置進行某些過濾,或者我們要在特定字段中進行搜索。 在這里,我們可以學習如何構建更復雜的查詢,這些查詢可用于有效地在大型存儲庫中查找內(nèi)容。

4.1。條款

假設我們要在標簽字段中使用關鍵字“博客”進行搜索。 語法將是

tag : blog

現(xiàn)在,我們將在標簽字段中搜索短語“ lucene blog”。 為此,語法將是

tag : "lucene blog"

現(xiàn)在,讓我們在標簽字段中搜索“ lucene blog”,然后在正文中搜索“ technical blog”,

tag : "lucene blog" AND body : "technical blog"

假設我們要在標簽字段中搜索短語“ lucene blog”,在正文中搜索“技術博客”,或者在標簽字段中搜索“ searching blog”,

(tag : "lucene blog" AND body : "technical blog") OR tag : "searching blog"

如果我們想在標簽字段中搜索“博客”而不是“ lucene”,則語法看起來會相似,

tag : blog -tag : lucene

4.2。通配符查詢

Lucene支持在單個術語(而不是短語查詢)中的單字符和多字符通配符搜索。

  • 要執(zhí)行單個字符通配符搜索,請使用“?” 符號。
  • 要執(zhí)行多字符通配符搜索,請使用“ *”符號。
  • 單字符通配符搜索將查找與替換了單個字符的詞相匹配的術語。 例如,要搜索“文本”或“測試”,我們可以使用搜索:te?t

    多字符通配符搜索將查找0個或多個字符。 例如,要搜索測試,測試或測試員,我們可以使用搜索:

    test*

    我們還可以在術語中間使用通配符搜索。

    te*t

    這是Lucene通配符搜索的示例,

    假設我們在“文件”目錄中有兩個文件。

  • test-foods.txt

    以下是Deron喜歡的一些食物:

    hamburger
    french fries
    steak mushrooms artichokes

  • sample-food.txt

    以下是妮可喜歡的一些食物:

    apples
    bananas
    salad mushrooms cheese

  • 現(xiàn)在,我們看一下LuceneWildcardQueryDemo類。 此類基于上述文本文件通過createIndex()方法創(chuàng)建索引,此后,它嘗試對該索引執(zhí)行8個通配符搜索。 使用WildcardQuery類執(zhí)行其中四個搜索,而使用QueryParser類執(zhí)行其他四個搜索。

    首先使用createIndex()方法對以上兩個文件建立索引。

    public static void createIndex() throws CorruptIndexException, LockObtainFailedException, IOException {Analyzer analyzer = new StandardAnalyzer();boolean recreateIndexIfExists = true;IndexWriter indexWriter = new IndexWriter(INDEX_DIRECTORY, analyzer, recreateIndexIfExists);File dir = new File(FILES_TO_INDEX_DIRECTORY);File[] files = dir.listFiles();for (File file : files) {Document document = new Document();String path = file.getCanonicalPath();document.add(new Field(FIELD_PATH, path, Field.Store.YES, Field.Index.UN_TOKENIZED));Reader reader = new FileReader(file);document.add(new Field(FIELD_CONTENTS, reader));indexWriter.addDocument(document);}indexWriter.optimize();indexWriter.close(); }

    為了使用查詢解析器執(zhí)行搜索操作,我們可以添加一個名為searchIndexWithQueryParser()的方法,

    public static void searchIndexWithQueryParser(String whichField, String searchString) throws IOException,ParseException {System.out.println("\\nSearching for '" + searchString + "' using QueryParser");Directory directory = FSDirectory.getDirectory(INDEX_DIRECTORY);IndexSearcher indexSearcher = new IndexSearcher(directory);QueryParser queryParser = new QueryParser(whichField, new StandardAnalyzer());Query query = queryParser.parse(searchString);System.out.println("Type of query: " + query.getClass().getSimpleName());Hits hits = indexSearcher.search(query);displayHits(hits); }

    使用以下代碼在searchIndexWithWildcardQuery()方法中執(zhí)行WildcardQuery查詢:

    Directory directory = FSDirectory.getDirectory(INDEX_DIRECTORY); IndexSearcher indexSearcher = new IndexSearcher(directory); Term term = new Term(whichField, searchString); Query query = new WildcardQuery(term); Hits hits = indexSearcher.search(query);

    QueryParser查詢通過以下方式在searchIndexWithQueryParser()方法中執(zhí)行:

    Directory directory = FSDirectory.getDirectory(INDEX_DIRECTORY); IndexSearcher indexSearcher = new IndexSearcher(directory); QueryParser queryParser = new QueryParser(whichField, new StandardAnalyzer()); Query query = queryParser.parse(searchString); Hits hits = indexSearcher.search(query);

    從我們的main()方法可以看到, LuceneWildcardQueryDemo類執(zhí)行八個通配符搜索:

    searchIndexWithWildcardQuery(FIELD_CONTENTS, "t*t"); searchIndexWithQueryParser(FIELD_CONTENTS, "t*t"); searchIndexWithWildcardQuery(FIELD_CONTENTS, "sam*"); searchIndexWithQueryParser(FIELD_CONTENTS, "sam*"); searchIndexWithWildcardQuery(FIELD_CONTENTS, "te?t"); searchIndexWithQueryParser(FIELD_CONTENTS, "te?t"); searchIndexWithWildcardQuery(FIELD_CONTENTS, "*est"); try { searchIndexWithQueryParser(FIELD_CONTENTS, "*est"); } catch (ParseException pe) { pe.printStackTrace(); }

    最后,我們將使用類似的方法打印每次搜索操作的命中數(shù),

    public static void displayHits(Hits hits) throws CorruptIndexException, IOException {System.out.println("Number of hits: " + hits.length());Iterator<Hit> it = hits.iterator();while (it.hasNext()) {Hit hit = it.next();Document document = hit.getDocument();String path = document.get(FIELD_PATH);System.out.println("Hit: " + path);} }

    如果我們運行上面的代碼,它將向我們顯示,

    Searching for 't*t' using WildcardQuery Number of hits: 1 Hit: /home/debarshi/workspace/Test/filesToIndex/test-foods.txtSearching for 't*t' using QueryParser Type of query: WildcardQuery Number of hits: 1 Hit: /home/debarshi/workspace/Test/filesToIndex/test-foods.txtSearching for 'sam*' using WildcardQuery Number of hits: 1 Hit: /home/debarshi/workspace/Test/filesToIndex/sample-foods.txtSearching for 'sam*' using QueryParser Type of query: PrefixQuery Number of hits: 1 Hit: /home/debarshi/workspace/Test/filesToIndex/sample-foods.txtSearching for 'te?t' using WildcardQuery Number of hits: 1 Hit: /home/debarshi/workspace/Test/filesToIndex/test-foods.txtSearching for 'te?t' using QueryParser Type of query: WildcardQuery Number of hits: 1 Hit: /home/debarshi/workspace/Test/filesToIndex/test-foods.txtSearching for '*est' using WildcardQuery Number of hits: 1 Hit: /home/debarshi/workspace/Test/filesToIndex/test-foods.txtSearching for '*est' using QueryParserorg.apache.lucene.queryParser.ParseException: Cannot parse '*est': '*' or '?' not allowed as first character in WildcardQuery at org.apache.lucene.queryParser.QueryParser.parse(QueryParser.java:175) at LuceneWildcardQueryDemo.searchIndexWithQueryParser(LuceneWildcardQueryDemo.java:81) at LuceneWildcardQueryDemo.main(LuceneWildcardQueryDemo.java:46)
  • 第一個查詢使用帶有“ t * t”的WildcardQuery對象。 由于“ t * t”與索引中的“ test”匹配,因此此查詢返回1次匹配。
  • 第二個查詢使用QueryParser查詢“ t * t”。 QueryParser parse()方法返回WildcardQuery ,并且該查詢返回1個匹配項,因為它與第一個查詢基本相同。
  • 第三個查詢使用帶有“ sam *”的WildcardQuery對象。 由于“ sam *”與“ sample”匹配,因此該通配符查詢獲得了一次成功。
  • 第四個查詢使用帶有“ sam *”的QueryParser 。 但是請注意,QueryParser的parse()方法返回PrefixQuery而不是WildcardQuery 。 由于星號在“ sam *”的末尾。 由于“ sam *”與“ sample”匹配,因此該針對“ sam *”的PrefixQuery命中。
  • 第五個查詢是WildcardQuery ,它在其搜索詞“ te?t”中使用問號。 問號可以匹配一個字符。 由于“ te?t”與“ test”匹配,因此搜索返回1個匹配項。
  • 第六個查詢使用帶有“ te?t”的QueryParser 。 QueryParser parse()方法返回WildcardQuery ,并且與第五個查詢一樣,它獲得成功。
  • 第七個查詢是“ * est”的WildcardQuery查詢。 由于“ test”匹配“ * est”,因此它收到一個匹配。 通常,在第一個字符為通配符的情況下執(zhí)行查詢不是一個好主意。
  • 第八個查詢是“ * est”的QueryParser查詢。 請注意, QueryParser對象甚至不允許我們執(zhí)行第一個字符為星號的查詢。 它拋出一個解析異常。
  • 4.3。布爾運算符

    布爾運算符允許通過邏輯運算符組合術語。 Lucene支持AND,“ +”,OR,NOT和“-”作為布爾運算符(注意:布爾運算符必須為ALL CAPS)。

    OR運算符是默認的合取運算符。 這意味著,如果兩個術語之間沒有布爾運算符,則使用OR運算符。 OR運算符鏈接兩個術語,如果文檔中存在兩個術語中的任何一個,則查找匹配的文檔。 這等效于使用集的并集。 符號|| 可以代替單詞OR。

    要搜索包含“ jakarta apache”或僅包含“ jakarta”的文檔,請使用查詢:

    "jakarta apache" jakarta

    要么

    "jakarta apache" OR jakarta

    AND運算符匹配兩個術語都存在于單個文檔的文本中任何位置的文檔。 這等效于使用集合的交點。 可以使用符號&&代替單詞AND。

    要搜索包含“ jakarta apache”和“ Apache Lucene”的文檔,請使用查詢:

    "jakarta apache" AND "Apache Lucene"

    +

    “ +”或必需的運算符要求“ +”符號后的術語存在于單個文檔的字段中。

    要搜索必須包含“ jakarta”且可能包含“ lucene”的文檔,請使用以下查詢:

    +jakarta lucene

    NOT運算符排除包含NOT之后的術語的文檔。 這等效于使用集的區(qū)別。 符號! 可以代替“非”一詞使用。

    要搜索包含“ jakarta apache”但不包含“ Apache Lucene”的文檔,請使用以下查詢:

    "jakarta apache" NOT "Apache Lucene"

    注意:NOT運算符不能僅使用一個術語。 例如,以下搜索將不返回任何結果:

    NOT "jakarta apache"

    “-”

    “-”或禁止運算符排除包含在“-”符號后的術語的文檔。

    要搜索包含“ jakarta apache”但不包含“ Apache Lucene”的文檔,請使用以下查詢:

    "jakarta apache" -"Apache Lucene"

    4.3分組

    Lucene支持使用括號將子句分組以形成子查詢。 如果要控制查詢的布爾邏輯,這可能非常有用。

    要搜索“ jakarta”或“ apache”和“網(wǎng)站”,請使用查詢:

    (jakarta OR apache) AND website

    這樣可以消除任何混亂,并確保您必須存在該網(wǎng)站,并且可能存在“雅加達”或“ apache”一詞。

    現(xiàn)場分組

    Lucene支持使用括號將多個子句分組到一個字段中。

    要搜索包含單詞“ return”和短語“ pink panther”的標題,請使用以下查詢:

    title:(+return +"pink panther")

    轉義特殊字符

    Lucene支持轉義查詢語法中包含的特殊字符。 當前列表的特殊字符為:

    + – && || ! (){} [] ^”?*嗎? :\

    要轉義這些字符,請在字符前使用“ \”(反斜杠)。 例如,要搜索(1 + 1):2,請使用查詢:

    \\(1\\+1\\)\\:2

    4.4。短語查詢

    Lucene中的PhraseQuery匹配包含特定術語序列的文檔。 PhraseQuery使用存儲在索引中的術語的位置信息。

    查詢短語中單詞之間允許的其他單詞的數(shù)量稱為“斜率”。 可以通過調(diào)用setSlop方法進行設置。 如果為零,則為精確短語搜索。 對于較大的值,其工作方式類似于WITHIN或NEAR運算符。

    斜率實際上是一個編輯距離,其中單位對應于查詢短語中詞條移動的位置。 例如,要切換兩個單詞的順序需要兩個步驟(第一個步驟將單詞彼此放在首位),因此要允許對短語進行重新排序,斜率必須至少為兩個。

    得分更高的比賽要比更差勁的比賽得分高,因此搜索結果將按照準確性進行排序。 默認情況下,斜率為零,要求完全匹配。

    PhraseQuery還支持多個術語短語。

    短語查詢可以與其他術語組合,也可以與BooleanQuery組合使用。 默認情況下,子句的最大數(shù)量限制為1,024。

    在前面的Lucene通配符查詢示例中,我們已經(jīng)基于兩個文本文件完成了搜索操作。 現(xiàn)在,我們將嘗試在lucene中使用PhraseQuery查找匹配的短語。

    為此,我們將引入一個新方法searchIndexWithPhraseQuery()來代替searchIndexWithWildcardQuery()方法,該方法采用兩個字符串表示文檔中的單詞和searchIndexWithPhraseQuery()值。 它通過基于“ contents”字段以及string1和string2參數(shù)添加兩個Term對象來構造PhraseQuery 。 然后,它使用setSlop()方法設置PhraseQuery對象的setSlop()值。 通過將PhraseQuery對象傳遞給IndexSearcher的search()方法進行search() 。 這是代碼,

    public static void searchIndexWithPhraseQuery(String string1, String string2, int slop) throws IOException,ParseException {Directory directory = FSDirectory.getDirectory(INDEX_DIRECTORY);IndexSearcher indexSearcher = new IndexSearcher(directory);Term term1 = new Term(FIELD_CONTENTS, string1);Term term2 = new Term(FIELD_CONTENTS, string2);PhraseQuery phraseQuery = new PhraseQuery();phraseQuery.add(term1);phraseQuery.add(term2);phraseQuery.setSlop(slop);displayQuery(phraseQuery);Hits hits = indexSearcher.search(phraseQuery);displayHits(hits); }

    而且,我們從main()調(diào)用此方法,

    searchIndexWithPhraseQuery("french", "fries", 0);searchIndexWithPhraseQuery("hamburger", "steak", 0);searchIndexWithPhraseQuery("hamburger", "steak", 1);searchIndexWithPhraseQuery("hamburger", "steak", 2);searchIndexWithPhraseQuery("hamburger", "steak", 3);searchIndexWithQueryParser("french fries"); // BooleanQuerysearchIndexWithQueryParser("\\"french fries\\""); // PhaseQuerysearchIndexWithQueryParser("\\"hamburger steak\\"~1"); // PhaseQuerysearchIndexWithQueryParser("\\"hamburger steak\\"~2"); // PhaseQuery

    第一個查詢以斜率0搜索“ french”和“ fries”,這意味著短語搜索最終是對“ french fries”的搜索,其中“ french”和“ fries”彼此相鄰。 由于這存在于test-foods.txt中,因此我們獲得了1次點擊。

    在第二個查詢中,我們搜索坡度為0的“漢堡”和“牛排”。由于在兩個文檔中“漢堡”和“牛排”都不相鄰,因此命中0。 第三個查詢還涉及對“漢堡包”和“牛排”的搜索,但斜率為1。這些單詞彼此之間的距離不超過1個單詞,因此我們獲得0次匹配。

    第四個查詢以“ 2”的斜率搜索“漢堡”和“牛排”。在test-foods.txt文件中,我們有“……漢堡薯條……”字樣。 由于“漢堡”和“牛排”彼此之間不超過兩個字,因此我們獲得了1分。 第五個短語查詢是相同的搜索,但坡度為3。由于“漢堡包”和“牛排”彼此帶有三個單詞(彼此是兩個單詞),因此命中率為1。

    接下來的四個查詢使用QueryParser 。 注意,在第一個QueryParser查詢中,我們得到一個BooleanQuery而不是PhraseQuery 。 這是因為我們傳遞了QueryParser的parse()方法“炸薯條”而不是“ \”炸薯條\””。 如果希望QueryParser生成PhraseQuery,則搜索字符串需要用雙引號引起來。 下一個查詢確實搜索“ \”炸薯條\”,我們可以看到它生成了一個PhraseQuery (默認PhraseQuery為0),并響應該查詢而獲得1次PhraseQuery 。

    最后兩個QueryParser查詢演示了設置傾斜值。 我們可以看到,可以在搜索字符串的雙引號后面設置斜率值,并在其后加上斜線號(?)和斜率號。

    4.5。范圍查詢

    與專有術語范圍內(nèi)的文檔匹配的Query 。 它允許匹配字段值在RangeQuery指定的下限和上限之間的RangeQuery 。 范圍查詢可以包含上限,也可以不包括上限和下限。 排序是按字典順序進行的(按字典順序排列(排序)的項的集合)。

    現(xiàn)在,如果要為Lucene搜索操作實現(xiàn)RangeQuery ,則必須添加一個名為searchIndexWithRangeQuery() ,該方法基本上是一個構造函數(shù),需要Term指示范圍的開始, Term指示范圍的結束和一個布爾值,指示搜索是包含開始和結束值(“ true”)還是排除開始和結束值(“ false”)。 代碼看起來像

    public static void searchIndexWithRangeQuery(String whichField, String start, String end, boolean inclusive)throws IOException, ParseException {System.out.println("\\nSearching for range '" + start + " to " + end + "' using RangeQuery");Directory directory = FSDirectory.getDirectory(INDEX_DIRECTORY);IndexSearcher indexSearcher = new IndexSearcher(directory);Term startTerm = new Term(whichField, start);Term endTerm = new Term(whichField, end);Query query = new RangeQuery(startTerm, endTerm, inclusive);Hits hits = indexSearcher.search(query);displayHits(hits); }

    現(xiàn)在我們將調(diào)用上述方法,

    searchIndexWithRangeQuery(FIELD_LAST_MODIFIED, "2014-04-01-00-00-00", "2014-04-01-23-59-59", INCLUSIVE);searchIndexWithRangeQuery(FIELD_LAST_MODIFIED, "2014-04-02-00-00-00", "2014-04-02-23-59-59", INCLUSIVE);searchIndexWithRangeQuery(FIELD_LAST_MODIFIED, "2014-04-01-00-00-00", "2014-04-01-21-21-02", INCLUSIVE);searchIndexWithRangeQuery(FIELD_LAST_MODIFIED, "2014-04-01-00-00-00", "2014-04-01-21-21-02", EXCLUSIVE);// equivalent range searches using QueryParsersearchIndexWithQueryParser(FIELD_LAST_MODIFIED, "[2014-04-01-00-00-00 TO 2014-04-01-23-59-59]");searchIndexWithQueryParser(FIELD_LAST_MODIFIED, "[2014-04-02-00-00-00 TO 2014-04-02-23-59-59]");searchIndexWithQueryParser(FIELD_LAST_MODIFIED, "[2014-04-01-00-00-00 TO 2014-04-01-21-21-02]");searchIndexWithQueryParser(FIELD_LAST_MODIFIED, "{2014-04-01-00-00-00 TO 2014-04-01-21-21-02}");

    最后, createIndex()方法稍有變化。 我們添加了一些實現(xiàn)日期時間的操作,并打印了索引文件的最后修改時間。

    在控制臺輸出的頂部,我們可以看到兩個文件都已建立索引,并且這些文件的“最后修改”時間是“ 2014-04-01-21-21-02”(對于test-foods.txt )和“ 2014-04-01-21-21-38”(針對sample-foods.txt)。

    在第一個范圍查詢中,我們搜索所有在2014年4月1日最后一次修改的文件。由于兩個文件在該日期最后一次修改,這將返回2次匹配。 在第二個范圍查詢中,我們搜索所有在2014年4月2日最后一次修改的文件。由于兩個文檔都在2014年4月1日最后一次修改,因此返回0次匹配。

    接下來,我們在2014年4月1日至2014年4月1日(含2014年)之間進行搜索。 由于test-foods.txt的上次修改時間為2014-04-01-21-21-02,并且范圍查詢包含此值,因此我們得到了一個搜索結果。 之后,我們僅在2014-04-01-00-00-00到2014-04-01-21-21-02之間進行搜索。 由于test-foods.txt的上一次修改時間為2014-04-01-21-21-02,并且范圍查詢不包含此值(因為已將其排除在外),因此此搜索返回0個匹配。

    此后,接下來的四個搜索顯示使用QueryParser對象執(zhí)行的等效搜索。 請注意,對于每個查詢,QueryParser的parse()方法都返回ConstantScoreRangeQuery對象而不是RangeQuery對象,正如我們從這些查詢的控制臺輸出中看到的那樣。

    4.6。前綴查詢

    與包含帶有指定前綴的術語的文檔匹配的Query 。 PrefixQuery由QueryParser構建,用于類似nam *的輸入。

    我們將嘗試使用兩個文本文件(test-foods.txt和sample-foods.txt)使用前綴查詢來搜索帶有其前綴的特定術語。

    對于這樣做,我們將增加一個名為方法searchIndexWithPrefixQuery()將搜索器的索引(這將創(chuàng)建createIndex()使用PrefixQuery 。 此方法有兩個參數(shù),一個是字段名,另一個是搜索字符串。

    public static void searchIndexWithPrefixQuery(String whichField, String searchString) throws IOException,ParseException {System.out.println("\\nSearching for '" + searchString + "' using PrefixQuery");Directory directory = FSDirectory.getDirectory(INDEX_DIRECTORY);IndexSearcher indexSearcher = new IndexSearcher(directory);Term term = new Term(whichField, searchString);Query query = new PrefixQuery(term);Hits hits = indexSearcher.search(query);displayHits(hits); }

    接下來,我們將從程序的main()方法中調(diào)用此方法–

    searchIndexWithPrefixQuery(FIELD_CONTENTS, "test");searchIndexWithPrefixQuery(FIELD_CONTENTS, "tes*");

    在第一個查詢中,查詢字符串不包含星號。 因此,如果我們打印QueryParser的parse()方法的查詢類型,它將打印TermQuery而不是PrefixQuery 。

    在第二查詢中,星號向QueryParser指示這是一個前綴查詢,因此它從其parse()方法返回PrefixQuery對象。 這導致在索引內(nèi)容中搜索前綴“ tes”。 由于“ test”在索引中,因此產(chǎn)生1次匹配。

    4.7。模糊查詢

    模糊查詢基于Damerau-Levenshtein(最佳字符串對齊)算法。 FuzzyQuery將術語“接近”匹配到指定的基本術語:我們指定了一個允許的最大編輯距離,并且在與基本術語(然后包含這些術語的文檔)相距該編輯距離內(nèi)的所有術語都將匹配。

    QueryParser語法為QueryParser或QueryParser ,其中N是允許的最大編輯數(shù)量(對于較早的發(fā)行版,N是0.0到1.0之間的令人困惑的浮點數(shù),它通過一個棘手的公式轉換為等效的最大編輯距離)。

    FuzzyQuery非常適合匹配專有名稱:我們可以搜索lucene?1,它將匹配luccene(插入c),lucee(刪除n),lukene(用k替換c)和許多其他“接近”術語。 使用最大編輯距離2,我們最多可以有2個插入,刪除或替換。 每次比賽的得分均基于該詞的編輯距離; 因此完全匹配的得分最高; 編輯距離1,降低; 等等

    QueryParser支持在詞條上使用尾隨波浪號的模糊詞條查詢。 例如,搜索wuzza?將找到包含“ fuzzy”和“ wuzzy”的文檔。 編輯距離會影響評分,因此較低的編輯距離會獲得較高的分數(shù)。

    翻譯自: https://www.javacodegeeks.com/2015/09/advanced-lucene-query-examples.html

    lucene 查詢示例

    總結

    以上是生活随笔為你收集整理的lucene 查询示例_高级Lucene查询示例的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。