开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门
生活随笔
收集整理的這篇文章主要介紹了
开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
這部分是在讀《開發自己的搜索引擎》第二版,邱哲、符滔滔、王學松編著,人民郵電出版社,的隨手筆記與猜想。若有不足之處還請不吝賜教,以不斷完善之。
搜索引擎與信息檢索
信息檢索的過程:
構建文本庫、建立索引、進行搜索、返回結果以前對結果進行過濾。
倒排索引
常用的索引方式有3種,分別是倒排、后綴數組和簽名文檔。
從理論上說,倒排是一種面向單詞的索引機制。通常,由詞(關鍵字)和出現情況兩部分組成。對于索引中的每個詞(關鍵字),都跟隨一個列表(位置表),用來記錄單詞在所有文檔中出現的位置。
Lucene入門實例
Lucene充當的是一個全文索引工具的角色,因此,為了使用它,需要制造一個全文索引的環境。
開發過程:
對要進行查找的文檔進行預處理
將大文檔切分成多個小文檔
創建eclipse工程并編寫代碼
效果測試
je-analysis是一個負責分詞的。
通常情況下,使用Lucene的步驟如下所示:
為要處理的內容建立索引
構建查詢對象
在索引中查找
Lucene中的Field類是文檔索引期間很重要的類,控制著被索引的域值
http://blog.csdn.net/zhaoxiao2008/article/details/14180019
創建索引
總結
以上是生活随笔為你收集整理的开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微信小程序毕业设计开题报告_SSM项目点
- 下一篇: Flexsim仿真案例之Message应