當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【转载保存】搜索引擎调研文档

發布時間：2024/8/23 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了【转载保存】搜索引擎调研文档小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

搜索引擎選型調研文檔

Elasticsearch簡介*

Elasticsearch是一個實時的分布式搜索和分析引擎。它可以幫助你用前所未有的速度去處理大規模數據。

它可以用于全文搜索，結構化搜索以及分析，當然你也可以將這三者進行組合。

Elasticsearch是一個建立在全文搜索引擎 Apache Lucene? 基礎上的搜索引擎，可以說Lucene是當今最先進，最高效的全功能開源搜索引擎框架。

但是Lucene只是一個框架，要充分利用它的功能，需要使用Java，并且在程序中集成Lucene。需要很多的學習了解，才能明白它是如何運行的，Lucene確實非常復雜。

Elasticsearch使用Lucene作為內部引擎，但是在使用它做全文搜索時，只需要使用統一開發好的API即可，而不需要了解其背后復雜的Lucene的運行原理。

當然Elasticsearch并不僅僅是Lucene這么簡單，它不但包括了全文搜索功能，還可以進行以下工作:

分布式實時文件存儲，并將每一個字段都編入索引，使其可以被搜索。
實時分析的分布式搜索引擎。
可以擴展到上百臺服務器，處理PB級別的結構化或非結構化數據。

這么多的功能被集成到一臺服務器上，你可以輕松地通過客戶端或者任何你喜歡的程序語言與ES的RESTful API進行交流。

Elasticsearch的上手是非常簡單的。它附帶了很多非常合理的默認值，這讓初學者很好地避免一上手就要面對復雜的理論，

它安裝好了就可以使用了，用很小的學習成本就可以變得很有生產力。

隨著越學越深入，還可以利用Elasticsearch更多高級的功能，整個引擎可以很靈活地進行配置。可以根據自身需求來定制屬于自己的Elasticsearch。

使用案例：

維基百科使用Elasticsearch來進行全文搜做并高亮顯示關鍵詞，以及提供search-as-you-type、did-you-mean等搜索建議功能。
英國衛報使用Elasticsearch來處理訪客日志，以便能將公眾對不同文章的反應實時地反饋給各位編輯。
StackOverflow將全文搜索與地理位置和相關信息進行結合，以提供more-like-this相關問題的展現。
GitHub使用Elasticsearch來檢索超過1300億行代碼。
每天，Goldman Sachs使用它來處理5TB數據的索引，還有很多投行使用它來分析股票市場的變動。

但是Elasticsearch并不只是面向大型企業的，它還幫助了很多類似DataDog以及Klout的創業公司進行了功能的擴展。

Elasticsearch的優缺點**:

優點

Elasticsearch是分布式的。不需要其他組件，分發是實時的，被叫做”Push replication”。

Elasticsearch 完全支持 Apache Lucene 的接近實時的搜索。

處理多租戶（multitenancy）不需要特殊配置，而Solr則需要更多的高級設置。

Elasticsearch 采用 Gateway 的概念，使得完備份更加簡單。

各節點組成對等的網絡結構，某些節點出現故障時會自動分配其他節點代替其進行工作。

缺點

只有一名開發者（當前Elasticsearch GitHub組織已經不只如此，已經有了相當活躍的維護者）

還不夠自動（不適合當前新的Index Warmup API）

Solr簡介*

Solr（讀作“solar”）是Apache Lucene項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、數據庫集成，以及富文本（如Word、PDF）的處理。Solr是高度可擴展的，并提供了分布式搜索和索引復制。Solr是最流行的企業級搜索引擎，Solr4 還增加了NoSQL支持。

Solr是用Java編寫、運行在Servlet容器（如 Apache Tomcat 或Jetty）的一個獨立的全文搜索服務器。 Solr采用了 Lucene Java 搜索庫為核心的全文索引和搜索，并具有類似REST的HTTP/XML和JSON的API。Solr強大的外部配置功能使得無需進行Java編碼，便可對其進行調整以適應多種類型的應用程序。Solr有一個插件架構，以支持更多的高級定制。

因為2010年 Apache Lucene 和 Apache Solr 項目合并，兩個項目是由同一個Apache軟件基金會開發團隊制作實現的。提到技術或產品時，Lucene/Solr或Solr/Lucene是一樣的。

Solr的優缺點

優點

Solr有一個更大、更成熟的用戶、開發和貢獻者社區。

支持添加多種格式的索引，如：HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。

Solr比較成熟、穩定。

不考慮建索引的同時進行搜索，速度更快。

缺點

建立索引時，搜索效率下降，實時索引搜索效率不高。

Elasticsearch與Solr的比較*

當單純的對已有數據進行搜索時，Solr更快。

當實時建立索引時, Solr會產生io阻塞，查詢性能較差, Elasticsearch具有明顯的優勢。

隨著數據量的增加，Solr的搜索效率會變得更低，而Elasticsearch卻沒有明顯的變化。

綜上所述，Solr的架構不適合實時搜索的應用。

實際生產環境測試*

下圖為將搜索引擎從Solr轉到Elasticsearch以后的平均查詢速度有了50倍的提升。

Elasticsearch 與 Solr 的比較總結

二者安裝都很簡單；
Solr 利用 Zookeeper 進行分布式管理，而 Elasticsearch 自身帶有分布式協調管理功能;
Solr 支持更多格式的數據，而 Elasticsearch 僅支持json文件格式；
Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，高級功能多有第三方插件提供；
Solr 在傳統的搜索應用中表現好于 Elasticsearch，但在處理實時搜索應用時效率明顯低于 Elasticsearch。

Solr 是傳統搜索應用的有力解決方案，但 Elasticsearch 更適用于新興的實時搜索應用。

其他基于Lucene的開源搜索引擎解決方案*

直接使用?Lucene

說明：Lucene 是一個 JAVA 搜索類庫，它本身并不是一個完整的解決方案，需要額外的開發工作。

優點：成熟的解決方案，有很多的成功案例。apache 頂級項目，正在持續快速的進步。龐大而活躍的開發社區，大量的開發人員。它只是一個類庫，有足夠的定制和優化空間：經過簡單定制，就可以滿足絕大部分常見的需求；經過優化，可以支持 10億+ 量級的搜索。

缺點：需要額外的開發工作。所有的擴展，分布式，可靠性等都需要自己實現；非實時，從建索引到可以搜索中間有一個時間延遲，而當前的“近實時”(Lucene Near Real Time search)搜索方案的可擴展性有待進一步完善

Katta

說明：基于 Lucene 的，支持分布式，可擴展，具有容錯功能，準實時的搜索方案。

優點：開箱即用，可以與?Hadoop?配合實現分布式。具備擴展和容錯機制。

缺點：只是搜索方案，建索引部分還是需要自己實現。在搜索功能上，只實現了最基本的需求。成功案例較少，項目的成熟度稍微差一些。因為需要支持分布式，對于一些復雜的查詢需求，定制的難度會比較大。

Hadoop contrib/index

說明：Map/Reduce 模式的，分布式建索引方案，可以跟 Katta 配合使用。

優點：分布式建索引，具備可擴展性。

缺點：只是建索引方案，不包括搜索實現。工作在批處理模式，對實時搜索的支持不佳。

LinkedIn 的開源方案

說明：基于 Lucene 的一系列解決方案，包括準實時搜索 zoie ，facet 搜索實現 bobo ，機器學習算法?decomposer ，摘要存儲庫 krati ，數據庫模式包裝 sensei 等等

優點：經過驗證的解決方案，支持分布式，可擴展，豐富的功能實現

缺點：與 linkedin 公司的聯系太緊密，可定制性比較差

Lucandra

說明：基于 Lucene，索引存在 cassandra 數據庫中

優點：參考 cassandra 的優點

缺點：參考 cassandra 的缺點。另外，這只是一個 demo，沒有經過大量驗證

HBasene

說明：基于 Lucene，索引存在 HBase 數據庫中

優點：參考 HBase 的優點

缺點：參考 HBase 的缺點。另外，在實現中，lucene terms 是存成行，但每個 term 對應的 posting lists 是以列的方式存儲的。隨著單個 term 的 posting lists 的增大，查詢時的速度受到的影響會非常大

總結

以上是生活随笔為你收集整理的【转载保存】搜索引擎调研文档的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： linux动态库查找路径以及依赖关系梳理
下一篇： Mybatis解决jdbc编程的问题以及