日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【转载保存】搜索引擎调研文档

發布時間:2024/8/23 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【转载保存】搜索引擎调研文档 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

搜索引擎選型調研文檔

Elasticsearch簡介*

Elasticsearch是一個實時的分布式搜索和分析引擎。它可以幫助你用前所未有的速度去處理大規模數據。

它可以用于全文搜索,結構化搜索以及分析,當然你也可以將這三者進行組合。

Elasticsearch是一個建立在全文搜索引擎 Apache Lucene? 基礎上的搜索引擎,可以說Lucene是當今最先進,最高效的全功能開源搜索引擎框架。

但是Lucene只是一個框架,要充分利用它的功能,需要使用Java,并且在程序中集成Lucene。需要很多的學習了解,才能明白它是如何運行的,Lucene確實非常復雜。

Elasticsearch使用Lucene作為內部引擎,但是在使用它做全文搜索時,只需要使用統一開發好的API即可,而不需要了解其背后復雜的Lucene的運行原理。

當然Elasticsearch并不僅僅是Lucene這么簡單,它不但包括了全文搜索功能,還可以進行以下工作:

  • 分布式實時文件存儲,并將每一個字段都編入索引,使其可以被搜索。

  • 實時分析的分布式搜索引擎。

  • 可以擴展到上百臺服務器,處理PB級別的結構化或非結構化數據。

這么多的功能被集成到一臺服務器上,你可以輕松地通過客戶端或者任何你喜歡的程序語言與ES的RESTful API進行交流。

Elasticsearch的上手是非常簡單的。它附帶了很多非常合理的默認值,這讓初學者很好地避免一上手就要面對復雜的理論,

它安裝好了就可以使用了,用很小的學習成本就可以變得很有生產力。

隨著越學越深入,還可以利用Elasticsearch更多高級的功能,整個引擎可以很靈活地進行配置。可以根據自身需求來定制屬于自己的Elasticsearch。

使用案例:

  • 維基百科使用Elasticsearch來進行全文搜做并高亮顯示關鍵詞,以及提供search-as-you-type、did-you-mean等搜索建議功能。

  • 英國衛報使用Elasticsearch來處理訪客日志,以便能將公眾對不同文章的反應實時地反饋給各位編輯。

  • StackOverflow將全文搜索與地理位置和相關信息進行結合,以提供more-like-this相關問題的展現。

  • GitHub使用Elasticsearch來檢索超過1300億行代碼。

  • 每天,Goldman Sachs使用它來處理5TB數據的索引,還有很多投行使用它來分析股票市場的變動。

但是Elasticsearch并不只是面向大型企業的,它還幫助了很多類似DataDog以及Klout的創業公司進行了功能的擴展。

Elasticsearch的優缺點**:

優點

  • Elasticsearch是分布式的。不需要其他組件,分發是實時的,被叫做”Push replication”。
  • Elasticsearch 完全支持 Apache Lucene 的接近實時的搜索。
  • 處理多租戶(multitenancy)不需要特殊配置,而Solr則需要更多的高級設置。
  • Elasticsearch 采用 Gateway 的概念,使得完備份更加簡單。
  • 各節點組成對等的網絡結構,某些節點出現故障時會自動分配其他節點代替其進行工作。
  • 缺點

  • 只有一名開發者(當前Elasticsearch GitHub組織已經不只如此,已經有了相當活躍的維護者)
  • 還不夠自動(不適合當前新的Index Warmup API)
  • Solr簡介*

    Solr(讀作“solar”)是Apache Lucene項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、數據庫集成,以及富文本(如Word、PDF)的處理。Solr是高度可擴展的,并提供了分布式搜索和索引復制。Solr是最流行的企業級搜索引擎,Solr4 還增加了NoSQL支持。

    Solr是用Java編寫、運行在Servlet容器(如 Apache Tomcat 或Jetty)的一個獨立的全文搜索服務器。 Solr采用了 Lucene Java 搜索庫為核心的全文索引和搜索,并具有類似REST的HTTP/XML和JSON的API。Solr強大的外部配置功能使得無需進行Java編碼,便可對其進行調整以適應多種類型的應用程序。Solr有一個插件架構,以支持更多的高級定制。

    因為2010年 Apache Lucene 和 Apache Solr 項目合并,兩個項目是由同一個Apache軟件基金會開發團隊制作實現的。提到技術或產品時,Lucene/Solr或Solr/Lucene是一樣的。

    Solr的優缺點

    優點

  • Solr有一個更大、更成熟的用戶、開發和貢獻者社區。
  • 支持添加多種格式的索引,如:HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。
  • Solr比較成熟、穩定。
  • 不考慮建索引的同時進行搜索,速度更快。
  • 缺點

  • 建立索引時,搜索效率下降,實時索引搜索效率不高。
  • Elasticsearch與Solr的比較*

    當單純的對已有數據進行搜索時,Solr更快。

    當實時建立索引時, Solr會產生io阻塞,查詢性能較差, Elasticsearch具有明顯的優勢。

    隨著數據量的增加,Solr的搜索效率會變得更低,而Elasticsearch卻沒有明顯的變化。

    綜上所述,Solr的架構不適合實時搜索的應用。

    實際生產環境測試*

    下圖為將搜索引擎從Solr轉到Elasticsearch以后的平均查詢速度有了50倍的提升。

    Elasticsearch 與 Solr 的比較總結

    • 二者安裝都很簡單;
    • Solr 利用 Zookeeper 進行分布式管理,而 Elasticsearch 自身帶有分布式協調管理功能;
    • Solr 支持更多格式的數據,而 Elasticsearch 僅支持json文件格式;
    • Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高級功能多有第三方插件提供;
    • Solr 在傳統的搜索應用中表現好于 Elasticsearch,但在處理實時搜索應用時效率明顯低于 Elasticsearch。

    Solr 是傳統搜索應用的有力解決方案,但 Elasticsearch 更適用于新興的實時搜索應用。

    其他基于Lucene的開源搜索引擎解決方案*

  • 直接使用?Lucene
  • 說明:Lucene 是一個 JAVA 搜索類庫,它本身并不是一個完整的解決方案,需要額外的開發工作。

    優點:成熟的解決方案,有很多的成功案例。apache 頂級項目,正在持續快速的進步。龐大而活躍的開發社區,大量的開發人員。它只是一個類庫,有足夠的定制和優化空間:經過簡單定制,就可以滿足絕大部分常見的需求;經過優化,可以支持 10億+ 量級的搜索。

    缺點:需要額外的開發工作。所有的擴展,分布式,可靠性等都需要自己實現;非實時,從建索引到可以搜索中間有一個時間延遲,而當前的“近實時”(Lucene Near Real Time search)搜索方案的可擴展性有待進一步完善

    • Katta

    說明:基于 Lucene 的,支持分布式,可擴展,具有容錯功能,準實時的搜索方案。

    優點:開箱即用,可以與?Hadoop?配合實現分布式。具備擴展和容錯機制。

    缺點:只是搜索方案,建索引部分還是需要自己實現。在搜索功能上,只實現了最基本的需求。成功案例較少,項目的成熟度稍微差一些。因為需要支持分布式,對于一些復雜的查詢需求,定制的難度會比較大。

    • Hadoop contrib/index

    說明:Map/Reduce 模式的,分布式建索引方案,可以跟 Katta 配合使用。

    優點:分布式建索引,具備可擴展性。

    缺點:只是建索引方案,不包括搜索實現。工作在批處理模式,對實時搜索的支持不佳。

    • LinkedIn 的開源方案

    說明:基于 Lucene 的一系列解決方案,包括 準實時搜索 zoie ,facet 搜索實現 bobo ,機器學習算法?decomposer ,摘要存儲庫 krati ,數據庫模式包裝 sensei 等等

    優點:經過驗證的解決方案,支持分布式,可擴展,豐富的功能實現

    缺點:與 linkedin 公司的聯系太緊密,可定制性比較差

    • Lucandra

    說明:基于 Lucene,索引存在 cassandra 數據庫中

    優點:參考 cassandra 的優點

    缺點:參考 cassandra 的缺點。另外,這只是一個 demo,沒有經過大量驗證

    • HBasene

    說明:基于 Lucene,索引存在 HBase 數據庫中

    優點:參考 HBase 的優點

    缺點:參考 HBase 的缺點。另外,在實現中,lucene terms 是存成行,但每個 term 對應的 posting lists 是以列的方式存儲的。隨著單個 term 的 posting lists 的增大,查詢時的速度受到的影響會非常大

    總結

    以上是生活随笔為你收集整理的【转载保存】搜索引擎调研文档的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。