elasticsearch的分布式架构原理
對于全文檢索,lucene是目前最流行的搜索庫。以前我們都需要學習使用lucene,基于lucene做相關的開發,學習倒排索引的原理,而現在,我們可以直接使用現成的搜索框架了,因為現在很多這種搜索框架底層都是直接基于lucene的分布式搜索引擎,例如elasticsearch就是其中最典型的代表,我們親切的簡稱其為es。
?
現在分布式搜索基本已經成為大部分互聯網行業的java體系的標配,其中尤為流行的就是es,記得我2014年的時候還在用用solr,估計那個時候大部分小伙伴也是一樣。但是最近幾年基本都開始轉向es了。
elasticsearch設計的理念就是分布式搜索引擎,底層其實還是基于lucene的。
elasticsearch通過在多臺機器上啟動多個進程實例,然后通相同的集群名稱自動加入同一個集群組成了一個es集群。
?
es基礎存儲結構
es中存儲數據的基本單位是索引index,比如我們可以創建訂單索引order_index,然后創建一個type,所有的訂單數據就都寫到這個索引下的type里面去了,如果硬要和mysql進行類比的話,es中一個索引可以類比為mysql中的一個庫,類型可以類比為mysql里的一張表,因此理論上一個索引index可以對應多個type。不過隨著es版本的更新迭代,一般都是建議一個索引index只對應一個type。es中結構由大到小順序大致為index -> type -> mapping -> document -> field。
?
比如:一個訂單index里面一般就是一個訂單type,只存放一種類型。
?
每個type都有一個mapping結構,mapping就是這個type的結構定義,這個結構定義就相當于你在mysql中創建一個表,要定義表結構和字段,以及類型。
?
而在es中mapping就代表了這個type的表結構定義,定義了這個type中每個字段名稱,字段是什么類型的,然后還有這個字段的各種配置。
?
然后你向index中的type寫的一條數據,就相當于一個document對象,一個document對象就代表了mysql中某個表里的一行記錄,每個document有多個field,每個field就代表了這個document中的一個字段的值
?
es的分布式架構
借圖說話
?
?
根據es的分布式架構,es的每個索引都會被拆分成多個shard分片,每個shard分片只存儲部分數據。
?
然后每個shard分片都是有副本的,其中主分片即primary shard負責寫入數據, primary shard寫入數據之后,會將數據同步到其他幾個副本分片replica shard上去。通過這種副本機制達到es的高可用。
?
es集群中是有多個節點的,它們會自動選舉一個節點做為master節點,master節點相當于一個協調管理者,用于維護索引元數據,切換primary shard和replica shard身份之類的。
?
如果master節點宕機了,其余節點會重新選舉一個節點為master節點。
?
如果是非master節點宕機了,那么會由master節點,讓那個宕機節點上的primary shard的身份轉移到其他機器上的replica shard。然后如果該宕機節點修復重啟了之后,master節點會將缺失的replica shard分配過去,同步主從分片數據,讓集群恢復正常。
?
這就是elasticsearch作為一個分布式搜索引擎最基本的一個架構設計,后續會持續探討es搜索和寫入的內部原理和流程,以及實際項目中我們怎么使用elasticsearch實現全文檢索,聚合統計相關功能。
?
總結
以上是生活随笔為你收集整理的elasticsearch的分布式架构原理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AMD R7 7840HS 通过 Cin
- 下一篇: java互联网架构师入门进阶之路