當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

elasticsearch面试必考（亲身经历的问题）

發(fā)布時間：2023/12/19 综合教程 36 生活家

生活随笔收集整理的這篇文章主要介紹了 elasticsearch面试必考（亲身经历的问题）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者：手留余香 | 轉(zhuǎn)自：Java架構(gòu)沉思錄 | 原文

面試題

es 寫入數(shù)據(jù)的工作原理是什么??？es 查詢數(shù)據(jù)的工作原理是什么??？底層的 lucene 介紹一下唄？倒排索引了解嗎？

面試官心理分析

問這個，其實面試官就是要看看你了解不了解 es 的一些基本原理，因為用 es 無非就是寫入數(shù)據(jù)，搜索數(shù)據(jù)。你要是不明白你發(fā)起一個寫入和搜索請求的時候，es 在干什么，那你真的是……對 es 基本就是個黑盒，你還能干啥？你唯一能干的就是用 es 的 api 讀寫數(shù)據(jù)了。要是出點什么問題，你啥都不知道，那還能指望你什么呢？

es 寫數(shù)據(jù)過程

客戶端選擇一個 node 發(fā)送請求過去，這個 node 就是coordinating node（協(xié)調(diào)節(jié)點）。
coordinating node對 document 進行路由，將請求轉(zhuǎn)發(fā)給對應(yīng)的 node（有 primary shard）。[路由的算法是？]
實際的 node 上的primary shard處理請求，然后將數(shù)據(jù)同步到replica node。
coordinating node如果發(fā)現(xiàn)primary node和所有replica node都搞定之后，就返回響應(yīng)結(jié)果給客戶端。

es 讀數(shù)據(jù)過程

可以通過doc id來查詢，會根據(jù)doc id進行 hash，判斷出來當時把doc id分配到了哪個 shard 上面去，從那個 shard 去查詢。

客戶端發(fā)送請求到任意一個 node，成為coordinate node。
coordinate node對doc id進行哈希路由，將請求轉(zhuǎn)發(fā)到對應(yīng)的 node，此時會使用round-robin隨機輪詢算法，在primary shard以及其所有 replica 中隨機選擇一個，讓讀請求負載均衡。
接收請求的 node 返回 document 給coordinate node。
coordinate node返回 document 給客戶端。

寫請求是寫入 primary shard，然后同步給所有的 replica shard；讀請求可以從 primary shard 或 replica shard 讀取，采用的是隨機輪詢算法。

es 搜索數(shù)據(jù)過程[是指search?search和普通docid get的背后邏輯不一樣？]

es 最強大的是做全文檢索，就是比如你有三條數(shù)據(jù)：

java真好玩兒啊
java好難學(xué)啊
j2ee特別牛

你根據(jù)java關(guān)鍵詞來搜索，將包含java的document給搜索出來。es 就會給你返回：java真好玩兒啊，java好難學(xué)啊。

客戶端發(fā)送請求到一個coordinate node。
協(xié)調(diào)節(jié)點將搜索請求轉(zhuǎn)發(fā)到所有的 shard 對應(yīng)的primary shard或replica shard，都可以。
query phase：每個 shard 將自己的搜索結(jié)果（其實就是一些doc id）返回給協(xié)調(diào)節(jié)點，由協(xié)調(diào)節(jié)點進行數(shù)據(jù)的合并、排序、分頁等操作，產(chǎn)出最終結(jié)果。
fetch phase：接著由協(xié)調(diào)節(jié)點根據(jù)doc id去各個節(jié)點上拉取實際的document數(shù)據(jù)，最終返回給客戶端。

寫數(shù)據(jù)底層原理

1）document先寫入導(dǎo)內(nèi)存buffer中，同時寫translog日志

2)）https://www.elastic.co/guide/cn/elasticsearch/guide/current/near-real-time.html

refresh操作所以近實時搜索：寫入和打開一個新段(一個追加的倒排索引)的輕量的過程叫做refresh。每隔一秒鐘把buffer中的數(shù)據(jù)創(chuàng)建一個新的segment，這里新段會被先寫入到文件系統(tǒng)緩存–這一步代價會比較低，稍后再被刷新到磁盤–這一步代價比較高。不過只要文件已經(jīng)在緩存中，就可以像其它文件一樣被打開和讀取了，內(nèi)存buffer被清空。此時，新segment 中的文件就可以被搜索了，這就意味著document從被寫入到可以被搜索需要一秒種，如果要更改這個屬性，可以執(zhí)行以下操作

PUT /my_index
{

“settings”: {

“refresh_interval“: “30s”
}
}
3）https://www.elastic.co/guide/cn/elasticsearch/guide/current/translog.html

flush操作導(dǎo)致持久化變更：執(zhí)行一個提交并且截斷 translog 的行為在 Elasticsearch 被稱作一次flush。刷新（refresh）完成后, 緩存被清空但是事務(wù)日志不會。translog日志也會越來越多，當translog日志大小大于一個閥值時候或30分鐘，會出發(fā)flush操作。

所有在內(nèi)存緩沖區(qū)的文檔都被寫入一個新的段。
緩沖區(qū)被清空。
一個提交點被寫入硬盤。（表明有哪些segment commit了）
文件系統(tǒng)緩存通過fsync到磁盤。
老的 translog 被刪除。

分片每30分鐘被自動刷新（flush），或者在 translog 太大的時候也會刷新。也可以用_flush命令手動執(zhí)行。

translog每隔5秒會被寫入磁盤（所以如果這5s，數(shù)據(jù)在cache而且log沒持久化會丟失）。在一次增刪改操作之后translog只有在replica和primary shard都成功才會成功，如果要提高操作速度，可以設(shè)置成異步的

PUT /my_index
{

“settings”: {

“index.translog.durability”: “async” ,

“index.translog.sync_interval”:”5s”
}
}

所以總結(jié)是有三個批次操作，一秒做一次refresh保證近實時搜索，5秒做一次translog持久化保證數(shù)據(jù)未持久化前留底，30分鐘做一次數(shù)據(jù)持久化。

2.基于translog和commit point的數(shù)據(jù)恢復(fù)

在磁盤上會有一個上次持久化的commit point，translog上有一個commit point，根據(jù)這兩個commit point，會把translog中的變更記錄進行回放，重新執(zhí)行之前的操作

3.不變形下的刪除和更新原理

https://www.elastic.co/guide/cn/elasticsearch/guide/current/dynamic-indices.html#deletes-and-updates

一個文檔被 “刪除” 時，它實際上只是在.del文件中被標記刪除。一個被標記刪除的文檔仍然可以被查詢匹配到，但它會在最終結(jié)果被返回前從結(jié)果集中移除。

文檔更新也是類似的操作方式：當一個文檔被更新時，舊版本文檔被標記刪除，文檔的新版本被索引到一個新的段中。可能兩個版本的文檔都會被一個查詢匹配到，但被刪除的那個舊版本文檔在結(jié)果集返回前就已經(jīng)被移除。

段合并的時候會將那些舊的已刪除文檔從文件系統(tǒng)中清除。被刪除的文檔（或被更新文檔的舊版本）不會被拷貝到新的大段中。

4.merge操作，段合并

https://www.elastic.co/guide/cn/elasticsearch/guide/current/merge-process.html

由于每秒會把buffer刷到segment中，所以segment會很多，為了防止這種情況出現(xiàn)，es內(nèi)部會不斷把一些相似大小的segment合并，并且物理刪除del的segment。

當然也可以手動執(zhí)行

POST /my_index/_optimize?max_num_segments=1，盡量不要手動執(zhí)行，讓它自動默認執(zhí)行就可以了

5.當你正在建立一個大的新索引時（相當于直接全部寫入buffer，先不refresh，寫完再refresh），可以先關(guān)閉自動刷新，待開始使用該索引時，再把它們調(diào)回來：

PUT /my_logs/_settings
{ "refresh_interval": -1 } 

PUT /my_logs/_settings
{ "refresh_interval": "1s" }

底層 lucene

簡單來說，lucene 就是一個 jar 包，里面包含了封裝好的各種建立倒排索引的算法代碼。我們用 Java 開發(fā)的時候，引入 lucene jar，然后基于 lucene 的 api 去開發(fā)就可以了。

通過 lucene，我們可以將已有的數(shù)據(jù)建立索引，lucene 會在本地磁盤上面，給我們組織索引的數(shù)據(jù)結(jié)構(gòu)。

倒排索引

在搜索引擎中，每個文檔都有一個對應(yīng)的文檔 ID，文檔內(nèi)容被表示為一系列關(guān)鍵詞的集合。例如，文檔 1 經(jīng)過分詞，提取了 20 個關(guān)鍵詞，每個關(guān)鍵詞都會記錄它在文檔中出現(xiàn)的次數(shù)和出現(xiàn)位置。

那么，倒排索引就是關(guān)鍵詞到文檔ID 的映射，每個關(guān)鍵詞都對應(yīng)著一系列的文件，這些文件中都出現(xiàn)了關(guān)鍵詞。

舉個栗子。

有以下文檔：

對文檔進行分詞之后，得到以下倒排索引。

另外，實用的倒排索引還可以記錄更多的信息，比如文檔頻率信息，表示在文檔集合中有多少個文檔包含某個單詞。

那么，有了倒排索引，搜索引擎可以很方便地響應(yīng)用戶的查詢。比如用戶輸入查詢Facebook，搜索系統(tǒng)查找倒排索引，從中讀出包含這個單詞的文檔，這些文檔就是提供給用戶的搜索結(jié)果。

要注意倒排索引的兩個重要細節(jié)：

倒排索引中的所有詞項對應(yīng)一個或多個文檔
倒排索引中的詞項根據(jù)字典順序升序排列

上面只是一個簡單的栗子，并沒有嚴格按照字典順序升序排列。

Translog的詳解

translog是用來恢復(fù)數(shù)據(jù)的。Es用“后寫”的套路來加快寫入速度 — 寫入的索引并沒有實時落盤到索引文件，而是先雙寫到內(nèi)存和translog文件，

下圖1中灰色部分（見藍色箭頭）表示數(shù)據(jù)出于可搜索 & 未落盤 & 已寫日志的狀態(tài)。此時如果掉電，es重啟后還可以把數(shù)據(jù)從日志文件中讀回來。

詳細：https://www.cnblogs.com/fengda/p/10348606.html

總結(jié)

以上是生活随笔為你收集整理的elasticsearch面试必考（亲身经历的问题）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SAP CRM Fiori应用Appoi
下一篇： ipad写python代码用什么软件_i