當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

elasticsearch亿级数据量全量索引导入优化方案

發布時間：2024/8/23 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 elasticsearch亿级数据量全量索引导入优化方案小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hbase scan讀取時候，調大 hbase.client.scanner.timeout.period 超時時間,不然可能會跑異常 org.apache.hadoop.hbase.UnknownScannerException: org.apache.hadoop.hbase.UnknownScannerException: Unknown scanner '479187903508737326'. This can happen due to any of the following reasons: a) Scanner id given is wrong, b) Scanner lease expired because of long wait between consecutive client checkins, c) Server may be closing down, d) RegionServer restart during upgrade.

線程池參數配置，由于是IO密集型任務可將核心線程數調成cpu核數好幾倍，保證程序錄入不能丟失數據采用 ThreadPoolExecutor.CallerRunsPolicy拒絕策略

由于是測試環境配置不高(4核7G機器)，一開始我設置的corePoolSize=4，maxPoolSize=8，隊列容量200，后來發現還是太慢了，后來經過測試改成corePoolSize=20，maxPoolSize=40，隊列容量為4000，最終效果比較好

利用G1收集器，調大jvm堆內存

我從3G->6G,這樣做的好處是，1.GC不會太頻繁，導致進程頻繁停頓影響性能 2.可以增加阻塞隊列容量，可以使scan hbase的父線程停頓時間不會太長，導致連接超時

elasticsearch建索引方式改成BulkProcessor，批量提交

注意，BulkProcessor配置成異步、批量、定時刷新等，BulkProcessor#add()方法是一個同步方法，因此在同一時刻只能單線程處理，優化是將BuilkProcessor放在線程池中動態生成，多線程提交，另外，建索引時候先不選擇副本等全量錄入完成以后再配置副本，選擇副本再錄全量數據更新比較慢。

BulkProcessor使用注意：

1.使用的時候如果BulkProcessor只有一個實例，由于es批量處理不過來所有的數據都堆積在這個類中會出現OOM，后來領導讓我把提交流程改成通過固定的線程池去提交，每次批量提交創建一個實例，這樣保證不會出現OOM。

2.BulkProcessor源碼中用的Synchronized，如果只有一個實例也就意味著多個線程同時提交一次只能處理一個線程的提交，這樣效率太慢了

總結

以上是生活随笔為你收集整理的elasticsearch亿级数据量全量索引导入优化方案的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【转载】ssdb安装部署
下一篇： libevent学习__学习历程总结