hive的一些调优参数
生活随笔
收集整理的這篇文章主要介紹了
hive的一些调优参数
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
hive的一些調優參數
set hive.exec.dynamic.partition.mode=nonstrict; 使用動態分區 set hive.exec.max.dynamic.partitions=100000;自動分區數最大值 set hive.exec.max.dynamic.partitions.pernode=100000; set hive.hadoop.supports.splittable.combineinputformat=true;支持切分 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; set mapred.max.split.size=256000000; set mapred.min.split.size.per.node=256000000; set mapred.min.split.size.per.rack=256000000; set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; set hive.merge.size.per.task=256000000; set hive.merge.smallfiles.avgsize=160000000; set hive.exec.compress.output=true; set mapred.output.compress=true; set mapred.output.compression.type=BLOCK; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; set hive.map.aggr=true; set hive.optimize.skewjoin=true; set hive.groupby.skewindata=true; 解決數據傾斜,不適用多字段去重統計 set hive.auto.convert.join=false; set hive.groupby.skewindata=false; set hive.new.job.grouping.set.cardinality = 200;添加額外job set hive.fetch.task.conversion=more;簡單查詢不用mapreduce set hive.exec.mode.local.auto=true; //開啟本地mr set hive.exec.mode.local.auto.inputbytes.max=50000000;小于時用local mr set hive.exec.mode.local.auto.input.files.max=5;默認4文件個數用local mr set hive.auto.convert.join = true;默認開啟,map join set hive.mapjoin.smalltable.filesize=25000000;小表 set hive.map.aggr = true;默認map聚合 set hive.groupby.mapaggr.checkinterval = 100000;map聚合條數 set hive.groupby.skewindata = true;數據傾斜的時候進行負載均衡(默認是false) set hive.exec.reducers.bytes.per.reducer=32123456;reduce任務處理量默認256000000 set hive.exec.parallel=true;并行執行 set hive.exec.parallel.thread.number=16;同一SQL最大并行度 set hive.mapred.mode=nonstrict;非嚴格模式 set mapred.job.reuse.jvm.num.tasks=5;jvm重用個數 set hive.mapred.reduce.tasks.speculative.execution=true;推測執行 set hive.exec.compress.intermediate=true;壓縮算法 set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec;#設置中間數據的壓縮算法 set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;小文件合并 set mapreduce.input.fileinputformat.split.maxsize=10485760;一個block塊大小 set hive.exec.reducers.bytes.per.reducer=256000000;每個Reduce處理的數據量默認是256MB set hive.exec.reducers.max=1009;每個任務最大的reduce數,默認為1009 set mapreduce.job.reduces=3;設置每一個job中reduce個數總結
以上是生活随笔為你收集整理的hive的一些调优参数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【java机器学习】决策树算法
- 下一篇: elasticsearch实战篇