hive怎样决定reducer个数
生活随笔
收集整理的這篇文章主要介紹了
hive怎样决定reducer个数
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Hadoop MapReduce程序中,reducer個數的設定極大影響執行效率,這使得Hive怎樣決定reducer個數成為一個關鍵問題。遺憾的是Hive的估計機制很弱,不指定reducer個數的情況下,Hive會猜測確定一個reducer個數,基于以下兩個設定:
1. hive.exec.reducers.bytes.per.reducer(默認為1000^3)
2. hive.exec.reducers.max(默認為999)
計算reducer數的公式很簡單:
N=min(參數2,總輸入數據量/參數1)通常情況下,有必要手動指定reducer個數。考慮到map階段的輸出數據量通常會比輸入有大幅減少,因此即使不設定reducer個數,重設參數2還是必要的。依據Hadoop的經驗,可以將參數2設定為0.95*(集群中TaskTracker個數)。
?
轉自?http://www.alidata.org/archives/622
轉載于:https://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843249.html
總結
以上是生活随笔為你收集整理的hive怎样决定reducer个数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强大的,方便编程的vim配置
- 下一篇: 【分布计算环境学习笔记】9 Web Se