大剑无锋之Hive调优【面试推荐】
1.Fetch抓取
Fetch抓取是指,Hive中對某些情況的查詢可以不必使用MapReduce計算。例如:SELECT * FROM employees;在這種情況下,Hive可以簡單地讀取employee對應(yīng)的存儲目錄下的文件,然后輸出查詢結(jié)果到控制臺。
2.本地模式
對于大多數(shù)這種情況,Hive可以通過本地模式在單臺機器上處理所有的任務(wù)。對于小數(shù)據(jù)集,執(zhí)行時間可以明顯被縮短。
3.表的優(yōu)化
? ? 3.1小表、大表Join
將key相對分散,并且數(shù)據(jù)量小的表放在join的左邊,這樣可以有效減少內(nèi)存溢出錯誤發(fā)生的幾率;再進一步,可以使用map?join讓小的維度表(1000條以下的記錄條數(shù))先進內(nèi)存。在map端完成reduce。
實際測試發(fā)現(xiàn):新版的hive已經(jīng)對小表JOIN大表和大表JOIN小表進行了優(yōu)化。小表放在左邊和右邊已經(jīng)沒有明顯區(qū)別。
? ? 3.2大表Join大表
3.2.1空KEY過濾
有時join超時是因為某些key對應(yīng)的數(shù)據(jù)太多,而相同key對應(yīng)的數(shù)據(jù)都會發(fā)送到相同的reducer上,從而導(dǎo)致內(nèi)存不夠。此時我們應(yīng)該仔細分析這些異常的key,很多情況下,這些key對應(yīng)的數(shù)據(jù)是異常數(shù)據(jù),我們需要在SQL語句中進行過濾。
3.2.2空key轉(zhuǎn)換
有時雖然某個key為空對應(yīng)的數(shù)據(jù)很多,但是相應(yīng)的數(shù)據(jù)不是異常數(shù)據(jù),必須要包含在join的結(jié)果中,此時我們可以表a中key為空的字段賦一個隨機的值,使得數(shù)據(jù)隨機均勻地分不到不同的reducer上。
4.MapJoin
如果不指定MapJoin或者不符合MapJoin的條件,那么Hive解析器會將Join操作轉(zhuǎn)換成Common Join,即:在Reduce階段完成join。容易發(fā)生數(shù)據(jù)傾斜??梢杂肕apJoin把小表全部加載到內(nèi)存在map端進行join,避免reducer處理。
5.Group By
默認(rèn)情況下,Map階段同一Key數(shù)據(jù)分發(fā)給一個reduce,當(dāng)一個key數(shù)據(jù)過大時就傾斜了。
?并不是所有的聚合操作都需要在Reduce端完成,很多聚合操作都可以先在Map端進行部分聚合,最后在Reduce端得出最終結(jié)果。
6.Count(Distinct) 去重統(tǒng)計
數(shù)據(jù)量小的時候無所謂,數(shù)據(jù)量大的情況下,由于COUNT DISTINCT操作需要用一個Reduce Task來完成,這一個Reduce需要處理的數(shù)據(jù)量太大,就會導(dǎo)致整個Job很難完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替換
7.笛卡爾積
盡量避免笛卡爾積,join的時候不加on條件,或者無效的on條件,Hive只能使用1個reducer來完成笛卡爾積。
8.行列過濾
列處理:在SELECT中,只拿需要的列,如果有,盡量使用分區(qū)過濾,少用SELECT *。
行處理:在分區(qū)剪裁中,當(dāng)使用外關(guān)聯(lián)時,如果將副表的過濾條件寫在Where后面,那么就會先全表關(guān)聯(lián),之后再過濾
9.動態(tài)分區(qū)調(diào)整
關(guān)系型數(shù)據(jù)庫中,對分區(qū)表Insert數(shù)據(jù)時候,數(shù)據(jù)庫自動會根據(jù)分區(qū)字段的值,將數(shù)據(jù)插入到相應(yīng)的分區(qū)中,Hive中也提供了類似的機制,即動態(tài)分區(qū)(Dynamic Partition),只不過,使用Hive的動態(tài)分區(qū),需要進行相應(yīng)的配置。
10.分桶
11.分區(qū)
12.數(shù)據(jù)傾斜
12.1合理設(shè)置Map數(shù)
12.2小文件進行合并
12.3小文件進行合并
12.4合理設(shè)置Reduce數(shù)
13.并行執(zhí)行
某個特定的job可能包含眾多的階段,而這些階段可能并非完全互相依賴的,也就是說有些階段是可以并行執(zhí)行的,這樣可能使得整個job的執(zhí)行時間縮短。不過,如果有更多的階段可以并行執(zhí)行,那么job可能就越快完成。
13.嚴(yán)格模式
Hive提供了一個嚴(yán)格模式,可以防止用戶執(zhí)行那些可能意想不到的不好的影響的查詢。
13.1對于分區(qū)表,除非where語句中含有分區(qū)字段過濾條件來限制范圍,否則不允許執(zhí)行。
13.2對于使用了order by語句的查詢,要求必須使用limit語句。
13.3限制笛卡爾積的查詢。
14.JVM重用
JVM重用是Hadoop調(diào)優(yōu)參數(shù)的內(nèi)容,其對Hive的性能具有非常大的影響,特別是對于很難避免小文件的場景或task特別多的場景,這類場景大多數(shù)執(zhí)行時間都很短。
15.推測執(zhí)行
在分布式集群環(huán)境下,會出現(xiàn)一些任務(wù)拖慢作業(yè)的整體執(zhí)行進度?,為了避免這種情況發(fā)生,Hadoop采用了推測執(zhí)行(Speculative Execution)機制,它根據(jù)一定的法則推測出“拖后腿”的任務(wù),并為這樣的任務(wù)啟動一個備份任務(wù),讓該任務(wù)與原始任務(wù)同時處理同一份數(shù)據(jù),并最終選用最先成功運行完成任務(wù)的計算結(jié)果作為最終結(jié)果。
16.壓縮
16.1要在Hadoop中啟用壓縮,可以配置如下參數(shù)(mapred-site.xml文件中)
16.2開啟map輸出階段壓縮可以減少job中map和Reduce task間數(shù)據(jù)傳輸量。
16.3當(dāng)Hive將輸出寫入到表中時,輸出內(nèi)容同樣可以進行壓縮。
17.執(zhí)行計劃(Explain)?
超強干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達旦的技術(shù)人生總結(jié)
以上是生活随笔為你收集整理的大剑无锋之Hive调优【面试推荐】的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hbase调优详情
- 下一篇: 大剑无锋之GC【面试推荐】