日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大剑无锋之Hive调优【面试推荐】

發(fā)布時間:2024/2/28 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大剑无锋之Hive调优【面试推荐】 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.Fetch抓取

Fetch抓取是指,Hive中對某些情況的查詢可以不必使用MapReduce計算。例如:SELECT * FROM employees;在這種情況下,Hive可以簡單地讀取employee對應(yīng)的存儲目錄下的文件,然后輸出查詢結(jié)果到控制臺。

2.本地模式

對于大多數(shù)這種情況,Hive可以通過本地模式在單臺機器上處理所有的任務(wù)。對于小數(shù)據(jù)集,執(zhí)行時間可以明顯被縮短。

3.表的優(yōu)化

? ? 3.1小表、大表Join

將key相對分散,并且數(shù)據(jù)量小的表放在join的左邊,這樣可以有效減少內(nèi)存溢出錯誤發(fā)生的幾率;再進一步,可以使用map?join讓小的維度表(1000條以下的記錄條數(shù))先進內(nèi)存。在map端完成reduce。

實際測試發(fā)現(xiàn):新版的hive已經(jīng)對小表JOIN大表和大表JOIN小表進行了優(yōu)化。小表放在左邊和右邊已經(jīng)沒有明顯區(qū)別。

? ? 3.2大表Join大表

3.2.1空KEY過濾

有時join超時是因為某些key對應(yīng)的數(shù)據(jù)太多,而相同key對應(yīng)的數(shù)據(jù)都會發(fā)送到相同的reducer上,從而導(dǎo)致內(nèi)存不夠。此時我們應(yīng)該仔細分析這些異常的key,很多情況下,這些key對應(yīng)的數(shù)據(jù)是異常數(shù)據(jù),我們需要在SQL語句中進行過濾。

3.2.2空key轉(zhuǎn)換

有時雖然某個key為空對應(yīng)的數(shù)據(jù)很多,但是相應(yīng)的數(shù)據(jù)不是異常數(shù)據(jù),必須要包含在join的結(jié)果中,此時我們可以表a中key為空的字段賦一個隨機的值,使得數(shù)據(jù)隨機均勻地分不到不同的reducer上。

4.MapJoin

如果不指定MapJoin或者不符合MapJoin的條件,那么Hive解析器會將Join操作轉(zhuǎn)換成Common Join,即:在Reduce階段完成join。容易發(fā)生數(shù)據(jù)傾斜??梢杂肕apJoin把小表全部加載到內(nèi)存在map端進行join,避免reducer處理。

5.Group By

默認(rèn)情況下,Map階段同一Key數(shù)據(jù)分發(fā)給一個reduce,當(dāng)一個key數(shù)據(jù)過大時就傾斜了。

?并不是所有的聚合操作都需要在Reduce端完成,很多聚合操作都可以先在Map端進行部分聚合,最后在Reduce端得出最終結(jié)果。

6.Count(Distinct) 去重統(tǒng)計

數(shù)據(jù)量小的時候無所謂,數(shù)據(jù)量大的情況下,由于COUNT DISTINCT操作需要用一個Reduce Task來完成,這一個Reduce需要處理的數(shù)據(jù)量太大,就會導(dǎo)致整個Job很難完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替換

7.笛卡爾積

盡量避免笛卡爾積,join的時候不加on條件,或者無效的on條件,Hive只能使用1個reducer來完成笛卡爾積。

8.行列過濾

列處理:在SELECT中,只拿需要的列,如果有,盡量使用分區(qū)過濾,少用SELECT *。

行處理:在分區(qū)剪裁中,當(dāng)使用外關(guān)聯(lián)時,如果將副表的過濾條件寫在Where后面,那么就會先全表關(guān)聯(lián),之后再過濾

9.動態(tài)分區(qū)調(diào)整

關(guān)系型數(shù)據(jù)庫中,對分區(qū)表Insert數(shù)據(jù)時候,數(shù)據(jù)庫自動會根據(jù)分區(qū)字段的值,將數(shù)據(jù)插入到相應(yīng)的分區(qū)中,Hive中也提供了類似的機制,即動態(tài)分區(qū)(Dynamic Partition),只不過,使用Hive的動態(tài)分區(qū),需要進行相應(yīng)的配置。

10.分桶

11.分區(qū)

12.數(shù)據(jù)傾斜

12.1合理設(shè)置Map數(shù)

12.2小文件進行合并

12.3小文件進行合并

12.4合理設(shè)置Reduce數(shù)

13.并行執(zhí)行

某個特定的job可能包含眾多的階段,而這些階段可能并非完全互相依賴的,也就是說有些階段是可以并行執(zhí)行的,這樣可能使得整個job的執(zhí)行時間縮短。不過,如果有更多的階段可以并行執(zhí)行,那么job可能就越快完成。

13.嚴(yán)格模式

Hive提供了一個嚴(yán)格模式,可以防止用戶執(zhí)行那些可能意想不到的不好的影響的查詢。

13.1對于分區(qū)表,除非where語句中含有分區(qū)字段過濾條件來限制范圍,否則不允許執(zhí)行。

13.2對于使用了order by語句的查詢,要求必須使用limit語句。

13.3限制笛卡爾積的查詢。

14.JVM重用

JVM重用是Hadoop調(diào)優(yōu)參數(shù)的內(nèi)容,其對Hive的性能具有非常大的影響,特別是對于很難避免小文件的場景或task特別多的場景,這類場景大多數(shù)執(zhí)行時間都很短。

15.推測執(zhí)行

在分布式集群環(huán)境下,會出現(xiàn)一些任務(wù)拖慢作業(yè)的整體執(zhí)行進度?,為了避免這種情況發(fā)生,Hadoop采用了推測執(zhí)行(Speculative Execution)機制,它根據(jù)一定的法則推測出“拖后腿”的任務(wù),并為這樣的任務(wù)啟動一個備份任務(wù),讓該任務(wù)與原始任務(wù)同時處理同一份數(shù)據(jù),并最終選用最先成功運行完成任務(wù)的計算結(jié)果作為最終結(jié)果。

16.壓縮

16.1要在Hadoop中啟用壓縮,可以配置如下參數(shù)(mapred-site.xml文件中)

16.2開啟map輸出階段壓縮可以減少job中map和Reduce task間數(shù)據(jù)傳輸量。

16.3當(dāng)Hive將輸出寫入到表中時,輸出內(nèi)容同樣可以進行壓縮。

17.執(zhí)行計劃(Explain)?

超強干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達旦的技術(shù)人生

總結(jié)

以上是生活随笔為你收集整理的大剑无锋之Hive调优【面试推荐】的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。