當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

阿龙学堂-Spark 数据倾斜如何处理

發布時間：2023/12/14 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了阿龙学堂-Spark 数据倾斜如何处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據傾斜的問題優先從數據源解決，以下方法是輔助緩解：

spark-sql任務，可以嘗試distribute by () 某個字段

參考文檔調優： https://blog.csdn.net/lsshlsw/article/details/52025949

數據傾斜的定位方法：

選取key，對數據進行抽樣，統計出現的次數，根據出現次數大小排序取出前幾個

df.select("key") .sample(false,0.1) .(k=>(k,1)) .reduceBykey(_+_) .map(k=>(k._2,k._1)) .sortByKey(false) .take(10)

null（空值）或是一些無意義的信息()之類的,大多是這個原因引起。

無效數據，大量重復的測試數據或是對結果影響不大的有效數據。

有效數據，業務導致的正常數據分布。

第1，2種情況，直接對數據進行過濾即可。

第3種情況則需要進行一些特殊操作，常見的有以下幾種做法。隔離執行，將異常的key過濾出來單獨處理，最后與正常數據的處理結果進行union操作。對key先添加隨機值，進行操作后，去掉隨機值，再進行一次操作。

SQL中Join關聯key使用rand()可能導致數據重復（丟失）問題

建議認真閱讀參考資料：
http://www.jasongj.com/spark/skew/
https://www.iteblog.com/archives/1671.html

--------------------------------------------------------------------------------

有問題請聯系QQ:765120845

歡迎關注微信公眾號? 【阿龍學堂】,更多編程基礎知識及機器學習學習內容

以上是生活随笔為你收集整理的阿龙学堂-Spark 数据倾斜如何处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。