日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark _17 _SparkShuffle、HashShuffleManager、SortShuffleManager

發布時間:2024/2/28 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark _17 _SparkShuffle、HashShuffleManager、SortShuffleManager 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

SparkShuffle

  • SparkShuffle概念

reduceByKey會將上一個RDD中的每一個key對應的所有value聚合成一個value,然后生成一個新的RDD,元素類型是<key,value>對的形式,這樣每一個key對應一個聚合起來的value。

問題:聚合之前,每一個key對應的value不一定都是在一個partition中,也不太可能在同一個節點上,因為RDD是分布式的彈性的數據集,RDD的partition極有可能分布在各個節點上。

如何聚合?

– Shuffle Write:上一個stage的每個map task就必須保證將自己處理的當前分區的數據相同的key寫入一個分區文件中,可能會寫入多個不同的分區文件中。

?– Shuffle Read:reduce task就會從上一個stage的所有task所在的機器上尋找屬于己的那些分區文件,這樣就可以保證每一個key所對應的value都會匯聚到同一個節點上去處理和聚合。

Spark中有兩種Shuffle管理類型,HashShufflManager和SortShuffleManager,Spark1.2之前是HashShuffleManager, Spark1.2引入SortShuffleManager,在Spark 2.0+版本中已經將HashShuffleManager丟棄。


?HashShuffleManager

  • 普通機制
  • 普通機制示意圖

?

  • 執行流程
  • 每一個map task將不同結果寫到不同的buffer中,每個buffer的大小為32K。buffer起到數據緩存的作用。
  • 每個buffer文件最后對應一個磁盤小文件。
  • reduce task來拉取對應的磁盤小文件。
    • 總結
  • .map task的計算結果會根據分區器(默認是hashPartitioner)來決定寫入到哪一個磁盤小文件中去。ReduceTask會去Map端拉取相應的磁盤小文件。
  • .產生的磁盤小文件的個數:
  • M(map task的個數)*R(reduce task的個數)

    • 存在的問題

    ? ? ?產生的磁盤小文件過多,會導致以下問題:

  • 在Shuffle Write過程中會產生很多寫磁盤小文件的對象。
  • 在Shuffle Read過程中會產生很多讀取磁盤小文件的對象。
  • 在JVM堆內存中對象過多會造成頻繁的gc,gc還無法解決運行所需要的內存 的話,就會OOM。
  • 在數據傳輸過程中會有頻繁的網絡通信,頻繁的網絡通信出現通信故障的可能性大大增加,一旦網絡通信出現了故障會導致shuffle file cannot find 由于這個錯誤導致的task失敗,TaskScheduler不負責重試,由DAGScheduler負責重試Stage。

    • ??合并機制
    • 合并機制示意圖

    • 總結

    產生磁盤小文件的個數:C(core的個數)*R(reduce的個數)



    SortShuffleManager

    • 普通機制
    • 普通機制示意圖

    ?

    • 執行流程
  • map task 的計算結果會寫入到一個內存數據結構里面,內存數據結構默認是5M
  • 在shuffle的時候會有一個定時器,不定期的去估算這個內存結構的大小,當內存結構中的數據超過5M時,比如現在內存結構中的數據為5.01M,那么他會申請5.01*2-5=5.02M內存給內存數據結構。
  • 如果申請成功不會進行溢寫,如果申請不成功,這時候會發生溢寫磁盤。
  • 在溢寫之前內存結構中的數據會進行排序分區
  • 然后開始溢寫磁盤,寫磁盤是以batch的形式去寫,一個batch是1萬條數據,
  • map task執行完成后,會將這些磁盤小文件合并成一個大的磁盤文件,同時生成一個索引文件。
  • reduce task去map端拉取數據的時候,首先解析索引文件,根據索引文件再去拉取對應的數據。
    • 總結

    產生磁盤小文件的個數: 2*M(map task的個數)


    • ?bypass機制
    • bypass機制示意圖

    ?

    • 總結
    • .bypass運行機制的觸發條件如下:

    ? ? ? ? ? ? shuffle reduce task的數量小于spark.shuffle.sort.bypassMergeThreshold的參數值。這個值默認是200。

    • .產生的磁盤小文件為:2*M(map task的個數)

    總結

    以上是生活随笔為你收集整理的Spark _17 _SparkShuffle、HashShuffleManager、SortShuffleManager的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。