日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

怎样理解MapReduce中shuffle

發布時間:2024/1/3 综合教程 28 生活家
生活随笔 收集整理的這篇文章主要介紹了 怎样理解MapReduce中shuffle 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

云計算

怎樣理解MapReduce中shuffle,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。

概念解釋:

shuffle:簡單的名稱稱為 混洗。 事實上shuffle是一個非常非常簡單的概念。簡單點來說就是洗牌。

shuffle:按照固定的規則,就【key,value】而言。

前提

由于之前一直都是使用的 Hadoop1 ,并未使用 Hadoop Yarn,所以有關shuffle的機制,還請參考最新的底層API

1 : 不管是在Map端,還是Reduce端,不管是Hadoop MapReduce 還是Storm 。 對于數據的內部處理,很多時候都需要

對于是底層的 內存和磁盤做出一個合理的取舍。

Map端:

1 : 數據并不是簡單的把他直接的寫到了磁盤,這個過程比較復雜,他利用了緩沖的方式寫到了內存,并且出于效率上的考慮,進行了預排序。

2:每一個默認的Map任務都會有一個環形的緩存區。這個緩存區用來持有Map的輸出,我印象中是100M左右, 一旦達到的固定的必烈,那么就會把內容寫到磁盤之中,在寫磁盤的過程之中,Map輸出繼續被寫入到緩沖區。

3:在寫入到緩存區之前,會將這個數據進行一次分區和排序(這個分區和排序將會按照reduce的對應關系來生成)

4:關于這個分區的數據將通過Http的協議來傳遞給 Reduce端。

Reduce端:

Reduce端口的第一個階段是:copy 階段,也就是說我們需要把數據從Map端口copy到Reduce端口。 如果Map的端口輸出相當的小,那么就會被復制到 Reduce端。

其次:在拉取到數據之后,我們將進入到了:排序的階段。 sort phase 階段,更恰當的來說,是一個合并的階段,因為排序的階段已經在Map 端口完成了。只需要在reduce端合并就可以了

對于MapReduce,之前我也是能實現類qq圈子算法,對于算法,我也是整本算法導論的人。而,如今卻忘的一干二凈。記憶會消失,不需要的事物會遺忘。

看完上述內容,你們掌握怎樣理解MapReduce中shuffle的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

總結

以上是生活随笔為你收集整理的怎样理解MapReduce中shuffle的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。