MapReduce 详解
生活随笔
收集整理的這篇文章主要介紹了
MapReduce 详解
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
MapReduce的整個運行分為兩個階段: Map和Reduce
Map階段由一定數量的Map Task組成
輸入格式的數據格式化:InputFormat
數日數據的處理:Mapper
數據分組:Partitioner
下面流程圖:
1. Map task 首先從HDFS上Read文件,通過Input Format把分件切分成一個一個的split.生成<Key,Value> key默認用行在文件中的偏移量
2.對每一個split塊執行Map操作
3.?
4. Maper的<Key,Value>輸出到Reducer段
Redue階段由一定數量的Reduce Task 組成
數據的遠程COPY
數據按Key排序
數據處理:Reducer
數據輸出格式: OutputFormat
?
1. 拿到Mapper的ouput作為Input
2. 把patitiioner的結果遠程copy到本地
3. Shffle & Sort操作。
4. Reducer操作
5.輸出
?
轉載于:https://www.cnblogs.com/Jesse-Li/p/8591489.html
總結
以上是生活随笔為你收集整理的MapReduce 详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java最大公约数和最小公倍数的求法(辗
- 下一篇: 如何解析C语言的声明