日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop 05_MapReduce1.0

發(fā)布時間:2024/2/28 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop 05_MapReduce1.0 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

MapReduce1.0

為什么叫MapReduce?

MR原語:map + reduce

?

輸入(格式化k,v)數(shù)據(jù)集àmap映射成一個中間數(shù)據(jù)集(k,v)àreduce (sql)

“相同”的key為一組,調(diào)用一次reduce方法,方法內(nèi)迭代這一組數(shù)據(jù)進(jìn)行計算 (類似的sql)

?

排序

比較

遍歷

計算

各種維度花銷,音樂, 其他

?

MapReduce:MapTask & ReduceTask

拿單詞統(tǒng)計為例:(后續(xù)我會單獨拿出來說明:)

?

?

?

block > split

1:1

N:1

1:N

split > map

1:1

map > reduce

N:1

N:N

1:1

1:N

group(key)>partition

1:1

N:1

N:N

1:N? ?>違背了原語

partition > outputfile

劃開分割 > 輸出文件

?

Shuffler<洗牌>:框架內(nèi)部實現(xiàn)機制

分布式計算節(jié)點數(shù)據(jù)流轉(zhuǎn):連接MapTask與ReduceTask

?

終極理解:

理解:

Map:

讀懂?dāng)?shù)據(jù)

映射為KV模型

并行分布式

計算向數(shù)據(jù)移動

Reduce:

數(shù)據(jù)全量/分量加工(partition/group)

Reduce中可以包含不同的key

相同的Key匯聚到一個Reduce中

相同的Key調(diào)用一次reduce方法

排序?qū)崿F(xiàn)key的匯聚

K,V使用自定義數(shù)據(jù)類型

作為參數(shù)傳遞,節(jié)省開發(fā)成本,提高程序自由度

Writable序列化:使能分布式程序數(shù)據(jù)交互

Comparable比較器:實現(xiàn)具體排序(字典序,數(shù)值序等)

?

1.0運行架構(gòu):體現(xiàn)計算向數(shù)據(jù)移動

?

計算框架Mapper

?

Map:“在本地數(shù)據(jù)上運行此計算”作業(yè)跟蹤器將Java代碼交付給帶有本地數(shù)據(jù)的節(jié)點

?

計算框架Reducer

?

Reduce:“跨Map結(jié)果運行此計算”。Map任務(wù)通過網(wǎng)絡(luò)將輸出數(shù)據(jù)發(fā)送到Reduce,減少從HDFS寫入和讀取的任務(wù)數(shù)據(jù)輸出

?

MRv1角色:

JobTracker

核心,主,單點

調(diào)度所有的作業(yè)

監(jiān)控整個集群的資源負(fù)載

TaskTracker

從,自身節(jié)點資源管理

和JobTracker心跳,匯報資源,獲取Task

Client

作業(yè)為單位

規(guī)劃作業(yè)計算分布

提交作業(yè)資源到HDFS

最終提交作業(yè)到JobTracker

弊端:

JobTracker:負(fù)載過重,單點故障

資源管理與計算調(diào)度強耦合,其他計算框架需要重復(fù)實現(xiàn)資源管理

不同框架對資源不能全局管理

總結(jié)

以上是生活随笔為你收集整理的Hadoop 05_MapReduce1.0的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。