第十六期:简单的介绍一下大数据中最重要的MapReduce
MapReduce是分布式運(yùn)行的,由兩個(gè)階段組成:Map和Reduce,Map階段是一個(gè)獨(dú)立的程序,有很多個(gè)節(jié)點(diǎn)同時(shí)運(yùn)行,每個(gè)節(jié)點(diǎn)處理一部分?jǐn)?shù)據(jù)。
?
MapReduce執(zhí)行流程圖
概述
MapReduce是一種分布式計(jì)算模型,由Google提出,主要用于搜索領(lǐng)域,解決海量數(shù)據(jù)的計(jì)算問題。
MapReduce是分布式運(yùn)行的,由兩個(gè)階段組成:Map和Reduce,Map階段是一個(gè)獨(dú)立的程序,有很多個(gè)節(jié)點(diǎn)同時(shí)運(yùn)行,每個(gè)節(jié)點(diǎn)處理一部分?jǐn)?shù)據(jù)。
Reduce階段是一個(gè)獨(dú)立的程序,有很多個(gè)節(jié)點(diǎn)同時(shí)運(yùn)行,每個(gè)節(jié)點(diǎn)處理一部分?jǐn)?shù)據(jù)。
使用
MapReduce框架都有默認(rèn)實(shí)現(xiàn),用戶只需要覆蓋map()和reduce()兩個(gè)函數(shù),即可實(shí)現(xiàn)分布式計(jì)算,非常簡單。
這兩個(gè)函數(shù)的形參和返回值都是,使用的時(shí)候一定要注意構(gòu)造。
執(zhí)行流程(此處舉例說明)
1.獲取每一個(gè)block塊中的文本,遍歷所有,回去其中的一行str
因?yàn)橐y(tǒng)計(jì)的是每一個(gè)單詞i的次數(shù),所以還需要直到文本中有哪些單詞,可以根據(jù)字符串的特點(diǎn),使用split()進(jìn)行切割。
根據(jù)要求,需將每一個(gè)單詞i轉(zhuǎn)換為的形式,k為單詞本身,v為單詞出現(xiàn)的次數(shù)。
2.因?yàn)閙r的計(jì)算是分布式的 ,每一個(gè)map(稱之為一個(gè)mapper task)計(jì)算其中的一個(gè)block塊數(shù)據(jù)。
經(jīng)過上述操作之后,系統(tǒng)會(huì)將計(jì)算結(jié)果輸出給用戶,一般會(huì)先存儲(chǔ)(落地)到hdfs,然后反饋給用戶。
到此為止,MapReduce執(zhí)行完畢,接下來就可以進(jìn)行大數(shù)據(jù)的其他一系列操作了。
閱讀目錄(置頂)(長期更新計(jì)算機(jī)領(lǐng)域知識(shí))https://blog.csdn.net/weixin_43392489/article/details/102380691
閱讀目錄(置頂)(長期更新計(jì)算機(jī)領(lǐng)域知識(shí))https://blog.csdn.net/weixin_43392489/article/details/102380882
總結(jié)
以上是生活随笔為你收集整理的第十六期:简单的介绍一下大数据中最重要的MapReduce的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: oracle10g下载与安装教程,Ora
- 下一篇: 56jsp登录案例