當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

MapReduce的简单实例WordCount

發(fā)布時間：2024/1/17 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 MapReduce的简单实例WordCount 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

hadoop

----------------------------------------

1.組成：common，hdfs，mapreduce，yarn

2.hadoop集群搭建：3種【搭建流程】

3.hdfs shell命令

4.hdfs體系結構：主從節(jié)點{namenode,datanode,secondarynamenode}都是守護進程而非節(jié)點：【官網(wǎng)結構圖】

　　fsimage和editslog概念：checkpoint檢查點機制，集群的啟動過程。

5.hdfs dfsadmin操作

6.hdfs API

MapReduce:分而治之，數(shù)據(jù)在那，計算在那

------------------------------------------

1.通用的軟件計算框架（應用程序job），并行計算：map階段+reduce階段

　　map(映射)，并行處理，繼承Mapper類，實現(xiàn)map函數(shù)　　

　　reduce(規(guī)約或化簡)：整合排序，繼承Reducer類，實現(xiàn)reduce函數(shù)

2.MR程序采用<key,value>方式。

　　【輸入】------------【輸出】

　　　　kv對　　　　　　　　　kv對

　　鍵和值必須由框架序列化：數(shù)據(jù)持久+網(wǎng)絡間通信

3.MR的數(shù)據(jù)流轉(zhuǎn)

(input) <k1,v1>-->map階段--><k2,v2>-->reduce--><k3,v3>(output)

MR的編程思想

-------------------------

1.新建一個Map的類，繼承Mapper類，實現(xiàn)其map函數(shù)，參數(shù)根據(jù)業(yè)務需求定義。

2.新建一個Reduce類，繼承Reducer類，實現(xiàn)其reduce函數(shù)，參數(shù)根據(jù)業(yè)務需求定義

3.新建一個驅(qū)動類

4.打jar包，指定主類，然后復制到服務器，開啟集群

5.hadoop jar命令跑MR程序，可在8088 Web UI查看狀態(tài)。

總結

-----------------------

MapReduce就是填空式編程，數(shù)據(jù)有幾行，map函數(shù)就執(zhí)行幾次。

轉(zhuǎn)載于:https://www.cnblogs.com/lyr999736/p/9248450.html

以上是生活随笔為你收集整理的MapReduce的简单实例WordCount的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。