MapReduce编程实战之“初识”
生活随笔
收集整理的這篇文章主要介紹了
MapReduce编程实战之“初识”
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
MapReduce是什么
MapReduce是Hadoop(這種大數據處理生態環境)的編程模型。
既然稱為模型,則意味著它有固定的形式。
MapReduce編程模型,就是Hadoop生態環境進行數據分析處理的固定的編程形式。
這種固定的編程形式描述如下:
MapReduce任務過程被分為兩個階段:map階段和reduce階段。每個階段都以鍵/值對作為輸入和輸出,并由程序員選擇他們的類型。
也就是說,程序員只需要定義兩個函數:map函數和reduce函數就好了,其他的計算過程交給hadoop就好了。
通過以上描述,我們可以看出:
MapReduce所能處理的場景實際是非常具體的,非常有限的,只是“數據的統計分析”場景。
輸入數據準備
天氣預報官方網址:ftp://ftp.ncdc.noaa.gov/pub/data/gsod/
但是,發現這個官方網址的文件格式和《Hadoop權威指南》所用的格式不一致,不知道是時間久了,官網的格式變了,還是作者對原始格式進行過處理,亦或這個網址根本不對,所以繼而又到《Hadoop權威指南》指定的地址下載了一個,地址如下:
https://github.com/tomwhite/hadoop-book/tree/master/input/ncdc/all
但是這個地址的1901.gz/1902.gz這另個文件經常比較難下載,有時也不對,
總結
以上是生活随笔為你收集整理的MapReduce编程实战之“初识”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop2.2.0集群在RHEL6.
- 下一篇: MapReduce编程实战之“调试”