hadoop(4)——用python代码结合hadoop完成一个小项目
生活随笔
收集整理的這篇文章主要介紹了
hadoop(4)——用python代码结合hadoop完成一个小项目
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
mapper.py和reducer.py文件內(nèi)容借鑒于如下博客: https://blog.csdn.net/marywang56/article/details/80395519
我們都知道hadoop是在java環(huán)境下完成的,但是通過hadoop-streaming這個java小程序,我們可以把python代碼放入hadoop中,然后通過stdin和stdout來進行數(shù)據(jù)的傳遞。
(1)開啟yarn
通過jps命令查看
(2)查看mapper.py和reducer.py
(3)測試命令
<1>
先看hadoop.txt
<2>
可以看見mapper把每一個字符都分割了開來
<3>
可見sort函數(shù)將字母進行排序,對應(yīng)hadoop里的shuffle過程
<4>
這時可以看見模擬出了最后輸出的結(jié)果,將一樣的詞合并作為輸出
(4)用hadoop來實現(xiàn)
此時要寫好腳本,如圖:
(5)實行腳本
任務(wù)實行結(jié)束
(6)查看輸出結(jié)果
(7)可視化查看
如圖,此運算例已經(jīng)實行成功
總結(jié)
以上是生活随笔為你收集整理的hadoop(4)——用python代码结合hadoop完成一个小项目的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hadoop(3)——yarn查看方式
- 下一篇: hive(3)——在hive中使用自己写