MapReduce01
================== Hadoop內核 | MapReduce(分布式計算框架)?==================
源于Google的MapReduce論文?---------->
√發表于2004年12月
√Hadoop MapReduce是Google MapReduce克隆版
MapReduce特點 ---------->
√良好的擴展性
√高容錯性
√適合PB級以上海量數據的離線處理
?
?===================== WordCount問題?=====================
場景:有大量文件,里面存儲了單詞,且一個單詞占一行
任務:如何統計每個單詞出現的次數?
類似應用場景:
√搜索引擎中,統計最流行的K個搜索詞
√統計搜索詞頻率,幫助優化搜索詞提示
?
Case 1:整個文件可以加載到內存中;
√sort datafile | uniq -c?
Case 2:文件太大不能加載到內存中,但<word,count>可以存放到內存中;
Case 3:文件太大無法加載到內存中,且 <word,count>也不行
將問題范化為:有一批文件(規模為TB級或 者 PB級),如何統計這些文件中所有單詞出 現的次數;?
方案:首先,分別統計每個文件中單詞出現 次數,然后累加不同文件中同一個單詞出現 次數;
典型的MapReduce過程。
?
Worcount問題—MR解決過程
?
?
轉載于:https://www.cnblogs.com/xtdxs/p/7076581.html
總結
以上是生活随笔為你收集整理的MapReduce01的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (回文串)Manacher算法
- 下一篇: 了解计算机病毒