Hadoop核心组件以及发行版
生活随笔
收集整理的這篇文章主要介紹了
Hadoop核心组件以及发行版
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Hadoop核心組件之分布式存儲框架HDFS
- 源于Google的GFS論文,論文發(fā)表與2003年10月
- HDFS時GFS的克隆版
- HDFS特點:擴展性很好、容錯性很好、能夠存儲海量數(shù)據(jù)
- HDFS將文件切分成指定大小的數(shù)據(jù)塊并以多副本的存儲在多個機器上
Hadoop核心組件之分布式計算框架MapReduce
- 源于Google的MapReduce論文,論文發(fā)表于2004年12月
- Hadoop MapReduce就是Google MapReduce的克隆版
- MapReduce特點:擴展性、容錯性、海量數(shù)據(jù)離線處理
Hadoop核心組件之資源調(diào)度系統(tǒng)YARN
- YARN:Yet Another Resource Negotiator
- 負(fù)責(zé)整個集群資源的管理和調(diào)度
- YARN特點:擴展性、容錯性、多框架資源統(tǒng)一調(diào)度(Pig,Storm,Spark,Flink,Solr等框架都可以跑在YARN之上)
Hadoop優(yōu)勢
- 高可靠性
- 數(shù)據(jù)存儲:數(shù)據(jù)塊多副本
- 數(shù)據(jù)計算:重新調(diào)度作業(yè)計算
- 高擴展性
- 存儲/計算資源不夠時,可以橫向的線性擴展機器
- 一個集群中可以包含數(shù)以千計的節(jié)點
- 存儲在廉價的機器中,降低成本
- 成熟的生態(tài)圈
狹義Hadoop VS 廣義Hadoop
- 狹義的Hadoop:是一個適合大數(shù)據(jù)分布式存儲(HDFS)、分布式計算(MapReduce)和資源調(diào)度(YARN)平臺
- 廣義的Hadoop:指的是Hadoop生態(tài)系統(tǒng),Hadoop生態(tài)系統(tǒng)是一個很龐大的概念,Hadoop是其中最重要最基礎(chǔ)的一個部分;生態(tài)系統(tǒng)中的每一個子系統(tǒng)只解決某一個特定的問題域(甚至可能更窄),不搞統(tǒng)一型的一個全能系統(tǒng),而是小而精的多個小系統(tǒng);
Hadoop生產(chǎn)環(huán)境下常用的發(fā)行版及選型
Hadoop常用的發(fā)行版
- Apache:
- 優(yōu)點:純開源
- 缺點:不同版本/不同框架之間整合較麻煩;jar沖突比較多
- CDH
- 優(yōu)點: cm(cloudera manager),通過頁面一鍵安裝各種框架、升級非常方便,支持impala
- 缺點:cm不開源、與社區(qū)版本有些許出入
- Hortonworks:HDP, 企業(yè)發(fā)布自己的數(shù)據(jù)平臺可以直接基于頁面框架進(jìn)行改造
- 優(yōu)點:原裝hadoop、純開源、支持tez
- 缺點:企業(yè)級安全框架不開源
- MapR
在生產(chǎn)環(huán)境中,優(yōu)先選擇CDH或者HDP發(fā)行版
總結(jié)
以上是生活随笔為你收集整理的Hadoop核心组件以及发行版的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hadoop(一) 基本介绍
- 下一篇: HDFS(一) HDFS设计目标