Hadoop四大组件介绍
1.學(xué)習(xí)Hadoop之前需要的基礎(chǔ),javaSE(基礎(chǔ)),EE(SSM),Linux基礎(chǔ),因?yàn)?0%的框架都是用java寫的,Hadoop、hive、HBase、下面是Hadoop的有關(guān)介紹。
2.學(xué)習(xí)大數(shù)據(jù)里面最核心的就是Hadoop,我們知道什么是大數(shù)據(jù)。就是一個(gè)非常龐大的數(shù)據(jù),計(jì)算機(jī)無(wú)法直接取讀取以及分析處理,這個(gè)時(shí)候就要用到我們學(xué)到的大數(shù)據(jù)。
? ?
? Hadoop的四大組件:
? ? ? ? common、HDFS、MapReduce、YARN
? ? ? ? common(工具類):
? ? ? ? ?包括Hadoop常用的工具類,由原來(lái)的Hadoopcore部分更名而來(lái)。主要包括系統(tǒng)配置工具Configuration、遠(yuǎn)程過(guò)程調(diào)用RPC、序列化機(jī)制和Hadoop抽象文件系統(tǒng)FileSystem等。它們?yōu)樵谕ㄓ糜布洗罱ㄔ朴?jì)算環(huán)境提供基本的服務(wù),并為運(yùn)行在該平臺(tái)上的軟件開發(fā)提供了所需的API。
? ? ? ? Hadoop Distributed File System(HDFS):
? ? ? ? Hadoop實(shí)現(xiàn)了一個(gè)分布式的文件系統(tǒng),HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)。HDFS是基于節(jié)點(diǎn)的形式進(jìn)行構(gòu)建的,里面有一個(gè)父節(jié)點(diǎn)NameNode,他在機(jī)器內(nèi)部提供了服務(wù),NameNode本身不干活,NameNode將數(shù)據(jù)分成塊,只是把數(shù)據(jù)分發(fā)給子節(jié)點(diǎn),交由子節(jié)點(diǎn)來(lái)進(jìn)行存儲(chǔ),由于只存在一個(gè)父節(jié)點(diǎn),所以這是HDFS的一個(gè)缺點(diǎn),單點(diǎn)失敗。以及n個(gè)子節(jié)點(diǎn)dataNode,dataNode在機(jī)器內(nèi)部提供了數(shù)據(jù)塊,存儲(chǔ)在HDFS的數(shù)據(jù)被分成塊,然后將這些塊分到多個(gè)計(jì)算機(jī)(dataNode)中,這與傳統(tǒng)的RAID架構(gòu)大有不同。塊的大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode可以控制所有文件操作。
?
NameNode:
NameNode 是一個(gè)通常在 HDFS實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。NameNode 決定是否將文件映射到 DataNode 上的復(fù)制塊上。對(duì)于最常見的 3 個(gè)復(fù)制塊,第一個(gè)復(fù)制塊存儲(chǔ)在同一機(jī)架的不同節(jié)點(diǎn)上,最后一個(gè)復(fù)制塊存儲(chǔ)在不同機(jī)架的某個(gè)節(jié)點(diǎn)上。
DataNode:
DataNode 也是一個(gè)通常在HDFS實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。Hadoop 集群包含一個(gè) NameNode 和大量 DataNode。DataNode 通常以機(jī)架的形式組織,機(jī)架通過(guò)一個(gè)交換機(jī)將所有系統(tǒng)連接起來(lái)。Hadoop 的一個(gè)假設(shè)是:機(jī)架內(nèi)部節(jié)點(diǎn)之間的傳輸速度快于機(jī)架間節(jié)點(diǎn)的傳輸速度。
?
MapReduce:
?基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)。是一種計(jì)算模型,用以進(jìn)行大數(shù)據(jù)量的計(jì)算。Hadoop的MapReduce實(shí)現(xiàn),和Common、HDFS一起,構(gòu)成了Hadoop發(fā)展初期的三個(gè)組件。MapReduce將應(yīng)用劃分為Map和Reduce兩個(gè)步驟,其中Map對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵-值對(duì)形式中間結(jié)果。Reduce則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。MapReduce這樣的功能劃分,非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。
?
YARN:
分布式集群資源管理框架,管理者集群的資源(Memory,cpu core)
??????????? 合理調(diào)度分配給各個(gè)程序(MapReduce)使用
??????????? 主節(jié)點(diǎn):resourceManager
????????????????? 掌管集群中的資源
??????????? 從節(jié)點(diǎn):nodeManager
????????????????? 管理每臺(tái)集群資源
?
總結(jié):Hadoop的安裝部署
??????????? 都屬于java進(jìn)程,就是啟動(dòng)了JVM進(jìn)程,運(yùn)行服務(wù)。
??????????? HDFS:存儲(chǔ)數(shù)據(jù),提供分析的數(shù)據(jù)
????????????????? NameNode/DataNode
??????????? YARN:提供程序運(yùn)行的資源
????????????????? ResourceManager/NodeManager
總結(jié)
以上是生活随笔為你收集整理的Hadoop四大组件介绍的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 六款Linux常用远程连接工具介绍
- 下一篇: FPGA中for语句描述的七人投票表决器