當(dāng)前位置：首頁(yè) > 运维知识 > windows >内容正文

windows

实战CentOS系统部署Hadoop集群服务

發(fā)布時(shí)間：2025/4/16 windows 22 豆豆

生活随笔收集整理的這篇文章主要介紹了实战CentOS系统部署Hadoop集群服务小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

導(dǎo)讀

Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)，Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)（Hadoop Distributed File System），簡(jiǎn)稱(chēng)HDFS。HDFS有高容錯(cuò)性特點(diǎn)，并且設(shè)計(jì)用來(lái)部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序；HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問(wèn)（streaming access）文件系統(tǒng)中的數(shù)據(jù)。

HDFS架構(gòu)圖

一、Hadoop框架簡(jiǎn)介

Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)，則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。

HDFS(Hadoop Distribution File System)，稱(chēng)為Hadoop分布式文件系統(tǒng)，主要特點(diǎn)：

HDFS最小以64MB的數(shù)據(jù)塊存儲(chǔ)文件，相比其他文件系統(tǒng)中的4KB~32KB分塊大得多。
HDFS在時(shí)延的基礎(chǔ)上對(duì)吞吐量進(jìn)行了優(yōu)化，它能夠高效處理了對(duì)大文件的讀請(qǐng)求流，但不擅長(zhǎng)對(duì)眾多小文件的定位請(qǐng)求
HDFS對(duì)普通的“一次寫(xiě)入，多次讀取”的工作負(fù)載進(jìn)行了優(yōu)化。
每個(gè)存儲(chǔ)節(jié)點(diǎn)運(yùn)行著一個(gè)稱(chēng)為DataNode的進(jìn)程，它管理著相應(yīng)主機(jī)上的所有數(shù)據(jù)塊。這些存儲(chǔ)節(jié)點(diǎn)都由一個(gè)稱(chēng)為NameNode的主進(jìn)程來(lái)協(xié)調(diào)，該進(jìn)程運(yùn)行于一臺(tái)獨(dú)立進(jìn)程上。
與磁盤(pán)陣列中設(shè)置物理冗余來(lái)處理磁盤(pán)故障或類(lèi)似策略不同，HDFS使用副本來(lái)處理故障，每個(gè)由文件組成的數(shù)據(jù)塊存儲(chǔ)在集群眾的多個(gè)節(jié)點(diǎn)，HDFS的NameNode不斷監(jiān)視各個(gè)DataNode發(fā)來(lái)的報(bào)告。

1、MapReduce工作原理

客戶(hù)端，提交MapReduce作業(yè)；jobtracker，協(xié)調(diào)作業(yè)的運(yùn)行，jobtracker是一個(gè)java應(yīng)用程序，它的主類(lèi)是JobTracker；tasktracker。運(yùn)行作業(yè)劃分后的任務(wù)，tasktracker是一個(gè)java應(yīng)用程序，TaskTracker是主類(lèi)。

2、Hadoop優(yōu)點(diǎn)

Hadoop是一個(gè)能夠讓用戶(hù)輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶(hù)可以輕松地在Hadoop上開(kāi)發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn)：

高可靠性：Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴(lài)。

高擴(kuò)展性：Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

高效性：Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡，因此處理速度非常快。

高容錯(cuò)性：Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。

低成本：與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比，hadoop是開(kāi)源的，項(xiàng)目的軟件成本因此會(huì)大大降低。

Hadoop帶有用Java語(yǔ)言編寫(xiě)的框架，因此運(yùn)行在 Linux 生產(chǎn)平臺(tái)上是非常理想的。Hadoop 上的應(yīng)用程序也可以使用其他語(yǔ)言編寫(xiě)，比如 C++。

Hadoop官網(wǎng)：http://hadoop.apache.org/

二、先決條件

保持Hadoop集群每個(gè)節(jié)點(diǎn)配置環(huán)境一致，安裝java，配置ssh。

實(shí)驗(yàn)環(huán)境：

Platform：xen vm

OS: CentOS 6.8

Software: hadoop-2.7.3-src.tar.gz, jdk-8u101-linux-x64.rpm

Hostname	IP Address	OS version	Hadoop role	Node role
linux-node1	192.168.0.89	CentOS 6.8	Master	namenode
linux-node2	192.168.0.90	CentOS 6.8	Slave	datenode
linux-node3	192.168.0.91	CentOS 6.8	Slave	datenode
linux-node4	192.168.0.92	CentOS 6.8	Slave	datenode

#把需要的軟件包下載下來(lái)上傳到集群的各個(gè)節(jié)點(diǎn)上

三、集群的構(gòu)架和安裝 1、Hosts文件設(shè)置

#Hadoop集群中的每個(gè)節(jié)點(diǎn)的hosts文件都需要修改

[root@linux-node1 ~]# cat /etc/hosts 127.0.0.1 localhost localhost.localdomain linux-node1 192.168.0.89 linux-node1 192.168.0.90 linux-node2 192.168.0.91 linux-node3 192.168.0.92 linux-node4 2、安裝java

#提前把下載好的JDK（rpm包）上傳到服務(wù)器上，然后安裝

rpm -ivh jdk-8u101-linux-x64.rpm export JAVA_HOME=/usr/java/jdk1.8.0_101/ export PATH=$JAVA_HOME/bin:$PATH # java -version java version "1.8.0_101" Java(TM) SE Runtime Environment (build 1.8.0_101-b13) Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode) 3、安裝hadoop

#創(chuàng)建hadoop用戶(hù)，設(shè)置使用sudo

[root@linux-node1 ~]# useradd hadoop && echo hadoop | passwd --stdin hadoop [root@linux-node1 ~]# echo "hadoopALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers [root@linux-node1 ~]# su - hadoop [hadoop@linux-node1 ~]$ cd /usr/local/src/ [hadoop@linux-node1src]$wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz [hadoop@linux-node1 src]$ sudo tar zxvf hadoop-2.7.3.tar.gz -C /home/hadoop/ && cd /home/hadoop [hadoop@linux-node1 home/hadoop]$ sudo mv hadoop-2.7.3/ hadoop [hadoop@linux-node1 home/hadoop]$ sudo chown -R hadoop:hadoop hadoop/

#將hadoop的二進(jìn)制目錄添加到PATH變量，并設(shè)置HADOOP_HOME環(huán)境變量

[hadoop@linux-node1 home/hadoop]$ export HADOOP_HOME=/home/hadoop/hadoop/ [hadoop@linux-node1 home/hadoop]$ export PATH=$HADOOP_HOME/bin:$PATH 4、創(chuàng)建hadoop相關(guān)目錄 [hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/dfs/{name,data} [hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/tmp

#節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù)備份目錄

sudo mkdir -p /data/hdfs/{name,data} sudo chown -R hadoop:hadoop /data/

#上述操作需在hadoop集群的每個(gè)節(jié)點(diǎn)都操作

5、SSH配置

#設(shè)置集群主節(jié)點(diǎn)免密碼登陸其他節(jié)點(diǎn)

[hadoop@linux-node1 ~]$ ssh-keygen -t rsa [hadoop@linux-node1 ~]$ ssh-copy-id linux-node1@192.168.0.90 [hadoop@linux-node1 ~]$ ssh-copy-id linux-node2@192.168.0.91 [hadoop@linux-node1 ~]$ ssh-copy-id linux-node3@192.168.0.92

#測(cè)試ssh登錄

6、修改hadoop的配置文件

文件位置：/home/hadoop/hadoop/etc/hadoop，文件名稱(chēng)：hadoop-env.sh、yarn-evn.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml

（1）配置hadoop-env.sh文件

#在hadoop安裝路徑下，進(jìn)入hadoop/etc/hadoop/目錄并編輯hadoop-env.sh，修改JAVA_HOME為JAVA的安裝路徑

[hadoop@linux-node1 home/hadoop]$ cd hadoop/etc/hadoop/ [hadoop@linux-node1 hadoop]$ egrep JAVA_HOME hadoop-env.sh # The only required environment variable is JAVA_HOME. All others are # set JAVA_HOME in this file, so that it is correctly defined on #export JAVA_HOME=${JAVA_HOME} export JAVA_HOME=/usr/java/jdk1.8.0_101/

（2）配置yarn.sh文件

指定yran框架的java運(yùn)行環(huán)境，該文件是yarn框架運(yùn)行環(huán)境的配置文件，需要修改JAVA_HOME的位置。

[hadoop@linux-node1 hadoop]$ grep JAVA_HOME yarn-env.sh # export JAVA_HOME=/home/y/libexec/jdk1.6.0/ export JAVA_HOME=/usr/java/jdk1.8.0_101/

（3）配置slaves文件

指定DataNode數(shù)據(jù)存儲(chǔ)服務(wù)器，將所有的DataNode的機(jī)器的主機(jī)名寫(xiě)入到此文件中，如下：

[hadoop@linux-node1 hadoop]$ cat slaves linux-node2 linux-node3 linux-node4

Hadoop 3種運(yùn)行模式

本地獨(dú)立模式：Hadoop的所有組件，如NameNode，DataNode，Jobtracker，Tasktracker都運(yùn)行在一個(gè)java進(jìn)程中。

偽分布式模式：Hadoop的各個(gè)組件都擁有一個(gè)單獨(dú)的Java虛擬機(jī)，它們之間通過(guò)網(wǎng)絡(luò)套接字通信。

完全分布式模式：Hadoop分布在多臺(tái)主機(jī)上，不同的組件根據(jù)工作性質(zhì)的不同安裝在不通的Guest上。

#配置完全分布式模式

（4）修改core-site.xml文件，添加紅色區(qū)域的代碼，注意藍(lán)色標(biāo)注的內(nèi)容

<configuration> <property> <name>gt;fs.default.name</name> <value>hdfs://linux-node1:9000</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> </configuration>

（5）修改hdfs-site.xml文件

<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>linux-node1:9001</value> <description># 通過(guò)web界面來(lái)查看HDFS狀態(tài) </description> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/hadoop/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>2</value> <description># 每個(gè)Block有2個(gè)備份</description> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>

（6）修改mapred-site.xml

這個(gè)是mapreduce任務(wù)的配置，由于hadoop2.x使用了yarn框架，所以要實(shí)現(xiàn)分布式部署，必須在mapreduce.framework.name屬性下配置為yarn。mapred.map.tasks和mapred.reduce.tasks分別為map和reduce的任務(wù)數(shù)。

[hadoop@linux-node1 hadoop]$ cp mapred-site.xml.template mapred-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>linux-node1:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>linux-node1:19888</value> </property> </configuration>

（7）配置節(jié)點(diǎn)yarn-site.xml

#該文件為yarn架構(gòu)的相關(guān)配置

<?xml version="1.0"?>  <configuration> <property> <name>mapred.child.java.opts</name> <value>-Xmx400m</value>  </property> </configuration> <?xml version="1.0"?>  <configuration>  <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>linux-node1:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>linux-node1:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>linux-node1:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>linux-node1:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>linux-node1:8088</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> </configuration> 7、復(fù)制hadoop到其他節(jié)點(diǎn) scp -r /home/hadoop/hadoop/ 192.168.0.90:/home/hadoop/ scp -r /home/hadoop/hadoop/ 192.168.0.91:/home/hadoop/ scp -r /home/hadoop/hadoop/ 192.168.0.92:/home/hadoop/ 8、在linux-node1使用hadoop用戶(hù)初始化NameNode /home/hadoop/hadoop/bin/hdfs namenode –format

#echo $? #sudo yum –y install tree # tree /home/hadoop/dfs

9、啟動(dòng)hadoop /home/hadoop/hadoop/sbin/start-dfs.sh /home/hadoop/hadoop/sbin/stop-dfs.sh

#namenode節(jié)點(diǎn)上面查看進(jìn)程

ps aux | grep --color namenode

#DataNode上面查看進(jìn)程

ps aux | grep --color datanode

10、啟動(dòng)yarn分布式計(jì)算框架 [hadoop@linux-node1 .ssh]$ /home/hadoop/hadoop/sbin/start-yarn.sh starting yarn daemons

#NameNode節(jié)點(diǎn)上查看進(jìn)程

ps aux | grep --color resourcemanager

#DataNode節(jié)點(diǎn)上查看進(jìn)程

ps aux | grep --color nodemanager

注：start-dfs.sh和start-yarn.sh這兩個(gè)腳本可用start-all.sh代替

/home/hadoop/hadoop/sbin/stop-all.sh /home/hadoop/hadoop/sbin/start-all.sh

11、啟動(dòng)jobhistory服務(wù)，查看mapreduce狀態(tài)

#在NameNode節(jié)點(diǎn)上

[hadoop@linux-node1 ~]$ /home/hadoop/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver starting historyserver, logging to /home/hadoop/hadoop/logs/mapred-hadoop-historyserver-linux-node1.out 12、查看HDFS分布式文件系統(tǒng)狀態(tài) /home/hadoop/hadoop/bin/hdfs dfsadmin –report

#查看文件塊組成，一個(gè)文件由那些塊組成

/home/hadoop/hadoop/bin/hdfs fsck / -files -blocks

13、web頁(yè)面查看hadoop集群狀態(tài)

查看HDFS狀態(tài)：http://192.168.0.89:50070/

查看Hadoop集群狀態(tài)：http://192.168.0.89:8088/

總結(jié)

以上是生活随笔為你收集整理的实战CentOS系统部署Hadoop集群服务的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：主动模式FTP与被动模式FTP该如何选择
下一篇： java信息管理系统总结_java实现科