當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一步步教你Hadoop多节点集群安装配置

發布時間：2025/3/21 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了一步步教你Hadoop多节点集群安装配置小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一步步教你Hadoop多節點集群安裝配置

1、集群部署介紹

1.1 Hadoop簡介

?Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統HDFS(Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的開源實現）為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。

對于Hadoop的集群來講，可以分成兩大類角色：Master和Salve。一個HDFS集群是由一個NameNode和若干個DataNode組成的。其中NameNode作為主服務器，管理文件系統的命名空間和客戶端對文件系統的訪問操作；集群中的DataNode管理存儲的數據。MapReduce框架是由一個單獨運行在主節點上的JobTracker和運行在每個從節點的TaskTracker共同組成的。主節點負責調度構成一個作業的所有任務，這些任務分布在不同的從節點上。主節點監控它們的執行情況，并且重新執行之前的失敗任務；從節點僅負責由主節點指派的任務。當一個Job被提交時，JobTracker接收到提交作業和配置信息之后，就會將配置信息等分發給從節點，同時調度任務并監控TaskTracker的執行。

從上面的介紹可以看出，HDFS和MapReduce共同組成了Hadoop分布式系統體系結構的核心。HDFS在集群上實現分布式文件系統，MapReduce在集群上實現了分布式計算和任務處理。HDFS在MapReduce任務處理過程中提供了文件操作和存儲等支持，MapReduce在HDFS的基礎上實現了任務的分發、跟蹤、執行等工作，并收集結果，二者相互作用，完成了Hadoop分布式集群的主要任務。

1.2?環境說明

我的環境是在虛擬機中配置的，Hadoop集群中包括4個節點：1個Master，2個Salve，節點之間局域網連接，可以相互ping通，節點IP地址分布如下：

虛擬機系統	機器名稱	IP地址
Ubuntu 13.04	Master.Hadoop	192.168.1.141
Ubuntu 9.11	Salve1.Hadoop	192.168.1.142
Fedora 17	Salve2.Hadoop	192.168.1.137

Master機器主要配置NameNode和JobTracker的角色，負責總管分布式數據和分解任務的執行；3個Salve機器配置DataNode?和TaskTracker的角色，負責分布式數據存儲以及任務的執行。其實應該還應該有1個Master機器，用來作為備用，以防止Master服務器宕機，還有一個備用馬上啟用。后續經驗積累一定階段后補上一臺備用Master機器（可通過配置文件修改備用機器數）。

????注意：由于hadoop要求所有機器上hadoop的部署目錄結構要求相同（因為在啟動時按與主節點相同的目錄啟動其它任務節點），并且都有一個相同的用戶名賬戶。參考各種文檔上說的是所有機器都建立一個hadoop用戶，使用這個賬戶來實現無密碼認證。這里為了方便，分別在三臺機器上都重新建立一個hadoop用戶。

1.3?環境配置

Hadoop集群要按照1.2小節表格所示進行配置，下面介紹如何修改機器名稱和配置hosts文件，以方便使用。

注意：我的虛擬機都采用NAT方式連接網絡，IP地址是自動分配的，所以這里就使用自動分配的IP地址而未特地修改為某些IP地址。

（1）修改當前機器名稱

假定我們發現我們的機器的主機名不是我們想要的。

1）在Ubuntu下修改機器名稱

修改文件/etc/hostname里的值即可，修改成功后用hostname命令查看當前主機名是否設置成功。

???????另外為了能正確解析主機名，最好也修改/etc/hosts文件里對應的主機名?
???????

2）在Fedora下修改機器名稱

通過對"/etc/sysconfig/network"文件修改其中"HOSTNAME"后面的值，改成我們規定的名稱。

命令：vi /etc/sysconfig/network，修改如下：?
?????
????????

????同樣為了能正確解析主機名，最好也修改/etc/hosts文件里對應的主機名。

（2）配置hosts文件（必須）

"/etc/hosts"這個文件是用來配置主機將用的DNS服務器信息，是記載LAN內接續的各主機的對應[HostName??IP]用的。當用戶在進行網絡連接時，首先查找該文件，尋找對應主機名對應的IP地址。

我們要測試兩臺機器之間知否連通，一般用"ping?機器的IP"，如果想用"ping?機器的主機名"發現找不見該名稱的機器(這也就是為什么在修改主機名的同時最好修改該文件中對應的主機名)，解決的辦法就是修改"/etc/hosts"這個文件，通過把LAN內的各主機的IP地址和HostName的一一對應寫入這個文件的時候，就可以解決問題。

例如：機器為"Master.Hadoop:192.168.1.141"對機器為"Salve1.Hadoop:192.168.1.142"用命令"ping"記性連接測試。測試結果如下：?
????

從上圖中的值，直接對IP地址進行測試，能夠ping通，但是對主機名進行測試，發現沒有ping通，提示"unknown host——未知主機"，這時查看"Master.Hadoop"的"/etc/hosts"文件內容會發現里面沒有"192.168.1.142??Slave1.Hadoop"內容，故而本機器是無法對機器的主機名為"Slave1.Hadoop"?解析。

在進行Hadoop集群配置中，需要在"/etc/hosts"文件中添加集群中所有機器的IP與主機名，這樣Master與所有的Slave機器之間不僅可以通過IP進行通信，而且還可以通過主機名進行通信。所以在所有的機器上的"/etc/hosts"文件中都要添加如下內容：

192.168.1.141 Master.Hadoop

192.168.1.142 Slave1.Hadoop

192.168.1.137 Slave2.Hadoop

命令：vi /etc/hosts，添加結果如下：?

現在我們在進行對機器為"Slave1.Hadoop"的主機名進行ping通測試，看是否能測試成功。

從上圖中我們已經能用主機名進行ping通了，說明我們剛才添加的內容，在局域網內能進行DNS解析了，那么現在剩下的事兒就是在其余的Slave機器上進行相同的配置。然后進行測試。

1.4?所需軟件

（1）JDK軟件

????下載地址：http://www.oracle.com/technetwork/java/javase/index.html

????JDK版本：jdk-7u25-linux-i586.tar.gz

（2）Hadoop軟件

????下載地址：http://hadoop.apache.org/common/releases.html

????Hadoop版本：hadoop-1.1.2.tar.gz

2、SSH無密碼驗證配置

Hadoop運行過程中需要管理遠端Hadoop守護進程，在Hadoop啟動以后，NameNode是通過SSH（Secure Shell）來啟動和停止各個DataNode上的各種守護進程的。這就必須在節點之間執行指令的時候是不需要輸入密碼的形式，故我們需要配置SSH運用無密碼公鑰認證的形式，這樣NameNode使用SSH無密碼登錄并啟動DataName進程，同樣原理，DataNode上也能使用SSH無密碼登錄到?NameNode。

注意：如果你的Linux沒有安裝SSH，請首先安裝SSH

Ubuntu下安裝ssh：sudo apt-get install openssh-server

Fedora下安裝ssh：yum install openssh-server

2.1 SSH基本原理和用法

1）SSH基本原理

????SSH之所以能夠保證安全，原因在于它采用了公鑰加密。過程如下：

(1)遠程主機收到用戶的登錄請求，把自己的公鑰發給用戶。

(2)用戶使用這個公鑰，將登錄密碼加密后，發送回來。

(3)遠程主機用自己的私鑰，解密登錄密碼，如果密碼正確，就同意用戶登錄。

2）SSH基本用法

????假如用戶名為java，登錄遠程主機名為linux，如下命令即可：

????$ ssh java@linux

????SSH的默認端口是22，也就是說，你的登錄請求會送進遠程主機的22端口。使用p參數，可以修改這個端口，例如修改為88端口，命令如下：

????$ ssh -p 88 java@linux

????注意：如果出現錯誤提示：ssh: Could not resolve hostname linux: Name or service not known，則是因為linux主機未添加進本主機的Name Service中，故不能識別，需要在/etc/hosts里添加進該主機及對應的IP即可：

????linux?????192.168.1.107

2.2?配置Master無密碼登錄所有Salve

1）SSH無密碼原理

Master（NameNode | JobTracker）作為客戶端，要實現無密碼公鑰認證，連接到服務器Salve（DataNode | Tasktracker）上時，需要在Master上生成一個密鑰對，包括一個公鑰和一個私鑰，而后將公鑰復制到所有的Slave上。當Master通過SSH連接Salve時，Salve就會生成一個隨機數并用Master的公鑰對隨機數進行加密，并發送給Master。Master收到加密數之后再用私鑰解密，并將解密數回傳給Slave，Slave確認解密數無誤之后就允許Master進行連接了。這就是一個公鑰認證過程，其間不需要用戶手工輸入密碼。

2）Master機器上設置無密碼登錄

a. Master節點利用ssh-keygen命令生成一個無密碼密鑰對。

在Master節點上執行以下命令：

ssh-keygen –t rsa –P ''

運行后詢問其保存路徑時直接回車采用默認路徑。生成的密鑰對：id_rsa（私鑰）和id_rsa.pub（公鑰），默認存儲在"/home/用戶名/.ssh"目錄下。?
??????

查看"/home/用戶名/"下是否有".ssh"文件夾，且".ssh"文件下是否有兩個剛生產的無密碼密鑰對。

????

b.?接著在Master節點上做如下配置，把id_rsa.pub追加到授權的key里面去。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

查看下authorized_keys的權限，如果權限不對則利用如下命令設置該文件的權限：

chmod 600?authorized_keys

c.?用root用戶登錄修改SSH配置文件"/etc/ssh/sshd_config"的下列內容。

檢查下面幾行前面”#”注釋是否取消掉：

RSAAuthentication yes #?啟用?RSA?認證

PubkeyAuthentication yes #?啟用公鑰私鑰配對認證方式

AuthorizedKeysFile??%h/.ssh/authorized_keys #?公鑰文件路徑?
????

設置完之后記得重啟SSH服務，才能使剛才設置有效。

???????

退出root登錄，使用普通用戶驗證是否設置成功。

從上圖中得知無密碼登錄本級已經設置完畢，接下來的事兒是把公鑰復制所

有的Slave機器上。

????注意：有時候在測試時可能會出現錯誤：?Agent admitted failure to sign using the key.解決辦法是：ssh-add???~/.ssh/id_rsa，如下所示：

???

????ｄ．使用ssh-copy-id命令將公鑰傳送到遠程主機上(這里以Slave1.Hadoop為例)。

e.?測試是否無密碼登錄其它機器成功。

到此為止，我們經過5步已經實現了從"Master.Hadoop"到"Slave1.Hadoop"SSH無密碼登錄，下面就是重復上面的步驟把剩余的兩臺（Slave2.Hadoop和Slave3.Hadoop）Slave服務器進行配置。這樣，我們就完成了"配置Master無密碼登錄所有的Slave服務器"。

接下來配置所有Slave無密碼登錄Master，其和Master無密碼登錄所有Slave原理一樣，就是把Slave的公鑰追加到Master的".ssh"文件夾下的"authorized_keys"中，記得是追加（>>）。

注意：期間可能會出現一些問題如下：

（1）如果在ssh連接時出現錯誤“ssh：connect to host port 22：?Connection refused”，如下圖所示：?

則可能是因為遠程登錄的那臺機器沒有安裝ssh服務或安裝了沒有開啟ssh服務，下面到Slave3.Hadoop主機進行測試：?

為了一勞永逸，設置系統啟動時開啟服務：# systemctl enable sshd.service?

（2）如果在用命令ssh-copy-id時發現找不到該命令“ssh-copy-id：Command not found”，則可能是ssh服務的版本太低的原因，比如若你的機器是Redhat系統就可能該問題，解決辦法是：手動復制本地的pubkey內容到遠程服務器，命令如下：

?cat ~/.ssh/id_rsa.pub | ssh hadoop@Master.Hadoop 'cat >> ~/.ssh/authorized_keys'

該命令等價于下面兩個命令：

①在本地機器上執行：scp ~/.ssh/id_rsa.pub hadoop@Master.Hadoop:/~

②到遠程機器上執行：cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

3、Java環境安裝

所有的機器上都要安裝JDK，現在就先在Master服務器安裝，然后其他服務器按照步驟重復進行即可。安裝JDK以及配置環境變量，需要以"root"的身份進行。

3.1?安裝JDK

首先用root身份登錄"Master.Hadoop"后在"/usr"下創建"java"文件夾，再將"jdk-7u25-linux-i586.tar.gz"復制到"/usr/java"文件夾中，然后解壓即可。查看"/usr/java"下面會發現多了一個名為"jdk1.7.0_25"文件夾，說明我們的JDK安裝結束，刪除"jdk-7u25-linux-i586.tar.gz"文件，進入下一個"配置環境變量"環節。

3.2?配置環境變量

（1）編輯"/etc/profile"文件

????編輯"/etc/profile"文件，在后面添加Java的"JAVA_HOME"、"CLASSPATH"以及"PATH"內容如下：

# set java environment

export JAVA_HOME=/usr/java/jdk1.7.0_25/

export JRE_HOME=/usr/java/jdk1.7.0_25/jre

export CLASSPATH=.:CLASSPATH:JAVA_HOME/lib:$JRE_HOME/lib

export PATH=PATH:JAVA_HOME/bin:$JRE_HOME/bin

或者

# set java environment

export JAVA_HOME=/usr/java/jdk1.7.0_25/

export CLASSPATH=.:CLASSPATH:JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=PATH:JAVA_HOME/bin:$JAVA_HOME/jre/bin

以上兩種意思一樣，那么我們就選擇第1種來進行設置。

（2）使配置生效

保存并退出，執行下面命令使其配置立即生效。

source /etc/profile?或?. /etc/profile

3.3?驗證安裝成功

配置完畢并生效后，用下面命令判斷是否成功。

java -version

從上圖中得知，我們確定JDK已經安裝成功。

3.4?安裝剩余機器

這時用普通用戶hadoop通過scp命令格式把"/usr/java/"文件復制到其他Slave上面，剩下的事兒就是在其余的Slave服務器上按照上圖的步驟配置環境變量和測試是否安裝成功，這里以Slave1.Master為例：

scp -r /usr/java seed@Slave1.Master:/usr/?

注意：有的機器庫函數版本較低，可能安裝不了高版本的JDK，比如有些Redhat9，此時不可以選擇較低版本的JDK進行安裝，因為所有集群中的JDK版本必須相同（經過測試），有兩種方法可解決：一是放棄該機器，選用另一臺能裝該版本的JDK的機子；二是選擇低版本的JDK，在所有機器上重新安裝。

4、Hadoop集群安裝

所有的機器上都要安裝hadoop，現在就先在Master服務器安裝，然后其他服務器按照步驟重復進行即可。安裝和配置hadoop需要以"root"的身份進行。

4.1?安裝hadoop

首先用root用戶登錄"Master.Hadoop"機器，將下載的"hadoop-1.1.2.tar.gz"復制到/usr目錄下。然后進入"/usr"目錄下，用下面命令把"hadoop-1.1.2.tar.gz"進行解壓，并將其重命名為"hadoop"，把該文件夾的讀權限分配給普通用戶hadoop，然后刪除"hadoop-1.0.0.tar.gz"安裝包。

cd /usr

tar –xzvf hadoop-1.1.2.tar.gz

mv hadoop-1.1.2 hadoop

chown?–R?hadoop:hadoop hadoop #將文件夾"hadoop"讀權限分配給hadoop普通用戶

rm -rf hadoop-1.1.2.tar.gz

最后在"/usr/hadoop"下面創建tmp文件夾，并把Hadoop的安裝路徑添加到"/etc/profile"中，修改"/etc/profile"文件，將以下語句添加到末尾，并使其生效(. /etc/profile)：

# set hadoop path

export HADOOP_HOME=/usr/hadoop

export PATH=PATH:HADOOP_HOME/bin

4.2?配置hadoop

（1）配置hadoop-env.sh

該"hadoop-env.sh"文件位于"/usr/hadoop/conf"目錄下。

在文件中修改下面內容：

export JAVA_HOME=/usr/java/jdk1.7.0_25

Hadoop配置文件在conf目錄下，之前的版本的配置文件主要是Hadoop-default.xml和Hadoop-site.xml。由于Hadoop發展迅速，代碼量急劇增加，代碼開發分為了core，hdfs和map/reduce三部分，配置文件也被分成了三個core- site.xml、hdfs-site.xml、mapred-site.xml。core-site.xml和hdfs-site.xml是站在?HDFS角度上配置文件；core-site.xml和mapred-site.xml是站在MapReduce角度上配置文件。

?(2）配置core-site.xml文件

修改Hadoop核心配置文件core-site.xml，這里配置的是HDFS master（即namenode）的地址和端口號。

????<property>

????????<name>hadoop.tmp.dir</name>

????????<value>/usr/hadoop/tmp</value>

????????（備注：請先在?/usr/hadoop?目錄下建立?tmp?文件夾）

????????<description>A base for other temporary directories.</description>

????</property>

????<property>

????????<name>fs.default.name</name>

????????<value>hdfs://192.168.1.141:9000</value>

????</property>

</configuration>

備注：如沒有配置hadoop.tmp.dir參數，此時系統默認的臨時目錄為：/tmp/hadoo-hadoop。而這個目錄在每次重啟后都會被刪掉，必須重新執行format才行，否則會出錯。

（3）配置hdfs-site.xml文件

修改Hadoop中HDFS的配置，配置的備份方式默認為3。

????<property>

????????<name>dfs.replication</name>

????????<value>1</value>

????????(備注：replication?是數據副本數量，默認為3，salve少于3臺就會報錯)

????</property>

（4）配置mapred-site.xml文件

修改Hadoop中MapReduce的配置文件，配置的是JobTracker的地址和端口。

????<property>

????????<name>mapred.job.tracker</name>

????????<value>http://192.168.1.141:9001</value>

????</property>

</configuration>

（5）配置masters文件

有兩種方案：

????（1）第一種

????修改localhost為Master.Hadoop

????（2）第二種

????去掉"localhost"，加入Master機器的IP：192.168.1.141

為保險起見，啟用第二種，因為萬一忘記配置"/etc/hosts"局域網的DNS失效，這樣就會出現意想不到的錯誤，但是一旦IP配對，網絡暢通，就能通過IP找到相應主機。

（6）配置slaves文件（Master主機特有）

????有兩種方案：

????（1）第一種

????去掉"localhost"，每行添加一個主機名，把剩余的Slave主機名都填上。

????例如：添加形式如下：

Slave1.Hadoop

Slave2.Hadoop

????（2）第二種

????去掉"localhost"，加入集群中所有Slave機器的IP，也是每行一個。

????例如：添加形式如下

192.168.1.142

192.168.1.137

原因和添加"masters"文件一樣，選擇第二種方式。

現在在Master機器上的Hadoop配置就結束了，剩下的就是配置Slave機器上的Hadoop。

最簡單的方法是將?Master上配置好的hadoop所在文件夾"/usr/hadoop"復制到所有的Slave的"/usr"目錄下（實際上Slave機器上的slavers文件是不必要的，復制了也沒問題）。用下面命令格式進行。（備注：此時用戶可以為普通用戶也可以為root）???

scp?-r?/usr/hadoop?root@服務器IP:/usr/

例如：從"Master.Hadoop"到"Slave1.Hadoop"復制配置Hadoop的文件。

scp?-r?/usr/hadoop?root@Slave1.Hadoop:/usr/

以root用戶進行復制，當然不管是用戶root還是普通用戶，雖然Master機器上的"/usr/hadoop"文件夾用戶hadoop有權限，但是Slave1上的hadoop用戶卻沒有"/usr"權限，所以沒有創建文件夾的權限。所以無論是哪個用戶進行拷貝，右面都是"root@機器?IP"格式。因為我們只是建立起了普通用戶的SSH無密碼連接，所以用root進行"scp"時，扔提示讓你輸入"Slave1.Hadoop"?服務器用戶root的密碼。

????查看"Slave1.Hadoop"服務器的"/usr"目錄下是否已經存在"hadoop"文件夾，確認已經復制成功。查看結果如下：

從上圖中知道，hadoop文件夾確實已經復制了，但是我們發現hadoop權限是root，所以我們現在要給"Slave1.Hadoop"服務器上的用戶hadoop添加對"/usr/hadoop"讀權限。

以root用戶登錄"Slave1.Hadoop"，執行下面命令。

chown?-R?hadoop:hadoop（用戶名：用戶組）?hadoop（文件夾）

接著在"Slave1 .Hadoop"上修改"/etc/profile"文件，將以下語句添加到末尾，并使其有效（source /etc/profile）：

# set hadoop environment

export HADOOP_HOME=/usr/hadoop

export PATH=PATH:HADOOP_HOME/bin

如果不知道怎么設置，可以查看前面"Master.Hadoop"機器的"/etc/profile"文件的配置，到此為止在一臺Slave機器上的Hadoop配置就結束了。剩下的事兒就是照葫蘆畫瓢把剩余的幾臺Slave機器進行部署Hadoop。

4.3?啟動及驗證

（1）格式化HDFS文件系統

在"Master.Hadoop"上使用普通用戶hadoop進行操作。（備注：只需一次，下次啟動不再需要格式化，只需?start-all.sh）

hadoop namenode -format

從上圖中知道我們已經成功格式化了，但是美中不足就是出現了一個警告，從網上得知這個警告并不影響hadoop執行，但是也有辦法解決，詳情看后面的"常見問題FAQ"。

（2）啟動hadoop

在啟動前關閉集群中所有機器的防火墻，不然會出現datanode開后又自動關閉。使用下面命令啟動。

start-all.sh

可以通過以下啟動日志看出，首先啟動namenode?接著啟動datanode1，datanode2，…，然后啟動secondarynamenode。再啟動jobtracker，然后啟動tasktracker1，tasktracker2，…。

啟動?hadoop成功后，在?Master?中的?tmp?文件夾中生成了?dfs?文件夾，在Slave?中的?tmp?文件夾中均生成了?dfs?文件夾和?mapred?文件夾。

（3）驗證hadoop

（1）驗證方法一：用"jps"命令

在Master上用?java自帶的小工具jps查看進程。

在Slave2上用jps查看進程。

如果在查看Slave機器中發現"DataNode"和"TaskTracker"沒有起來時，先查看一下日志的，如果是"namespaceID"不一致問題，采用"常見問題FAQ6.2"進行解決，如果是"No route to host"問題，采用"常見問題FAQ6.3"進行解決。

（2）驗證方式二：用"hadoop dfsadmin -report"

用這個命令可以查看Hadoop集群的狀態。

4.4?網頁查看集群

（1）訪問"http://192.168.1.141:50030"

（2）訪問"http://192.168.1.142:50070"

5、常見問題FAQ

5.1?關于?Warning: $HADOOP_HOME is deprecated.

hadoop安裝完之后敲入hadoop命令時，老是提示這個警告：

????Warning: $HADOOP_HOME is deprecated.

經查hadoop-1.1.2/bin/hadoop腳本和"hadoop-config.sh"腳本，發現腳本中對HADOOP_HOME的環境變量設置做了判斷，其實根本不需要設置HADOOP_HOME環境變量。

解決方案一：編輯"/etc/profile"文件，去掉HADOOP_HOME的變量設定，重新輸入hadoop fs命令，警告消失。

解決方案二：編輯"/etc/profile"文件，添加一個環境變量，之后警告消失：

????export HADOOP_HOME_WARN_SUPPRESS=1

5.2?解決"no datanode to stop"問題

當我停止Hadoop時發現如下信息：

????no datanode to stop

原因：每次namenode format會重新創建一個namenodeId，而tmp/dfs/data下包含了上次format下的id，namenode format清空了namenode下的數據，但是沒有清空datanode下的數據，導致啟動時失敗，有兩種解決方案：

第一種解決方案如下：

1）先刪除"/usr/hadoop/tmp"

rm -rf /usr/hadoop/tmp

2）創建"/usr/hadoop/tmp"文件夾

mkdir /usr/hadoop/tmp

3）刪除"/tmp"下以"hadoop"開頭文件

rm -rf /tmp/hadoop*

4）重新格式化hadoop

hadoop namenode -format

5）啟動hadoop

start-all.sh

使用第一種方案，有種不好處就是原來集群上的重要數據全沒有了。假如說Hadoop集群已經運行了一段時間。建議采用第二種。

第二種方案如下：

1）修改每個Slave的namespaceID使其與Master的namespaceID一致。

???或者

2）修改Master的namespaceID使其與Slave的namespaceID一致。

該"namespaceID"位于"/usr/hadoop/tmp/dfs/name/current/VERSION"文件中，前面藍色的可能根據實際情況變化，但后面紅色一般是不變的。

例如：查看"Master"下的"VERSION"文件

本人建議采用第二種，這樣方便快捷，而且還能防止誤刪。

5.3 Slave服務器中datanode啟動后又自動關閉

查看日志發下如下錯誤。

????ERROR?org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to ... failed on local exception: java.net.NoRouteToHostException:?No route to host

解決方案是：關閉防火墻

5.4?從本地往hdfs文件系統上傳文件

出現如下錯誤：

INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException:?Bad connect ack with firstBadLink

INFO hdfs.DFSClient: Abandoning block blk_-1300529705803292651_37023

WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException:?Unable to create new block.

解決方案是：

1）關閉防火墻

2）禁用selinux

????編輯?"/etc/selinux/config"文件，設置"SELINUX=disabled"

5.5?安全模式導致的錯誤

出現如下錯誤：

org.apache.hadoop.dfs.SafeModeException:?Cannot delete ..., Name node is in safe mode

在分布式文件系統啟動的時候，開始的時候會有安全模式，當分布式文件系統處于安全模式的情況下，文件系統中的內容不允許修改也不允許刪除，直到安全模式結束。安全模式主要是為了系統啟動的時候檢查各個DataNode上數據塊的有效性，同時根據策略必要的復制或者刪除部分數據塊。運行期通過命令也可以進入安全模式。在實踐過程中，系統啟動的時候去修改和刪除文件也會有安全模式不允許修改的出錯提示，只需要等待一會兒即可。

解決方案是：關閉安全模式

hadoop dfsadmin -safemode leave

5.6?解決Exceeded MAX_FAILED_UNIQUE_FETCHES

出現錯誤如下：

Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

程序里面需要打開多個文件，進行分析，系統一般默認數量是1024，（用ulimit -a可以看到）對于正常使用是夠了，但是對于程序來講，就太少了。

解決方案是：修改2個文件。

1）"/etc/security/limits.conf"

????vi /etc/security/limits.conf

加上：

????soft nofile 102400

????hard nofile 409600

2）"/etc/pam.d/login"

????vim /etc/pam.d/login

添加：

????session required /lib/security/pam_limits.so

針對第一個問題我糾正下答案：

這是reduce預處理階段shuffle時獲取已完成的map的輸出失敗次數超過上限造成的，上限默認為5。引起此問題的方式可能會有很多種，比如網絡連接不正常，連接超時，帶寬較差以及端口阻塞等。通常框架內網絡情況較好是不會出現此錯誤的。

5.7?解決"Too many fetch-failures"

出現這個問題主要是結點間的連通不夠全面。

解決方案是：

1）檢查"/etc/hosts"

要求本機ip?對應服務器名

要求要包含所有的服務器ip +服務器名

2）檢查".ssh/authorized_keys"

要求包含所有服務器（包括其自身）的public key

5.8?處理速度特別的慢

出現map很快，但是reduce很慢，而且反復出現"reduce=0%"。

解決方案如下：

結合解決方案5.7，然后修改"conf/hadoop-env.sh"中的"export HADOOP_HEAPSIZE=4000"

5.9?解決hadoop OutOfMemoryError問題

出現這種異常，明顯是jvm內存不夠得原因。

解決方案如下：要修改所有的datanode的jvm內存大小。

????Java –Xms 1024m -Xmx 4096m

一般jvm的最大內存使用應該為總內存大小的一半，我們使用的8G內存，所以設置為4096m，這一值可能依舊不是最優的值。

出處：http://www.cnblogs.com/lanxuezaipiao/p/3525554.html

總結

以上是生活随笔為你收集整理的一步步教你Hadoop多节点集群安装配置的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： C/C++求职宝典21个重点笔记（常考笔
下一篇： Eclipse安装Hadoop插件配置H