日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(一)

發(fā)布時間:2024/2/28 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(一) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Hadoop2.2.0+HA+zookeeper3.4.5+體系結(jié)構(gòu)+錯誤處理

??????? 心血之作,在熟悉hadoop2架構(gòu)的過程耽誤了太長時間,在搭建環(huán)境過程遇到一些問題,這些問題一直卡在那兒,不得以解決,耽誤了時間。最后,千尋萬尋,把問題解決,多謝在過程提供幫助的大俠。這篇文章中,我也會把自己遇到的問題給列出來,幫助后來者進(jìn)一步的學(xué)習(xí)。

?????? 這篇文章結(jié)合自己實(shí)際測試過程。轉(zhuǎn)載注明出處:

???????http://blog.csdn.net/yczws1/article/details/23566383

前言

?????? 本文主要通過對hadoop2.2.0集群配置的過程加以梳理,所有的步驟都是通過自己實(shí)際測試。文檔的結(jié)構(gòu)也是根據(jù)自己的實(shí)際情況而定,同時也會加入自己在實(shí)際過程遇到的問題。搭建環(huán)境過程不重要,重要點(diǎn)在于搭建過程中遇到的問題,解決問題的過程。

?????? 可能自己遇到的問題在一些由經(jīng)驗(yàn)的老者手上都不是問題,但是這些問題著實(shí)讓自己耽誤了很長時間,最后問題解決也是費(fèi)了太大心血。也通過這篇文檔,表現(xiàn)出來,算是總結(jié),為后者提供意見。

Hadoop2.2.0體系結(jié)構(gòu)

?????? 要想理解本節(jié)內(nèi)容,首先需要了解hadoop1的體系結(jié)構(gòu)。這里不過多的介紹基于hadoop1的體系架構(gòu),早在之前,曾搭建hadoop1.2.1偽分布式集群,詳細(xì)請看hadoop學(xué)習(xí)(一)hadoop-1.2.1偽分布式配置及遇到的問題。這里主要介紹hadoop2的體系架構(gòu)。

??????? hadoop1的核心組成是兩部分,即HDFSMapReduce。在hadoop2中變?yōu)?/span>HDFSYarn

??????? 新的HDFS中的NameNode不再是只有一個了,可以有多個(目前只支持2個)。每一個都有相同的職能。

??????? 這兩個NameNode的地位如何:一個是active狀態(tài)的,一個是standby狀態(tài)的。當(dāng)?集群運(yùn)行時,只有active狀態(tài)的NameNode是正常工作的,standby狀態(tài)的NameNode是處于待命狀態(tài)的,時刻同步active狀態(tài)?NameNode的數(shù)據(jù)。一旦active狀態(tài)的NameNode不能工作,通過手工或者自動切換,standby狀態(tài)的NameNode就可以轉(zhuǎn)變?yōu)?active狀態(tài)的,就可以繼續(xù)工作了。這就是高可靠。

??????? 當(dāng)NameNode發(fā)生故障時,他們的數(shù)據(jù)如何保持一致:在這里,2NameNode的數(shù)據(jù)其實(shí)是實(shí)時共享的。新HDFS采用了一種共享機(jī)制,JournalNode集群或者NFS進(jìn)行共享。NFS是操作系統(tǒng)層面的,JournalNodehadoop層面的,我們這里使用JournalNode集群進(jìn)行數(shù)據(jù)共享。

??????? 如何實(shí)現(xiàn)NameNode的自動切換:這就需要使用ZooKeeper集群進(jìn)行選擇了。HDFS集群中的兩個NameNode都在ZooKeeper中注冊,當(dāng)active狀態(tài)的NameNode出故障時,ZooKeeper能檢測到這種情況,它就會自動把standby狀態(tài)的NameNode切換為active狀態(tài)。

??????? HDFS?FederationHDFS聯(lián)盟):聯(lián)盟的出現(xiàn)是有原因的。我們知道?NameNode是核心節(jié)點(diǎn),維護(hù)著整個HDFS中的元數(shù)據(jù)信息,那么其容量是有限的,受制于服務(wù)器的內(nèi)存空間。當(dāng)NameNode服務(wù)器的內(nèi)存裝不下數(shù)據(jù)后,那么HDFS集群就裝不下數(shù)據(jù)了,壽命也就到頭了。因此其擴(kuò)展性是受限的。HDFS聯(lián)盟指的是有多個HDFS集群同時工作,那么其容量理論上就不受限了,夸張點(diǎn)說就是無限擴(kuò)展。你可以理解成,一個總集群中,可以虛擬出兩個或兩個以上的單獨(dú)的小集群,各個小集群之間數(shù)據(jù)是實(shí)時共享的。因?yàn)閔adoop集群中已經(jīng)不在單獨(dú)存在namenodedatanode的概念。當(dāng)一個其中一個小集群出故障,可以啟動另一個小集群中的namenode節(jié)點(diǎn),繼續(xù)工作。因?yàn)閿?shù)據(jù)是實(shí)時共享,即使namenodedatanode一起死掉,也不會影響整個集群的正常工作。

集群節(jié)點(diǎn)任務(wù)安排:

??????? 這點(diǎn)很重要,我們事先一定要先理解,節(jié)點(diǎn)之間任務(wù)是如何安排的。如果事先不理解為什么是這樣,后面還會遇到更多的問題。這就需要,理解journalnodezookeeperdatanodenamenode之間關(guān)系。自己也是在這上面耽誤了很長時間,希望讀者這點(diǎn)多注意下。

??????? 6臺主機(jī)。


??????? Journalnodezookeeper保持奇數(shù)點(diǎn),這點(diǎn)大家要有個概念,最少不少于3個節(jié)點(diǎn)。這里暫不講解。

??????? 兩個namenode上面已經(jīng)說明,其實(shí)在hadoop2中幾點(diǎn)之間namenodedatanode之間的劃分已經(jīng)不是那么明確了。這只是采用后4臺機(jī)器作為namenode。這里也存在一個問題:如果把datanodenamenode放在一起,對數(shù)據(jù)的讀取IO的效率肯定會有一定的影響,不同機(jī)器之間還是要通過網(wǎng)線和http請求完成數(shù)據(jù)之間的共享。實(shí)際中,兩者是可以在一起。但是我不知道在一起和不在一起之間的主要區(qū)別在哪兒,上面的解釋只是個人意見,如果讀者有更好的意見可以留言,大家一起討論。

?????? 在集群搭建之間,各主機(jī)設(shè)置靜態(tài)IP、更改主機(jī)名稱、主機(jī)之間ssh互聯(lián)等相關(guān)設(shè)置這里不在多講。如有需要,請參考:hadoop學(xué)習(xí)(五)Hadoop2.2.0完全分布式安裝詳解(1配置文檔。

?????? 下面就進(jìn)入正式的集群的安裝過程:

?????? 下面所有的過程都是在hadoop1機(jī)器上完成的,之后把文件復(fù)制到其他節(jié)點(diǎn)中。

Zookeeper安裝過程:

1、下載解壓zookeeper

?????? 下載地址:http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.5/

? ? ?? 解壓到指定目錄:這里目錄:/home/tom/yarn/hadoop-2.2.0/app/

?????? 在hadoop目錄中創(chuàng)建app目錄。把文件解壓到hadoopapp目錄中,是為了以后整個項(xiàng)目可以整體移植。包括后面,我們會安裝HBaseHive等軟件,都是解壓到app的目錄中。

2、修改配置文件

2.1進(jìn)入zookeeperconf目錄:

?????? 拷貝命名zoo_sample.cfg?zoo.cfg。我們一般不修改配置文件默認(rèn)的示例文件,修改賦值其子文件。

?????? 編輯zoo.cfg

[plain]?view plaincopy
  • tickTime=2000??
  • initLimit=10??
  • syncLimit=5??
  • dataDir=/home/tom/yarn/hadoop-2.2.0/app/zookeeper-3.4.5/zkdata??
  • dataLogDir=/home/tom/yarn/hadoop-2.2.0/app/zookeeper-3.4.5/zkdatalog??
  • clientPort=2181??
  • server.1=hadoop1:2888:3888??
  • server.2=hadoop2:2888:3888???
  • server.3=hadoop3:2888:3888??
  • server.4=hadoop4:2888:3888??
  • server.5=hadoop5:2888:3888??
  • 2.2創(chuàng)建zkdatazkdatalog兩個文件夾

    ?????? 在zookeeper的目錄中,創(chuàng)建上述兩個文件夾。進(jìn)入zkdata文件夾,創(chuàng)建文件myid,填入1。這里寫入的1,是在zoo.cfg文本中的server.1中的1。當(dāng)我們把所有文件都配置完畢,我們把hadoop1yarn目錄復(fù)制到其它機(jī)器中,我們在修改每臺機(jī)器中對應(yīng)的myid文本,hadoop2中的myid寫入2。其余節(jié)點(diǎn),安照上面配置,依此寫入相應(yīng)的數(shù)字。Zkdatalog文件夾,是為了指定zookeeper產(chǎn)生日志指定相應(yīng)的路徑。

    3、添加環(huán)境變量

    ?????? 本機(jī)環(huán)境變量添是在/etc/profile目錄中添加的。

    [plain]?view plaincopy
  • export?ZOOKEEPER_HOME=/home/tom/yarn/hadoop-2.2.0/app/zookeeper-3.4.5??
  • PATH=$ZOOKEEPER_HOME/bin:$PATH??
  • ??????? 添加ZOOKEEPER_HOME/bin目錄可以在原有的PATH后面加入

    ??????? :$ZOOKEEPER_HOME/bin

    ??????? 關(guān)于環(huán)境變量修改/etc目錄下的profile文件,也可以在根目錄下的.bashrc目錄下添加環(huán)境變量。這兩者有什么區(qū)別:.bashrc是對當(dāng)前目錄用戶的環(huán)境變量,profile文件是對所有用戶都開放的目錄。當(dāng)系統(tǒng)加載文件中,先從profile找相應(yīng)的路勁,如果沒有會在.bashrc文件中找對應(yīng)的環(huán)境變量路徑。這兩者大家稍至了解。

    ??????? 然后?source?/etc/profile

    ?????? 上面3個步驟就安裝zookeeper完畢。然后就是測試zookeeper,這個放到后面等hadoop1上整體配置完畢,scp到其它主機(jī)上后,再一起測試。

    Hadoop配置

    1、下載解壓hadoop2.2.0

    ??????? 路徑:http://apache.dataguru.cn/hadoop/common/hadoop-2.2.0/

    ?????? 解壓到:/home/tom/yarn/下。其實(shí)這一步應(yīng)該在解壓zookeeper之前。不再多講。

    2、修改配置文件

    ??????? 這里要修改配置文件一共包括6個,分別是在hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xml、?yarn-site.xmlslaves

    ??????? 修改文件的目錄地址:/home/tom/yarn/hadoop-2.2.0/etc/hadoop/

    2.1文件hadoop-env.sh

    ??????? 添加jdk環(huán)境變量:

    ??????? export?JAVA_HOME=/usr/lib/jvm/jdk1.7.0_45

    2.2文件coer-site.xml

    [plain]?view plaincopy
  • <configuration>??????
  • ?????????<property>??????
  • ?????????????<name>fs.defaultFS</name>??????
  • ?????????????<value>hdfs://cluster1</value>??????
  • ?????????</property>??
  • ??????【這里的值指的是默認(rèn)的HDFS路徑。這里只有一個HDFS集群,在這里指定!該值來自于hdfs-site.xml中的配置】??????
  • ?????????<property>??????
  • ???????????????<name>hadoop.tmp.dir</name>?????
  • ???????????????<value>/home/tom/yarn/yarn_data/tmp</value>?????
  • ?????????</property>??
  • ???????【這里的路徑默認(rèn)是NameNode、DataNode、JournalNode等存放數(shù)據(jù)的公共目錄。用戶也可以自己單獨(dú)指定這三類節(jié)點(diǎn)的目錄。這里的yarn_data/tmp目錄與文件都是自己創(chuàng)建的】??????
  • ?????????<property>??????
  • ??????????????<name>ha.zookeeper.quorum</name>??????
  • ??????????????<value>hadoop1:2181,hadoop2:2181,hadoop3:2181,hadoop4:2181,hadoop5:2181</value>?????
  • ?????????</property>??
  • ???????【這里是ZooKeeper集群的地址和端口。注意,數(shù)量一定是奇數(shù),且不少于三個節(jié)點(diǎn)】??????
  • ?????</configuration><span?style="font-size:14px;"><span?style="font-family:宋體;"></span></span>??
  • 2.3文件hdfs-site.xml

    [plain]?view plaincopy
  • 重點(diǎn)核心文件:??
  • ????????<configuration>??
  • ??????????<property>??
  • ?????????????<name>dfs.replication</name>??
  • ?????????????<value>2</value>??
  • ??????????</property>??
  • ??????????【指定DataNode存儲block的副本數(shù)量。默認(rèn)值是3個,我們現(xiàn)在有4個DataNode,該值不大于4即可。】??????
  • ??????????<property>??
  • ?????????????<name>dfs.permissions</name>??
  • ?????????????<value>false</value>??
  • ??????????</property>??
  • ??????????<property>??
  • ?????????????<name>dfs.permissions.enabled</name>??
  • ?????????????<value>false</value>??
  • ??????????</property>??
  • ??????????<property>??????
  • ?????????????<name>dfs.nameservices</name>????
  • ?????????????<value>cluster1</value>??????
  • ??????????</property>??
  • ?????????【給hdfs集群起名字】??
  • ??????????<property>??
  • ????????????<name>dfs.ha.namenodes.cluster1</name>??
  • ????????????<value>hadoop1,hadoop2</value>??
  • ??????????</property>??
  • ????????【指定NameService是cluster1時的namenode有哪些,這里的值也是邏輯名稱,名字隨便起,相互不重復(fù)即可】????
  • ?????????<property>??
  • ????????????<name>dfs.namenode.rpc-address.cluster1.hadoop1</name>??
  • ????????????<value>hadoop1:9000</value>??
  • ?????????</property>??
  • ????????【指定hadoop101的RPC地址】???
  • ?????????<property>??????
  • ???????????<name>dfs.namenode.http-address.cluster1.hadoop1</name>??????
  • ???????????<value>hadoop1:50070</value>??????
  • ?????????</property>??
  • ?????????【指定hadoop101的http地址】?????
  • ?????????<property>??????
  • ???????????<name>dfs.namenode.rpc-address.cluster1.hadoop2</name>??????
  • ???????????<value>hadoop2:9000</value>??????
  • ?????????</property>??
  • ?????????<property>??????
  • ???????????<name>dfs.namenode.http-address.cluster1.hadoop2</name>??????
  • ???????????<value>hadoop2:50070</value>?????
  • ?????????</property>??
  • ?????????<property>??
  • ???????????<name>dfs.namenode.servicerpc-address.cluster1.hadoop1</name>??
  • ???????????<value>hadoop1:53310</value>??
  • ?????????</property>??
  • ?????????<property>??
  • ???????????<name>dfs.namenode.servicerpc-address.cluster1.hadoop2</name>??
  • ???????????<value>hadoop2:53310</value>??
  • ?????????</property>??
  • ?????????<property>????
  • ???????????<name>dfs.ha.automatic-failover.enabled.cluster1</name>????
  • ???????????<value>true</value>????
  • ?????????</property>?????
  • ?????【指定cluster1是否啟動自動故障恢復(fù),即當(dāng)NameNode出故障時,是否自動切換到另一臺NameNode】??
  • ???????<!--指定JournalNode?-->??
  • ???<property>??
  • ???????<name>dfs.namenode.shared.edits.dir</name>???????<value>qjournal://hadoop1:8485;hadoop2:8485;hadoop3:8485;hadoop4:8485;hadoop5:8485/cluster1</value>??
  • ???</property>??
  • ????【指定cluster1的兩個NameNode共享edits文件目錄時,使用的JournalNode集群信息】??
  • ???????<property>??
  • ?<name>dfs.client.failover.proxy.provider.cluster1</name>???????<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>??
  • ???????</property>??
  • ????【指定cluster1出故障時,哪個實(shí)現(xiàn)類負(fù)責(zé)執(zhí)行故障切換】??
  • ?????<property>??????
  • ??????????<name>dfs.journalnode.edits.dir</name>??????
  • ??????????<value>/home/tom/yarn/yarn_data/tmp/journal</value>??????
  • ?????</property>??
  • ??????【指定JournalNode集群在對NameNode的目錄進(jìn)行共享時,自己存儲數(shù)據(jù)的磁盤路徑。tmp路徑是自己創(chuàng)建,journal是啟動journalnode自動生成】??????
  • ???????<property>??????
  • ??????????<name>dfs.ha.fencing.methods</name>??????
  • ??????????<value>sshfence</value>??????
  • ???????</property>??
  • ??????【一旦需要NameNode切換,使用ssh方式進(jìn)行操作】???
  • ??????<property>??????
  • ???????????<name>dfs.ha.fencing.ssh.private-key-files</name>??????
  • ???????????<value>/home/tom/.ssh/id_rsa</value>??????
  • ???????</property>??
  • ?????【如果使用ssh進(jìn)行故障切換,使用ssh通信時用的密鑰存儲的位置】??
  • ???????<property>??
  • ???????????<name>dfs.ha.fencing.ssh.connect-timeout</name>??
  • ???????????<value>10000</value>??
  • ???????</property>??
  • ???????<property>??
  • ???????????<name>dfs.namenode.handler.count</name>??
  • ???????????<value>100</value>??
  • ??????</property>??
  • ??????</configuration>??
  • 2.4文件mapred-site.xml

    [plain]?view plaincopy
  • ?<configuration>??
  • ???<property>??
  • ???????<name>mapreduce.framework.name</name>??
  • ???????<value>yarn</value>??
  • ??</property>??
  • ?</configuration>??
  • 【指定運(yùn)行mapreduce的環(huán)境是yarn,與hadoop1不同的地方】??
  • 2.5文件yarn-site.xml

    [plain]?view plaincopy
  • ?<configuration>??
  • ???<property>??????
  • ??????<name>yarn.resourcemanager.hostname</name>??????
  • ??????<value>hadoop1</value>??????
  • ???</property>??
  • ?【自定義ResourceManager的地址,還是單點(diǎn)】??
  • ???<property>??
  • ??????<name>yarn.nodemanager.aux-services</name>??
  • ??????<value>mapreduce.shuffle</value>??
  • ???</property>??
  • </configuration>??
  • 2.6文件slaves

    ????? 添加:這里指定哪臺機(jī)器是datanode,這里指定4臺機(jī)器。你甚至可以把集群所有機(jī)器都當(dāng)做datanode

    [plain]?view plaincopy
  • hadoop3??
  • hadoop4??
  • hadoop5??
  • hadoop6??
  • 3、添加環(huán)境變量

    ?????? 環(huán)境變量的添加方法大都相同。這里給出我所有環(huán)境變量配置,大家可以根據(jù)自己的需要參考一下。

    ?????? 這里我們只要添加HADOOP_HOME環(huán)境變量。

    [plain]?view plaincopy
  • JAVA_HOME=/usr/lib/jvm/jdk1.7.0_51?????
  • export?PATH=$PATH:$JAVA_HOME/bin??
  • export?HBASE_HOME=/home/tom/hadoop-2.2.0/app/hbase-0.94.6-cdh4.4.0??
  • export?HIVE_HOME=/home/tom/hadoop-2.2.0/app/hive-0.12.0/??
  • export?HADOOP_HOME=/home/tom/hadoop-2.2.0??
  • export?PATH=$PATH:$HBASE_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin??
  • export?CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar??
  • export?ZOOKEEPER_HOME=/home/tom/yarn/hadoop-2.2.0/app/zookeeper-3.4.5??
  • export?PATH=$PATH:$ZOOKEEPER_HOME/bin??
  • 4、復(fù)制到其它節(jié)點(diǎn)

    ?????? 在hadoop的的根目錄下(即:/home/tom目錄下):因?yàn)槲覀兯械沫h(huán)境都裝載在hadoop1tom目錄下。

    執(zhí)行:

    [plain]?view plaincopy
  • scp?-r?yarn?hadoop2:/home/tom??
  • scp?-r?yarn?hadoop3:/home/tom??
  • scp?-r?yarn?hadoop4:/home/tom??
  • scp?-r?yarn?hadoop5:/home/tom??
  • scp?-r?yarn?hadoop6:/home/tom??
  • 注意點(diǎn):

    ????? 1、因?yàn)槲覀兪前颜麄€yarn目錄復(fù)制到其他節(jié)點(diǎn)中,zookeeper也包含在內(nèi)。事先我們定義zookeeper是在1-5臺機(jī)器上部署。這里我們雖然把zookeeper拷貝到6機(jī)器中,但是我們再zookeeper配置文件中沒有配置6機(jī)器的節(jié)點(diǎn),在啟動zookeeper的時候,6機(jī)器也不需要啟動。

    ????? 2、現(xiàn)在要做的是進(jìn)入zookeeper目錄下的zkdata目錄,修改myid文件:各個myid內(nèi)容對應(yīng)zoo.cfg文件中server對應(yīng)的編號。

    ?????? 按照上面的3個大步驟,以及在注釋中自己要創(chuàng)建的文件夾,指定相應(yīng)的路徑之后,整體的hadoop環(huán)境算是搭建完畢。下面就是等測試。

    ??????? 看似簡單的不能再簡單的搭建過程,這是你弄明白之后的事情。在從hadoop12之間的過度,主要的變化是namenodemapreduceyarn架構(gòu)之間的變化。就在這簡單的配置過程中,加上可參考網(wǎng)上眾多配置教程,也耽誤了太長時間。不是文件難配置,而是在出現(xiàn)問題,不知道怎么解決,就一直卡在那兒。咨詢過一些大牛,但是他們也是搪塞,沒有給出真正問題的原因。其中有一個問題,在QQ群中,咨詢過一個人,從他那邊才得到啟發(fā),把其中的一個問題給解決掉。這也是我們遇到的問題,沒有一個平臺,導(dǎo)致在一些別人看似不是問題的問題上耽誤太長時間。


    ???????? 上面的任務(wù)完成后。下面才是非常關(guān)鍵的步驟,任務(wù)的重中之重,同時也是問題出現(xiàn)的地方,也是卡時間最多的地方:測試整個集群的性能。由下一篇博客介紹

    總結(jié)

    以上是生活随笔為你收集整理的Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。