hadoop伪分布式配置
1.1 準(zhǔn)備
通過(guò)gedit編輯器修改比較方便,因此需先安裝gedit。
1.2 修改配置文件core-site.xml和hdfs-site.xml(如下注釋部分需要?jiǎng)h除)
- gedit打開core-site.xml
- gedit打開hdfs-site.xml
設(shè)置完后保存。
1.3 配置完成后,執(zhí)行NameNode的格式化
$ cd /usr/local/hadoop $ ./bin/hdfs namenode -format輸出如下信息則成功。
1.4 開啟NameNode和DataNode守護(hù)進(jìn)程。
$ cd /usr/local/hadoop $ ./sbin/start-dfs.sh1.5 通過(guò)jps來(lái)判斷是否成功啟動(dòng),出現(xiàn)NameNode、DataNode、SecondaryName(若沒有這個(gè),則再次嘗試啟動(dòng))則成功。
1.6 單機(jī)模式讀取的是本地?cái)?shù)據(jù),偽分布式讀取的是HDFS上的數(shù)據(jù)。要使用HDFS,則需要在HDFS中創(chuàng)建用戶目錄。
$ ./bin/hdfs dfs -mkdir -p /user/hadoop1.7 三種shell命令方式介紹
- hadoop fs:適用于任何不同的文件系統(tǒng),如本地文件系統(tǒng)和HDFS文件系統(tǒng)。
- hadoop dfs:只適用于HDFS文件系統(tǒng)。
- hdfs dfs:只適用于HDFS文件系統(tǒng)。
1.8 使用
- 將./etc/hadoop中的.xml文件作為輸入,復(fù)制到分布式文件系統(tǒng)中的/user/hadoop/input中。
- 執(zhí)行如下命令創(chuàng)建文件夾和復(fù)制文件
- 查看復(fù)制的文件目錄
1.9 偽分布式運(yùn)行MapReduce作業(yè)與單機(jī)模式相同,偽分布式讀取的HDFS中的文件。
$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'1.10 查看輸出文件,每次運(yùn)行上述輸出語(yǔ)句,需要?jiǎng)h除output輸出文件夾。
$ ./bin/hdfs dfs -cat output/*
1.11 hadoop的關(guān)閉與啟動(dòng):下次啟動(dòng)無(wú)需運(yùn)行NameNode初始化。
1.12 hadoop命令目錄:
- hadoop所在目錄為/usr/local/hadoop
- hadoop命令在sbin文件夾中。
- HDFS文件數(shù)據(jù)目錄:/tmp/dfs/
- input 輸入文件目錄
1.1.3 hadoop的訪問(wèn):hadoop3.x版本的默認(rèn)端口問(wèn)9870,即通過(guò)localhost:9870可以訪問(wèn)啟動(dòng)的hadoop。
1.14 可能的錯(cuò)誤
-
若1.3 運(yùn)行后出錯(cuò)Error: JAVA_HOME is not set and could not be found. 那么請(qǐng)保證JAVA_HOME配置正確。若還出錯(cuò),則:
轉(zhuǎn)到hadoop的安裝目錄,修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”中的“export JAVA_HOME=${JAVA_HOME}”為Java安裝路徑的具體地址,如“export JAVA_HOME=/usr/lib/jvm/default-java”。 -
啟動(dòng)hadoop識(shí),若出現(xiàn)類似“ssh: Could not resolve hostname xxx”的錯(cuò)誤。
這不是SSH的問(wèn)題,可以通過(guò)Hadoop配置來(lái)解決。
先ctrl+c中斷啟動(dòng),然后在~./bashrc中添加如下語(yǔ)句
export HADOOP_HOME=/usr/local/hadoop#hadoop的安裝目錄 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 保存執(zhí)行命令使配置生效。 source ~/.bashrc 在執(zhí)行啟動(dòng)命令。 $ ./sbin/start-dfs.sh-
Hadoop 運(yùn)行程序時(shí),輸出目錄不能存在,否則會(huì)提示錯(cuò)誤 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists” ,需要?jiǎng)h除output文件夾。
-
可以通過(guò)命令設(shè)置,可以運(yùn)行是自動(dòng)刪除output目錄,避免復(fù)雜的其他操作。
源文檔
http://dblab.xmu.edu.cn/blog/2441-2/#more-2441
總結(jié)
以上是生活随笔為你收集整理的hadoop伪分布式配置的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: leetcode解题记录(二)
- 下一篇: Hadoop相关技术