Hadoop配置文件( hadoop-env.sh、core-site.xml、hdfs-site.xm、mapred-site.xml、yarn-site.xml、 slaves)详解
?hadoop-env.sh
配置hadoop中的 hadoop-env.sh(后邊很多框架配置環境都是xxx.env.sh)
配置hadoop的環境變量的,一般有Java home,hadoopconfdir等這些軟件、配置目錄,有運行過程中使用的變量,如hadoop棧大小配置,java 運行內存大小配置等等。
用工具直接打開進行配置即可;
默認是已經開啟的,如果前面有#,只需要去掉即可;
core-site.xml
配置hadoop的訪問目錄(配置ip主機和端口號;提供出來進行訪問);修改配置文件 etc/hadoop/core-site.xml
用于定義系統級別的參數,如HDFS URL、Hadoop的臨時目錄等;
| Parameter | Value | Notes |
| fs.defaultFS | NameNode URI | hdfs://host:port/ |
| io.file.buffer.size | 131072 | Size of read/write buffer used in SequenceFiles. |
其中,fs.defaultFS表示要配置的默認文件系統,io.file.buffer.size表示設置buffer的大小。
最簡單的方法,使用工具直接找到文件打開進行配置;
在這個里邊還有很多的配置信息,需要我們去官方找過來配置;
.配置元數據和block塊;其實就是去配置我們的hdfs中數據存儲的block塊;
hdfs-site.xml
HDFS也是采用塊管理的,但是比較大,在Hadoop1.x中默認大小是64M,Hadoop2.x中大小默認為128M;他就是把一個大的文件分割成多個128M的block塊來分布式存儲數據;
HDFS的元數據包含三部分:
抽象目錄樹
數據和塊映射關系
數據塊的存儲節點
元數據有兩個存儲位置:
內存:1、2、3
3在集群啟動時,Datanode 通過心跳機制向Namenode發送。
磁盤:1、2
集群啟動時需要將磁盤中的元數據加載到內存中,所以磁盤中的元數據不適宜過多。
元數據的存儲格式:data/hadoopdata/目錄下有三個文件夾
data
數據的真實存儲目錄,即datanode存儲數據的存儲目錄
name:元數據存儲目錄
namenode存儲元數據的存儲目錄
需要對/usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml 其實就是hadoop的文件系統進行配置;
mapred-site.xml
配置計算框架:mapreduce框架; 需要對這個文件進行修改: mapred-site.xml
- hadoop2.x中沒有這個文件;只有 vi mapred-site.xml.template 這個臨時文件;需要對他的后綴進行修改;
?
? yarn-site.xml
對yarn的資源調度的配置: resourcemanager(資源調度管理者--針對的是nameNode) 和nodemanager (節點管理者--針對的是我們具體的節點) 主要是在 yarn-site.xml中進行配置:
?slaves
配置從節點:也就是指定那些節點是從節點:就是這個文件:slaves
這個地方把原來的localhost刪除;加入你的從節點即可;
?到此hadoop的配置基本完成;就可以把這個分發給從節點中去;
發分主節點的hadooop內容給從節點
把配置好的hadoop的內容發分給hadoop02中的usr/local目錄中;
scp -r /usr/local/hadoop-2.7.3/ hadoop02:/usr/local/
把配置好的hadoop的內容分發給hadoop03中的usr/local目錄中;
scp -r /usr/local/hadoop-2.7.3/ hadoop03:/usr/local/
?hadoop配置完成
總結
以上是生活随笔為你收集整理的Hadoop配置文件( hadoop-env.sh、core-site.xml、hdfs-site.xm、mapred-site.xml、yarn-site.xml、 slaves)详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .NET 动态脚本语言Script.NE
- 下一篇: POJ-3590 The shuffle