當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop环境搭建学习(1)

發(fā)布時(shí)間：2023/12/20 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop环境搭建学习(1) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

前言
一、Hadoop是什么？
二、使用步驟
- 1.所需環(huán)境及軟件
- 2.測(cè)試集群服務(wù)器規(guī)劃
- 3.前置軟件安裝或者準(zhǔn)備工作
- 4.安裝Hadoop
總結(jié)

前言

`最近大數(shù)據(jù)又興起了，我們公司也入了大數(shù)據(jù)的項(xiàng)目，大數(shù)據(jù)這玩意范圍廣，涉及到的知識(shí)也不局限一個(gè)方面，國(guó)內(nèi)的大數(shù)據(jù)平臺(tái)，基本上都是基于Hadoop的這框架而衍生來(lái)的，所以Hadoop是基礎(chǔ)

提示：以下是本篇文章正文內(nèi)容，下面案例可供參考

一、Hadoop是什么？

Hadoop是由java語(yǔ)言編寫(xiě)的，在分布式服務(wù)器集群上存儲(chǔ)海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的開(kāi)源框架，其核心部件是HDFS與MapReduce。
HDFS是一個(gè)分布式文件系統(tǒng)：引入存放文件元數(shù)據(jù)信息的服務(wù)器Namenode和實(shí)際存放數(shù)據(jù)的服務(wù)器Datanode，對(duì)數(shù)據(jù)進(jìn)行分布式儲(chǔ)存和讀取。　　
MapReduce是一個(gè)計(jì)算框架：MapReduce的核心思想是把計(jì)算任務(wù)分配給集群內(nèi)的服務(wù)器里執(zhí)行。通過(guò)對(duì)計(jì)算任務(wù)的拆分（Map計(jì)算/Reduce計(jì)算）再根據(jù)任務(wù)調(diào)度器（JobTracker）對(duì)任務(wù)進(jìn)行分布式計(jì)算。
Hadoop集群中各個(gè)角色的名稱如下：

還有個(gè)SecondaryNameNode，其實(shí)是NameNode的備用節(jié)點(diǎn)，定時(shí)合并和處理日志并且反饋到NameNode上。一般NameNode和SecondaryNameNode盡量不要放在同一個(gè)節(jié)點(diǎn)。

具體也不詳細(xì)多說(shuō)，網(wǎng)上多的是

二、使用步驟

1.所需環(huán)境及軟件

操作系統(tǒng)：Windows 10
虛擬機(jī)：VMware 15.5
集群系統(tǒng)：Centos 7 64位
Hadoop版本：hadoop-3.3.1

2.測(cè)試集群服務(wù)器規(guī)劃

代碼如下（示例）：

master 192.168.74.88 CentOS7 NameNode,DataNode,NodeManager slave1 192.168.74.89 CentOS7 DataNode,NodeManager slave2 192.168.74.90 CentOS7 SecondaryNameNode,DataNode, ResourceManager,NodeManager

3.前置軟件安裝或者準(zhǔn)備工作

代碼如下（示例）：

1.關(guān)閉防火墻(為了避免出現(xiàn)部分端口無(wú)法訪問(wèn)，內(nèi)網(wǎng)環(huán)境下每臺(tái)虛擬機(jī)都可以直接關(guān)閉防火墻) 2.JDK安裝 3.修改主機(jī)名 # 節(jié)點(diǎn)192.168.74.88 hostnamectl set-hostname hadoop01 reboot # 節(jié)點(diǎn)192.168.74.89 hostnamectl set-hostname hadoop02 reboot # 節(jié)點(diǎn)192.168.74.90 hostnamectl set-hostname hadoop03 reboot 4.修改hosts文件 192.168.74.88 hadoop01 192.168.74.89 hadoop02 192.168.74.90 hadoop03 5.設(shè)置集群機(jī)器SSH免登 5.1使用ssh-keygen -t rsa命令 5.2把master機(jī)器的公鑰文件放入授權(quán)文件中 cat id_rsa.pub >> authorized_keys 5.3收集集群中所有節(jié)點(diǎn)的/home/hadoop/.ssh/id_rsa.pub內(nèi)容，匯總合并成一個(gè)authorized_keys文件，再拷貝該文件到所有集群節(jié)點(diǎn)的/home/hadoop/.ssh/目錄下

4.安裝Hadoop

主要在hadoop01節(jié)點(diǎn)中安裝即可，安裝完畢可以通過(guò)scp命令直接拷貝文件分發(fā)到不同的節(jié)點(diǎn)中

代碼如下（示例）：

1.解壓安裝 2.環(huán)境變量配置 vim ~/.bashrc gedit ~/.bashrcexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.322.b06-1.el7_9.x86_64/jre export PATH=$JAVA_HOME/bin:$PATH export HADOOP_HOME=/data/hadoop/app export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHsource ~/.bashrc 3.Hadoop配置配置core-site.xml gedit /data/hadoop/app/etc/hadoop/core-site.xml <configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop01:9000</value></property><property><name>hadoop.tmp.dir</name><value>/data/hadoop/temp</value></property> </configuration> 配置hdfs-site.xml gedit /data/hadoop/app/etc/hadoop/hdfs-site.xml <configuration><property><name>dfs.namenode.name.dir</name><value>/data/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>/data/hadoop/dfs/data</value></property><property><name>dfs.replication</name><value>3</value></property><property><name>dfs.secondary.http.address</name><value>hadoop03:50090</value></property><property><name>dfs.http.address</name><value>192.168.74.88:50070</value></property> </configuration> 配置mapred-site.xml gedit /data/hadoop/app/etc/hadoop/mapred-site.xml <configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property> </configuration> 配置yarn-site.xml gedit /data/hadoop/app/etc/hadoop/yarn-site.xml <configuration><property><name>yarn.resourcemanager.hostname</name><value>hadoop02</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property> </configuration> 配置workers文件 gedit /data/hadoop/app/etc/hadoop/workers hadoop01 hadoop02 hadoop03 4.分發(fā)Hadoop安裝包到其他節(jié)點(diǎn) ## 分發(fā)節(jié)點(diǎn)2 scp -r /data/hadoop/app hadoop@hadoop02:/data/hadoop## 分發(fā)節(jié)點(diǎn)3 scp -r /data/hadoop/app hadoop@hadoop03:/data/hadoop 5.格式化NameNode 規(guī)劃中是hadoop01作為NameNode，在該機(jī)器下進(jìn)行格式化：hadoop namenode -format格式化NameNode成功的控制臺(tái)日志如下： 2022-03-19 10:08:39,844 INFO common.Storage: Storage directory /data/hadoop/dfs/name has been successfully formatted. 6.啟動(dòng)和停止HDFS 可以在任意一個(gè)節(jié)點(diǎn)中啟動(dòng)和停止HDFS，為了簡(jiǎn)單起見(jiàn)還是在hadoop01節(jié)點(diǎn)中操作：啟動(dòng)：start-dfs.sh 停止：stop-dfs.sh

7.啟動(dòng)和停止YARN YARN集群的啟動(dòng)命令必須在ResourceManager節(jié)點(diǎn)中調(diào)用，規(guī)劃中的對(duì)應(yīng)角色的節(jié)點(diǎn)為hadoop03，在該機(jī)器執(zhí)行YARN相關(guān)命令：啟動(dòng)：start-yarn.sh 停止：stop-yarn.sh

8.查看所有節(jié)點(diǎn)的進(jìn)程狀態(tài) [hadoop@hadoop01 hadoop]$ jps 8673 NameNode 8823 DataNode 9383 NodeManager 9498 Jps[hadoop@hadoop02 hadoop]$ jps 4305 DataNode 4849 Jps 4734 NodeManager[hadoop@hadoop03 data]$ jps 9888 Jps 9554 NodeManager 5011 DataNode 9427 ResourceManager 5125 SecondaryNameNode9.通過(guò)WEB管理界面查看集群狀態(tài) HDFS入口：http://192.168.74.88:50070（來(lái)自于hdfs-site.xml的dfs.http.address配置項(xiàng)）YARN入口：http://192.168.74.90:8088/cluster（ResourceManager所在節(jié)點(diǎn)的8088端口）

總結(jié)

記錄每天的點(diǎn)點(diǎn)滴滴，中途出現(xiàn)好些問(wèn)題，反反復(fù)復(fù)裝了好幾遍，通過(guò)找問(wèn)題加深理解

總結(jié)

以上是生活随笔為你收集整理的Hadoop环境搭建学习(1)的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python 进阶_GitHub - e
下一篇： AD9361射频捷变收发器系列对比