當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop 中zoo_0基础如何入门HADOOP

發布時間：2023/12/4 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop 中zoo_0基础如何入门HADOOP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原標題：0基礎如何入門HADOOP

學習一樣東西，肯定先要了解這個東西是什么，那什么是HADOOP呢？我們就來看看什么是HADOOP和如何學習HADOOP及學習內容。

一，什么是HADOOP

HADOOP是apache旗下的一套開源軟件平臺

HADOOP提供的功能：利用服務器集群，根據用戶的自定義業務邏輯，對海量數據進行分布式處理

HADOOP的核心組件有

HDFS(分布式文件系統) YARN(運算資源調度系統) MAPREDUCE(分布式運算編程框架)

4.廣義上來說，HADOOP通常是指一個更廣泛的概念——HADOOP生態圈

二，Hadoop生態圈

重點組件：

HDFS：分布式文件系統

MAPREDUCE：分布式運算程序開發框架

HIVE：基于大數據技術(文件系統+運算框架)的SQL數據倉庫工具

HBASE：基于HADOOP的分布式海量數據庫

ZOOKEEPER：分布式協調服務基礎組件

Mahout：基于mapreduce/spark/flink等分布式運算框架的機器學習算法庫

Oozie：工作流調度框架

Sqoop：數據導入導出工具

Flume：日志數據采集框架

三， Hadoop集群搭建

集群具體來說包含兩個集群：HDFS集群和YARN集群，兩者邏輯上分離，但物理上常在一起。

HDFS集群：負責海量數據的存儲，集群中的角色主要有 NameNode / DataNode

YARN集群：負責海量數據運算時的資源調度，集群中的角色主要有 ResourceManager /NodeManager

2.集群安裝

3.集群啟動：

初始化HDFS

bin/hadoop namenode -format

啟動HDFS

sbin/

啟動YARN

sbin/start-yarn.sh

4. 集群初步使用

1 查看集群狀態

命令： hdfs dfsadmin –report

也可打開web控制臺查看HDFS集群信息，在瀏覽器打開http://hdp-node:50070/

2 上傳文件到HDFS

查看HDFS中的目錄信息

命令： hadoop fs –ls /

上傳文件

命令： hadoop fs -put ./ scala-2.10.6.tgz to /

從HDFS下載文件

命令：hadoop fs -get /

四，HDFS

1.設計思想

分而治之：將大文件、大批量文件，分布式存放在大量服務器上，以便于采取分而治之的方式對海量數據進行運算分析；

在大數據系統中作用：

為各類分布式運算框架(如：mapreduce，spark，tez，……)提供數據存儲服務

重點概念：文件切塊，副本存放，元數據

2. HDFS的概念和特性

首先，它是一個文件系統，用于存儲文件，通過統一的命名空間——目錄樹來定位文件

其次，它是分布式的，由很多服務器聯合起來實現其功能，集群中的服務器有各自的角色；

重要特性如下：

HDFS中的文件在物理上是分塊存儲(block)，塊的大小可以通過配置參數( )來規定，默認大小在版本中是128M，老版本中是64M

HDFS文件系統會給客戶端提供一個統一的抽象目錄樹，客戶端通過路徑來訪問文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/

目錄結構及文件分塊信息(元數據)的管理由namenode節點承擔——namenode是HDFS集群主節點，負責維護整個hdfs文件系統的目錄樹，以及每一個路徑(文件)所對應的block塊信息(block的id，及所在的datanode服務器)

文件的各個block的存儲管理由datanode節點承擔---- datanode是HDFS集群從節點，每一個block都可以在多個datanode上存儲多個副本(副本數量也可以通過參數設置)

HDFS是設計成適應一次寫入，多次讀出的場景，且不支持文件的修改

(注：適合用來做數據分析，并不適合用來做網盤應用，因為，不便修改，延遲大，網絡開銷大，成本太高)

五，MapReduce

Mapreduce是一個分布式運算程序的編程框架，是用戶開發“基于hadoop的數據分析應用”的核心框架；

Mapreduce核心功能是將用戶編寫的業務邏輯代碼和自帶默認組件整合成一個完整的分布式運算程序，并發運行在一個hadoop集群上；

六，yarn

Yarn是一個資源調度平臺，負責為運算程序提供服務器運算資源，相當于一個分布式的操作系統平臺，而mapreduce等運算程序則相當于運行于操作系統之上的應用程序

yarn的重要概念：

yarn并不清楚用戶提交的程序的運行機制；

yarn只提供運算資源的調度(用戶程序向yarn申請資源，yarn就負責分配資源)；

yarn中的主管角色叫ResourceManager；

yarn中具體提供運算資源的角色叫NodeManager；

這樣一來，yarn其實就與運行的用戶程序完全解耦，就意味著yarn上可以運行各種類型的分布式運算程序(mapreduce只是其中的一種)，比如mapreduce、storm程序，spark程序，tez ……；

所以，spark、storm等運算框架都可以整合在yarn上運行，只要他們各自的框架中有符合yarn規范的資源請求機制即可；

Yarn就成為一個通用的資源調度平臺，從此，企業中以前存在的各種運算集群都可以整合在一個物理集群上，提高資源利用率，方便數據共享。

返回搜狐，查看更多

責任編輯：

總結

以上是生活随笔為你收集整理的Hadoop 中zoo_0基础如何入门HADOOP的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：新凯美瑞怎么了凯美瑞新
下一篇： Typora markdown公式换行等