Hadoop 中zoo_0基础如何入门HADOOP
原標題:0基礎如何入門HADOOP
學習一樣東西,肯定先要了解這個東西是什么,那什么是HADOOP呢?我們就來看看什么是HADOOP和如何學習HADOOP及學習內容。
一,什么是HADOOP
4.廣義上來說,HADOOP通常是指一個更廣泛的概念——HADOOP生態圈
二 ,Hadoop生態圈
重點組件:
HDFS:分布式文件系統
MAPREDUCE:分布式運算程序開發框架
HIVE:基于大數據技術(文件系統+運算框架)的SQL數據倉庫工具
HBASE:基于HADOOP的分布式海量數據庫
ZOOKEEPER:分布式協調服務基礎組件
Mahout:基于mapreduce/spark/flink等分布式運算框架的機器學習算法庫
Oozie:工作流調度框架
Sqoop:數據導入導出工具
Flume:日志數據采集框架
三, Hadoop集群搭建
集群具體來說包含兩個集群:HDFS集群和YARN集群,兩者邏輯上分離,但物理上常在一起。
HDFS集群:負責海量數據的存儲,集群中的角色主要有 NameNode / DataNode
YARN集群:負責海量數據運算時的資源調度,集群中的角色主要有 ResourceManager /NodeManager
2.集群安裝
3.集群啟動:
初始化HDFS
bin/hadoop namenode -format
啟動HDFS
sbin/
啟動YARN
sbin/start-yarn.sh
4. 集群初步使用
1 查看集群狀態
命令: hdfs dfsadmin –report
也可打開web控制臺查看HDFS集群信息,在瀏覽器打開http://hdp-node:50070/
2 上傳文件到HDFS
查看HDFS中的目錄信息
命令: hadoop fs –ls /
上傳文件
命令: hadoop fs -put ./ scala-2.10.6.tgz to /
從HDFS下載文件
命令:hadoop fs -get /
四,HDFS
1.設計思想
分而治之:將大文件、大批量文件,分布式存放在大量服務器上,以便于采取分而治之的方式對海量數據進行運算分析;
在大數據系統中作用:
為各類分布式運算框架(如:mapreduce,spark,tez,……)提供數據存儲服務
重點概念:文件切塊,副本存放,元數據
2. HDFS的概念和特性
首先,它是一個文件系統,用于存儲文件,通過統一的命名空間——目錄樹來定位文件
其次,它是分布式的,由很多服務器聯合起來實現其功能,集群中的服務器有各自的角色;
重要特性如下:
HDFS中的文件在物理上是分塊存儲(block),塊的大小可以通過配置參數( )來規定,默認大小在版本中是128M,老版本中是64M
HDFS文件系統會給客戶端提供一個統一的抽象目錄樹,客戶端通過路徑來訪問文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/
目錄結構及文件分塊信息(元數據)的管理由namenode節點承擔——namenode是HDFS集群主節點,負責維護整個hdfs文件系統的目錄樹,以及每一個路徑(文件)所對應的block塊信息(block的id,及所在的datanode服務器)
文件的各個block的存儲管理由datanode節點承擔---- datanode是HDFS集群從節點,每一個block都可以在多個datanode上存儲多個副本(副本數量也可以通過參數設置)
HDFS是設計成適應一次寫入,多次讀出的場景,且不支持文件的修改
(注:適合用來做數據分析,并不適合用來做網盤應用,因為,不便修改,延遲大,網絡開銷大,成本太高)
五 ,MapReduce
Mapreduce是一個分布式運算程序的編程框架,是用戶開發“基于hadoop的數據分析應用”的核心框架;
Mapreduce核心功能是將用戶編寫的業務邏輯代碼和自帶默認組件整合成一個完整的分布式運算程序,并發運行在一個hadoop集群上;
六 ,yarn
Yarn是一個資源調度平臺,負責為運算程序提供服務器運算資源,相當于一個分布式的操作系統平臺,而mapreduce等運算程序則相當于運行于操作系統之上的應用程序
yarn的重要概念:
返回搜狐,查看更多
責任編輯:
總結
以上是生活随笔為你收集整理的Hadoop 中zoo_0基础如何入门HADOOP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新凯美瑞怎么了凯美瑞 新
- 下一篇: Typora markdown公式换行等