日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > java >内容正文

java

hadoop大数据开发基础_Java大数据开发(三)Hadoop(2)经典的Hadoop

發布時間:2025/3/15 java 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hadoop大数据开发基础_Java大数据开发(三)Hadoop(2)经典的Hadoop 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
點擊藍字關注我

1

什么是大數據

1、Hadoop是一個由Apache基金會所開發的分布式系統基礎架構

2、主要解決,海量數據的存儲和海量數據的分析計算問題。

3、廣義上來說,HADOOP通常是指一個更廣泛的概念——HADOOP生態圈

2

大數據發展史

1、Lucene--Doug Cutting開創的開源軟件,用java書寫代碼,實現與Google類似的全文搜索功能,它提供了全文檢索引擎的架構,包括完整的查詢引擎和索引引擎

2、2001年年底成為apache基金會的一個子項目

3、對于大數量的場景,Lucene面對與Google同樣的困難

4、學習和模仿Google解決這些問題的辦法?:微型版Nutch

5、可以說Google是hadoop的思想之源

6、2003-2004年,Google公開了部分GFS和Mapreduce思想的細節,以此為基礎Doug Cutting等人用了2年業余時間實現了DFS和Mapreduce機制,使Nutch性能飆升

7、2005 年Hadoop 作為 Lucene的子項目 Nutch的一部分正式引入Apache基金會。2006 年 3 月份,Map-Reduce和Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項目中?

8、名字來源于Doug Cutting兒子的玩具大象

3

hadoop的優勢

1、高可靠性:因為Hadoop假設計算元素和存儲會出現故障,因為它維護多個工作數據副本,在出現故障時可以對失敗的節點重新分布處理。

2、高擴展性:在集群間分配任務數據,可方便的擴展數以千計的節點。

3、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任務處理速度。

4、高容錯性:自動保存多份副本數據,并且能夠自動將失敗的任務重新分配。

4

hadoop組成部分

1、Hadoop HDFS:一個高可靠、高吞吐量的分布式文件系統。

2、Hadoop MapReduce:一個分布式的離線并行計算框架。

3、Hadoop YARN:作業調度與集群資源管理的框架。

4、Hadoop Common:支持其他模塊的工具模塊。

5

HDFS架構概述

1、NameNode(nn):存儲文件的元數據,如文件名,文件目錄結構,文件屬性(生成時間、副本數、文件權限),以及每個文件的塊列表和塊所在的DataNode等。

2、DataNode(dn):在本地文件系統存儲文件塊數據,以及塊數據的校驗和。

3、Secondary NameNode(2nn):用來監控HDFS狀態的輔助后臺程序,每隔一段時間獲取HDFS元數據的快照。

6

YARN架構概述

1、ResourceManager(rm):處理客戶端請求、啟動/監控ApplicationMaster、監控NodeManager、資源分配與調度。

2、NodeManager(nm):單個節點上的資源管理、處理來自ResourceManager的命令、處理來自ApplicationMaster的命令。

3、ApplicationMaster:數據切分、為應用程序申請資源,并分配給內部任務、任務監控與容錯。

4、Container:對任務運行環境的抽象,封裝了CPU、內存等多維資源以及環境變量、啟動命令等任務運行相關的信息。

7

MapReduce概述

MapReduce將計算過程分為兩個階段:Map和Reduce

1、Map階段并行處理輸入數據

2、Reduce階段對Map結果進行匯總

8

大數據生態體系

看了上邊的圖片,是不是感覺頭皮發麻,所以大數據指的并不是一個單獨的技術,而是一整套的解決方案,不過別急,我們上邊的技術,都會講到,慢慢學吧。

10

hadoop安裝

上傳hadooptar包,Alt+P 進入上傳窗口,執行上傳命令

sftp> put -r d:/hadoop-2.7.2.tar.gz

移動到opt下的soft目錄

[root@hadoop100 ~]# mv hadoop-2.7.2.tar.gz /opt/soft/

將壓縮文件解壓到opt/dev下

[root@hadoop100 soft]# tar -zxvf hadoop-2.7.2.tar.gz -C ../dev/

將hadoop添加到環境變量

①查看hadoop安裝目錄

[root@hadoop100 hadoop-2.7.2]# pwd/opt/dev/hadoop-2.7.2

②打開etc/profile文件

[root@hadoop100 hadoop-2.7.2]# vi /etc/profile

③添加環境變量,然后保存退出

##HADOOP_HOMEexport HADOOP_HOME=/opt/dev/hadoop-2.7.2export PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbin

④讓修改后的文件生效

[root@hadoop100 hadoop-2.7.2]# source /etc/profile

⑤執行hadoop命令,查看是否安裝成功

[root@hadoop100 hadoop-2.7.2]# hadoop

結果有內容,就代表安裝成功

[root@hadoop100 hadoop-2.7.2]# hadoopUsage: hadoop [--config confdir] [COMMAND | CLASSNAME] CLASSNAME run the class named CLASSNAME or where COMMAND is one of: fs run a generic filesystem user client version print the version jar run a jar file note: please use "yarn jar" to launch YARN applications, not this command. checknative [-a|-h] check native hadoop and compression libraries availability distcp copy file or directories recursively archive -archiveName NAME -p * create a hadoop archive classpath prints the class path needed to get the credential interact with credential providers Hadoop jar and the required libraries daemonlog get/set the log level for each daemon trace view and modify Hadoop tracing settingsMost commands print help when invoked w/o parameters.

hadoop目錄結構

[root@hadoop100 hadoop-2.7.2]# ll總用量 52drwxr-xr-x. 2 root root 4096 5月 22 2017 bindrwxr-xr-x. 3 root root 4096 5月 22 2017 etcdrwxr-xr-x. 2 root root 4096 5月 22 2017 includedrwxr-xr-x. 3 root root 4096 5月 22 2017 libdrwxr-xr-x. 2 root root 4096 5月 22 2017 libexec-rw-r--r--. 1 root root 15429 5月 22 2017 LICENSE.txt-rw-r--r--. 1 root root 101 5月 22 2017 NOTICE.txt-rw-r--r--. 1 root root 1366 5月 22 2017 README.txtdrwxr-xr-x. 2 root root 4096 5月 22 2017 sbindrwxr-xr-x. 4 root root 4096 5月 22 2017 share

(1)bin目錄:存放對Hadoop相關服務(HDFS,YARN)進行操作的腳本

(2)etc目錄:Hadoop的配置文件目錄,存放Hadoop的配置文件

(3)lib目錄:存放Hadoop的本地庫(對數據進行壓縮解壓縮功能)

(4)sbin目錄:存放啟動或停止Hadoop相關服務的腳本

(5)share目錄:存放Hadoop的依賴jar包、文檔、和官方案例

正式進入大數據處理學習了,開不開心,喜歡的話,點個關注,分享一下吧

總結

以上是生活随笔為你收集整理的hadoop大数据开发基础_Java大数据开发(三)Hadoop(2)经典的Hadoop的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。