當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop高速入门

發布時間：2025/7/14 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop高速入门小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hadoop高速入門

先決條件

支持平臺

GNU/Linux是產品開發和執行的平臺。
Hadoop已在有2000個節點的GNU/Linux主機組成的集群系統上得到驗證。
Win32平臺是作為開發平臺支持的。因為分布式操作尚未在Win32平臺上充分測試，所以還不作為一個生產平臺被支持。

所需軟件

Linux和Windows所需軟件包含:

Java^TM1.5.x，必須安裝，建議選擇Sun公司發行的Java版本號。

ssh 必須安裝而且保證 sshd一直執行，以便用Hadoop 腳本管理遠端Hadoop守護進程。

Windows下的附加軟件需求

Cygwin - 提供上述軟件之外的shell支持。

安裝軟件

假設你的集群尚未安裝所需軟件，你得首先安裝它們。

以Ubuntu Linux為例:

$ sudo apt-get install ssh
$ sudo apt-get install rsync

在Windows平臺上，假設安裝cygwin時未安裝所有所需軟件，則需啟動cyqwin安裝管理器安裝例如以下軟件包：

openssh - Net 類

下載

為了獲取Hadoop的發行版。從Apache的某個鏡像server上下載近期的穩定發行版。

執行Hadoop集群的準備工作

解壓所下載的Hadoop發行版。編輯 conf/hadoop-env.sh文件。至少須要將JAVA_HOME設置為Java安裝根路徑。

嘗試例如以下命令：
$ bin/hadoop
將會顯示hadoop 腳本的使用文檔。

如今你能夠用下面三種支持的模式中的一種啟動Hadoop集群：

單機模式
偽分布式模式
全然分布式模式

單機模式的操作方法

默認情況下，Hadoop被配置成以非分布式模式執行的一個獨立Java進程。這對調試很有幫助。

以下的實例將已解壓的 conf 文件夾拷貝作為輸入，查找并顯示匹配給定正則表達式的條目。

輸出寫入到指定的output文件夾。

$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ cat output/*

偽分布式模式的操作方法

Hadoop能夠在單節點上以所謂的偽分布式模式執行，此時每個Hadoop守護進程都作為一個獨立的Java進程執行。

配置

使用例如以下的 conf/hadoop-site.xml:

??<property>

????<name>fs.default.name</name>

????<value>localhost:9000</value>

??</property>

??<property>

????<name>mapred.job.tracker</name>

????<value>localhost:9001</value>

??</property>

??<property>

????<name>dfs.replication</name>

????<value>1</value>

??</property>

</configuration>

免passwordssh設置

如今確認是否能不輸入口令就用ssh登錄localhost:
$ ssh localhost

假設不輸入口令就無法用ssh登陸localhost。運行以下的命令：
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

運行

格式化一個新的分布式文件系統：
$ bin/hadoop namenode -format

啟動Hadoop守護進程：
$ bin/start-all.sh

Hadoop守護進程的日志寫入到 ${HADOOP_LOG_DIR} 文件夾 (默認是 ${HADOOP_HOME}/logs).

瀏覽NameNode和JobTracker的網絡接口，它們的地址默覺得：

NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/

將輸入文件復制到分布式文件系統：
$ bin/hadoop fs -put conf input

執行發行版提供的演示樣例程序：
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

查看輸出文件：

將輸出文件從分布式文件系統復制到本地文件系統查看：
$ bin/hadoop fs -get output output
$ cat output/*

或者

在分布式文件系統上查看輸出文件：
$ bin/hadoop fs -cat output/*

完畢所有操作后，停止守護進程：
$ bin/stop-all.sh

全然分布式模式的操作方法

關于搭建全然分布式模式的。有實際意義的集群的資料能夠在這里找到。

參考資料：http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html

總結

以上是生活随笔為你收集整理的Hadoop高速入门的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《JAVA与模式》之单例模式
下一篇： IBATIS + ORACLE（二）