日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop高速入门

發布時間:2025/7/14 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop高速入门 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hadoop高速入門

先決條件

支持平臺

  • GNU/Linux是產品開發和執行的平臺。

    Hadoop已在有2000個節點的GNU/Linux主機組成的集群系統上得到驗證。

  • Win32平臺是作為開發平臺支持的。因為分布式操作尚未在Win32平臺上充分測試,所以還不作為一個生產平臺被支持。

所需軟件

Linux和Windows所需軟件包含:

  • JavaTM1.5.x,必須安裝,建議選擇Sun公司發行的Java版本號。
  • ssh 必須安裝而且保證 sshd一直執行,以便用Hadoop 腳本管理遠端Hadoop守護進程。
  • Windows下的附加軟件需求

  • Cygwin - 提供上述軟件之外的shell支持。

  • 安裝軟件

    假設你的集群尚未安裝所需軟件,你得首先安裝它們。

    以Ubuntu Linux為例:

    $ sudo apt-get install ssh
    $ sudo apt-get install rsync

    在Windows平臺上,假設安裝cygwin時未安裝所有所需軟件,則需啟動cyqwin安裝管理器安裝例如以下軟件包:

    • openssh - Net 類

    下載

    為了獲取Hadoop的發行版。從Apache的某個鏡像server上下載近期的 穩定發行版。

    執行Hadoop集群的準備工作

    解壓所下載的Hadoop發行版。編輯 conf/hadoop-env.sh文件。至少須要將JAVA_HOME設置為Java安裝根路徑。

    嘗試例如以下命令:
    $ bin/hadoop
    將會顯示hadoop 腳本的使用文檔。

    如今你能夠用下面三種支持的模式中的一種啟動Hadoop集群:

    • 單機模式
    • 偽分布式模式
    • 全然分布式模式

    單機模式的操作方法

    默認情況下,Hadoop被配置成以非分布式模式執行的一個獨立Java進程。這對調試很有幫助。

    以下的實例將已解壓的 conf 文件夾拷貝作為輸入,查找并顯示匹配給定正則表達式的條目。

    輸出寫入到指定的output文件夾。


    $ mkdir input
    $ cp conf/*.xml input
    $ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
    $ cat output/*

    偽分布式模式的操作方法

    Hadoop能夠在單節點上以所謂的偽分布式模式執行,此時每個Hadoop守護進程都作為一個獨立的Java進程執行。

    配置

    使用例如以下的 conf/hadoop-site.xml:

    <configuration>
    ??<property>
    ????<name>fs.default.name</name>
    ????<value>localhost:9000</value>
    ??</property>
    ??<property>
    ????<name>mapred.job.tracker</name>
    ????<value>localhost:9001</value>
    ??</property>
    ??<property>
    ????<name>dfs.replication</name>
    ????<value>1</value>
    ??</property>
    </configuration>

    免passwordssh設置

    如今確認是否能不輸入口令就用ssh登錄localhost:
    $ ssh localhost

    假設不輸入口令就無法用ssh登陸localhost。運行以下的命令:
    $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
    $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

    運行

    格式化一個新的分布式文件系統:
    $ bin/hadoop namenode -format

    啟動Hadoop守護進程:
    $ bin/start-all.sh

    Hadoop守護進程的日志寫入到 ${HADOOP_LOG_DIR} 文件夾 (默認是 ${HADOOP_HOME}/logs).

    瀏覽NameNode和JobTracker的網絡接口,它們的地址默覺得:

    • NameNode - http://localhost:50070/
    • JobTracker - http://localhost:50030/

    將輸入文件復制到分布式文件系統:
    $ bin/hadoop fs -put conf input

    執行發行版提供的演示樣例程序:
    $ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

    查看輸出文件:

    將輸出文件從分布式文件系統復制到本地文件系統查看:
    $ bin/hadoop fs -get output output
    $ cat output/*

    或者

    在分布式文件系統上查看輸出文件:
    $ bin/hadoop fs -cat output/*

    完畢所有操作后,停止守護進程:
    $ bin/stop-all.sh

    全然分布式模式的操作方法

    關于搭建全然分布式模式的。有實際意義的集群的資料能夠在這里找到。


    參考資料:http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html

    總結

    以上是生活随笔為你收集整理的Hadoop高速入门的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。