當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop命令手册

發布時間：2025/3/21 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop命令手册小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hadoop命令手冊

??? 概述
??????? 常規選項
??? 用戶命令
??????? archive
??????? distcp
??????? fs
??????? fsck
??????? jar
??????? job
??????? pipes
??????? version
??????? CLASSNAME
??? 管理命令
??????? balancer
??????? daemonlog
??????? datanode
??????? dfsadmin
??????? jobtracker
??????? namenode
??????? secondarynamenode
??????? tasktracker

概述

所有的hadoop命令均由bin/hadoop腳本引發。不指定參數運行hadoop腳本會打印所有命令的描述。

用法：hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]

Hadoop有一個選項解析框架用于解析一般的選項和運行類。

命令選項描述

--config confdir	覆蓋缺省配置目錄。缺省是${HADOOP_HOME}/conf。
GENERIC_OPTIONS	多個命令都支持的通用選項。
COMMAND 命令選項S	各種各樣的命令和它們的選項會在下面提到。這些命令被分為用戶命令管理命令兩組。

常規選項

下面的選項被 dfsadmin, fs, fsck和 job支持。應用程序要實現 Tool來支持常規選項。

GENERIC_OPTION描述

-conf <configuration file>	指定應用程序的配置文件。
-D <property=value>	為指定property指定值value。
-fs <local\|namenode:port>	指定namenode。
-jt <local\|jobtracker:port>	指定job tracker。只適用于job。
-files <逗號分隔的文件列表>	指定要拷貝到map reduce集群的文件的逗號分隔的列表。只適用于job。
-libjars <逗號分隔的jar列表>	指定要包含到classpath中的jar文件的逗號分隔的列表。只適用于job。
-archives <逗號分隔的archive列表>	指定要被解壓到計算節點上的檔案文件的逗號分割的列表。只適用于job。

用戶命令

hadoop集群用戶的常用命令。

distcp

遞歸地拷貝文件或目錄。參考DistCp指南以獲取等多信息。

用法：hadoop distcp <srcurl> <desturl>

命令選項描述

srcurl	源Url
desturl	目標Url

fs

用法：hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]

運行一個常規的文件系統客戶端。

各種命令選項可以參考HDFS Shell指南。

fsck

運行HDFS文件系統檢查工具。參考Fsck了解更多。

用法：hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

命令選項描述

<path>	檢查的起始目錄。
-move	移動受損文件到/lost+found
-delete	刪除受損文件。
-openforwrite	打印出寫打開的文件。
-files	打印出正被檢查的文件。
-blocks	打印出塊信息報告。
-locations	打印出每個塊的位置信息。
-racks	打印出data-node的網絡拓撲結構。

jar

運行jar文件。用戶可以把他們的Map Reduce代碼捆綁到jar文件中，使用這個命令執行。

用法：hadoop jar <jar> [mainClass] args...

streaming作業是通過這個命令執行的。參考Streaming examples中的例子。

Word count例子也是通過jar命令運行的。參考Wordcount example。

job

用于和Map Reduce作業交互和命令。

命令選項描述

-submit <job-file>	提交作業
-status <job-id>	打印map和reduce完成百分比和所有計數器。
-counter <job-id> <group-name> <counter-name>	打印計數器的值。
-kill <job-id>	殺死指定作業。
-events <job-id> <from-event-#> <#-of-events>	打印給定范圍內jobtracker接收到的事件細節。
-history [all] <jobOutputDir>	-history <jobOutputDir> 打印作業的細節、失敗及被殺死原因的細節。更多的關于一個作業的細節比如成功的任務，做過的任務嘗試等信息可以通過指定[all]選項查看。
-list [all]	-list all顯示所有作業。-list只顯示將要完成的作業。
-kill-task <task-id>	殺死任務。被殺死的任務不會不利于失敗嘗試。
-fail-task <task-id>	使任務失敗。被失敗的任務會對失敗嘗試不利。

pipes

運行pipes作業。

用法：hadoop pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] [-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduces <num>]

命令選項描述

-conf <path>	作業的配置
-jobconf <key=value>, <key=value>, ...	增加/覆蓋作業的配置項
-input <path>	輸入目錄
-output <path>	輸出目錄
-jar <jar file>	Jar文件名
-inputformat <class>	InputFormat類
-map <class>	Java Map類
-partitioner <class>	Java Partitioner
-reduce <class>	Java Reduce類
-writer <class>	Java RecordWriter
-program <executable>	可執行程序的URI
-reduces <num>	reduce個數

version

打印版本信息。

用法：hadoop version

CLASSNAME

hadoop腳本可用于調調用任何類。

用法：hadoop CLASSNAME

運行名字為CLASSNAME的類。

管理命令

hadoop集群管理員常用的命令。

balancer

運行集群平衡工具。管理員可以簡單的按Ctrl-C來停止平衡過程。參考Rebalancer了解更多。

用法：hadoop balancer [-threshold <threshold>]

命令選項描述

-threshold <threshold>

磁盤容量的百分比。這會覆蓋缺省的閥值。

daemonlog

獲取或設置每個守護進程的日志級別。

用法：hadoop daemonlog -getlevel <host:port> <name>
用法：hadoop daemonlog -setlevel <host:port> <name> <level>

命令選項描述

-getlevel <host:port> <name>	打印運行在<host:port>的守護進程的日志級別。這個命令內部會連接http://<host:port>/logLevel?log=<name>
-setlevel <host:port> <name> <level>	設置運行在<host:port>的守護進程的日志級別。這個命令內部會連接http://<host:port>/logLevel?log=<name>

datanode

運行一個HDFS的datanode。

用法：hadoop datanode [-rollback]

命令選項描述

-rollback

將datanode回滾到前一個版本。這需要在停止datanode，分發老的hadoop版本之后使用。

dfsadmin

運行一個HDFS的dfsadmin客戶端。

用法：hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode enter | leave | get | wait] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress status | details | force] [-metasave filename] [-setQuota <quota> <dirname>...<dirname>] [-clrQuota <dirname>...<dirname>] [-help [cmd]]

命令選項描述

-report	報告文件系統的基本信息和統計信息。
-safemode enter \| leave \| get \| wait	安全模式維護命令。安全模式是Namenode的一個狀態，這種狀態下，Namenode 1. 不接受對名字空間的更改(只讀) 2. 不復制或刪除塊 Namenode會在啟動時自動進入安全模式，當配置的塊最小百分比數滿足最小的副本數條件時，會自動離開安全模式。安全模式可以手動進入，但是這樣的話也必須手動關閉安全模式。
-refreshNodes	重新讀取hosts和exclude文件，更新允許連到Namenode的或那些需要退出或入編的Datanode的集合。
-finalizeUpgrade	終結HDFS的升級操作。Datanode刪除前一個版本的工作目錄，之后Namenode也這樣做。這個操作完結整個升級過程。
-upgradeProgress status \| details \| force	請求當前系統的升級狀態，狀態的細節，或者強制升級操作進行。
-metasave filename	保存Namenode的主要數據結構到hadoop.log.dir屬性指定的目錄下的<filename>文件。對于下面的每一項，<filename>中都會一行內容與之對應 1. Namenode收到的Datanode的心跳信號 2. 等待被復制的塊 3. 正在被復制的塊 4. 等待被刪除的塊
-setQuota <quota> <dirname>...<dirname>	為每個目錄 <dirname>設定配額<quota>。目錄配額是一個長整型整數，強制限定了目錄樹下的名字個數。命令會在這個目錄上工作良好，以下情況會報錯： 1. N不是一個正整數，或者 2. 用戶不是管理員，或者 3. 這個目錄不存在或是文件，或者 4. 目錄會馬上超出新設定的配額。
-clrQuota <dirname>...<dirname>	為每一個目錄<dirname>清除配額設定。命令會在這個目錄上工作良好，以下情況會報錯： 1. 這個目錄不存在或是文件，或者 2. 用戶不是管理員。如果目錄原來沒有配額不會報錯。
-help [cmd]	顯示給定命令的幫助信息，如果沒有給定命令，則顯示所有命令的幫助信息。

jobtracker

運行MapReduce job Tracker節點。

用法：hadoop jobtracker

namenode

運行namenode。有關升級，回滾，升級終結的更多信息請參考升級和回滾。

用法：hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]

命令選項描述

-format	格式化namenode。它啟動namenode，格式化namenode，之后關閉namenode。
-upgrade	分發新版本的hadoop后，namenode應以upgrade選項啟動。
-rollback	將namenode回滾到前一版本。這個選項要在停止集群，分發老的hadoop版本后使用。
-finalize	finalize會刪除文件系統的前一狀態。最近的升級會被持久化，rollback選項將再不可用，升級終結操作之后，它會停掉namenode。
-importCheckpoint	從檢查點目錄裝載鏡像并保存到當前檢查點目錄，檢查點目錄由fs.checkpoint.dir指定。

secondarynamenode

運行HDFS的secondary namenode。參考Secondary Namenode了解更多。

用法：hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]

命令選項描述

-checkpoint [force]	如果EditLog的大小 >= fs.checkpoint.size，啟動Secondary namenode的檢查點過程。如果使用了-force，將不考慮EditLog的大小。
-geteditsize	打印EditLog大小。

tasktracker

運行MapReduce的task Tracker節點。

用法：hadoop tasktracker

出處：http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html

總結

以上是生活随笔為你收集整理的Hadoop命令手册的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Machine Learning wee
下一篇： Hadoop Shell命令

-archiveName NAME	要創建的檔案的名字。
src	文件系統的路徑名，和通常含正則表達的一樣。
dest	保存檔案文件的目標目錄。

编程问答

Hadoop命令手册

Hadoop命令手冊

概述

常規選項

用戶命令

archive

distcp

fs

fsck

jar

job

pipes

version

CLASSNAME

管理命令

balancer

daemonlog

datanode

dfsadmin

jobtracker

namenode

secondarynamenode

tasktracker

總結