日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop DistCp工具简介及其参数

發(fā)布時(shí)間:2024/7/5 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop DistCp工具简介及其参数 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 概述

??DistCp(分布式拷貝)是用于大規(guī)模集群內(nèi)部和集群之間拷貝的工具。 它使用Map/Reduce實(shí)現(xiàn)文件分發(fā),錯(cuò)誤處理和恢復(fù),以及報(bào)告生成。 它把文件和目錄的列表作為map任務(wù)的輸入,每個(gè)任務(wù)會完成源列表中部分文件的拷貝。官網(wǎng)地址:http://hadoop.apache.org/docs/r2.7.0/hadoop-distcp/DistCp.html

2 適合的場景及其有點(diǎn)

??適合場景:數(shù)據(jù)異地災(zāi);機(jī)房下線,數(shù)據(jù)遷移等。
??優(yōu)點(diǎn):①可以限制帶寬,使用bandwidth參數(shù)對distcp的每個(gè)map任務(wù)限流,同時(shí)控制map并發(fā)數(shù)量即可控制整個(gè)拷貝任務(wù)的帶寬,防止拷貝任務(wù)將帶寬打滿,影響其它業(yè)務(wù)。
??②支持overwrite(覆蓋寫,無條件覆蓋目標(biāo)文件,即使它們存在),update(增量寫,如果dest文件的名稱和大小與src文件不同,則覆蓋;若目的文件大小和名稱與源文件相同則跳過),delete(刪除寫,刪除dst中存在的文件,但在src中不存在)等多種源和目的校驗(yàn)的拷貝方式,大量數(shù)據(jù)的拷貝必然要做到數(shù)據(jù)拷貝過程中的校驗(yàn),來保證源和目的數(shù)據(jù)的一致性。

2 參數(shù)說明

??此參數(shù)為Hadoop2.x版本

# hadoop distcp usage: distcp OPTIONS [source_path...] <target_path>OPTIONS-append 重用目標(biāo)文件中的現(xiàn)有數(shù)據(jù),并在可能的情況下添加新數(shù)據(jù),新增進(jìn)去而不是覆蓋它-async 是否應(yīng)該阻塞distcp執(zhí)行-atomic 提交所有更改或不提交更改-bandwidth <arg> 以MB/second為單位指定每個(gè)map的帶寬-delete 刪除目標(biāo)文件中存在的文件,但在源文件中不存在,走HDFS垃圾回收站-diff <arg> 使用snapshot diff報(bào)告來標(biāo)識源和目標(biāo)之間的差異-f <arg> 需要復(fù)制的文件列表-filelimit <arg> (已棄用!)限制復(fù)制到<= n的文件數(shù)-filters <arg> 從復(fù)制的文件列表中排除-i 忽略復(fù)制過程中的失敗-log <arg> HDFS上的distcp執(zhí)行日志文件夾保存-m <arg> 限制同步啟動的map數(shù),默認(rèn)每個(gè)文件對應(yīng)一個(gè)map,每臺機(jī)器最多啟動20個(gè)map-mapredSslConf <arg> 配置ssl配置文件,用于hftps://-numListstatusThreads <arg> 用于構(gòu)建文件清單的線程數(shù)(最多40個(gè)),當(dāng)文件目錄結(jié)構(gòu)復(fù)雜時(shí)應(yīng)該適當(dāng)增大該值-overwrite 選擇無條件覆蓋目標(biāo)文件,即使它們存在。-p <arg> 保留源文件狀態(tài)(rbugpcaxt)(復(fù)制,塊大小,用戶,組,權(quán)限,校驗(yàn)和類型,ACL,XATTR,時(shí)間戳)-sizelimit <arg> (已棄用!)限制復(fù)制到<= n的文件數(shù)字節(jié)-skipcrccheck 是否跳過源和目標(biāo)路徑之間的CRC檢查。-strategy <arg> 選擇復(fù)制策略,默認(rèn)值uniformsize,每個(gè)map復(fù)制的文件總大小均衡;可以設(shè)置為dynamic,使更快的map復(fù)制更多的文件,以提高性能-tmp <arg> 要用于原子的中間工作路徑承諾-update 如果目標(biāo)文件的名稱和大小與源文件不同,則覆蓋;如果目標(biāo)文件大小和名稱與源文件相同則跳過

注意:如果設(shè)置了-overwrite或-update,則每個(gè)源URI和目標(biāo)URI保持同級一致,如

hadoop distcp -i -p hdfs://192.168.40.100:8020/user/hive/warehouse/iot.db/dwd_pollution_distcp hdfs://192.168.40.200:8020/user/hive/warehouse/iot.db/ hadoop distcp -i -update -delete -p hdfs://192.168.40.100:8020/user/hive/warehouse/iot.db/dwd_pollution_distcp hdfs://192.168.40.200:8020/user/hive/warehouse/iot.db/dwd_pollution_distcp

總結(jié)

以上是生活随笔為你收集整理的Hadoop DistCp工具简介及其参数的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。