日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop框架:DataNode工作机制详解

發布時間:2025/3/17 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop框架:DataNode工作机制详解 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文源碼:GitHub·點這里 || GitEE·點這里

一、工作機制

1、基礎描述

DataNode上數據塊以文件形式存儲在磁盤上,包括兩個文件,一個是數據本身,一個是數據塊元數據包括長度、校驗、時間戳;

DataNode啟動后向NameNode服務注冊,并周期性的向NameNode上報所有的數據塊元數據信息;

DataNode與NameNode之間存在心跳機制,每3秒一次,返回結果帶有NameNode給該DataNode的執行命令,例如數據復制刪除等,如果超過10分鐘沒有收到DataNode的心跳,則認為該節點不可用。

2、自定義時長

通過hdfs-site.xml配置文件,修改超時時長和心跳,其中中的heartbeat.recheck.interval的單位為毫秒,dfs.heartbeat.interval的單位為秒。

<property><name>dfs.namenode.heartbeat.recheck-interval</name><value>600000</value> </property> <property><name>dfs.heartbeat.interval</name><value>6</value> </property>

3、新節點上線

當前機器的節點為hop01、hop02、hop03,在此基礎上新增節點hop04。

基本步驟

基于當前一個服務節點克隆得到hop04環境;

修改Centos7相關基礎配置,并刪除data和log文件;

啟動DataNode,即可關聯到集群;

4、多目錄配置

該配置同步集群下服務,格式化啟動hdfs及yarn,上傳文件測試。

<property><name>dfs.datanode.data.dir</name><value>file:///${hadoop.tmp.dir}/dfs/data01,file:///${hadoop.tmp.dir}/dfs/data02</value> </property>

二、黑白名單配置

1、白名單設置

配置白名單,該配置分發到集群服務下;

[root@hop01 hadoop]# pwd /opt/hadoop2.7/etc/hadoop [root@hop01 hadoop]# vim dfs.hosts hop01 hop02 hop03

配置hdfs-site.xml,該配置分發到集群服務下;

<property><name>dfs.hosts</name><value>/opt/hadoop2.7/etc/hadoop/dfs.hosts</value> </property>

刷新NameNode

[root@hop01 hadoop2.7]# hdfs dfsadmin -refreshNodes

刷新ResourceManager

[root@hop01 hadoop2.7]# yarn rmadmin -refreshNodes

2、黑名單設置

配置黑名單,該配置分發到集群服務下;

[root@hop01 hadoop]# pwd /opt/hadoop2.7/etc/hadoop [root@hop01 hadoop]# vim dfs.hosts.exclude hop04

配置hdfs-site.xml,該配置分發到集群服務下;

<property><name>dfs.hosts.exclude</name><value>/opt/hadoop2.7/etc/hadoop/dfs.hosts.exclude</value> </property>

刷新NameNode

[root@hop01 hadoop2.7]# hdfs dfsadmin -refreshNodes

刷新ResourceManager

[root@hop01 hadoop2.7]# yarn rmadmin -refreshNodes

三、文件存檔

1、基礎描述

HDFS存儲的特點,適合海量數據的大文件,如果每個文件都很小,會產生大量的元數據信息,占用過多的內存,并且在NaemNode和DataNode交互的時候變的緩慢。

HDFS可以對一些小的文件進行歸檔存儲,這里可以理解為壓縮存儲,即減少NameNode的消耗,也較少交互的負擔,同時還允許對歸檔的小文件訪問,提高整體的效率。

2、操作流程

創建兩個目錄

# 存放小文件 [root@hop01 hadoop2.7]# hadoop fs -mkdir -p /hopdir/harinput # 存放歸檔文件 [root@hop01 hadoop2.7]# hadoop fs -mkdir -p /hopdir/haroutput

上傳測試文件

[root@hop01 hadoop2.7]# hadoop fs -moveFromLocal LICENSE.txt /hopdir/harinput [root@hop01 hadoop2.7]# hadoop fs -moveFromLocal README.txt /hopdir/harinput

歸檔操作

[root@hop01 hadoop2.7]# bin/hadoop archive -archiveName output.har -p /hopdir/harinput /hopdir/haroutput

查看歸檔文件

[root@hop01 hadoop2.7]# hadoop fs -lsr har:///hopdir/haroutput/output.har

這樣就可以把原來的那些小文件塊刪除即可。

解除歸檔文件

# 執行解除 [root@hop01 hadoop2.7]# hadoop fs -cp har:///hopdir/haroutput/output.har/* /hopdir/haroutput # 查看文件 [root@hop01 hadoop2.7]# hadoop fs -ls /hopdir/haroutput

四、回收站機制

1、基礎描述

如果開啟回收站功能,被刪除的文件在指定的時間內,可以執行恢復操作,防止數據被誤刪除情況。HDFS內部的具體實現就是在NameNode中啟動一個后臺線程Emptier,這個線程專門管理和監控系統回收站下面的文件,對于放進回收站的文件且超過生命周期,就會自動刪除。

2、開啟配置

該配置需要同步到集群下的所有服務;

[root@hop01 hadoop]# vim /opt/hadoop2.7/etc/hadoop/core-site.xml # 添加內容 <property><name>fs.trash.interval</name><value>1</value> </property>

fs.trash.interval=0,表示禁用回收站機制,=1表示開啟。

五、源代碼地址

GitHub·地址 https://github.com/cicadasmile/big-data-parent GitEE·地址 https://gitee.com/cicadasmile/big-data-parent

推薦閱讀:編程體系整理

序號項目名稱GitHub地址GitEE地址推薦指數
01Java描述設計模式,算法,數據結構GitHub·點這里GitEE·點這里☆☆☆☆☆
02Java基礎、并發、面向對象、Web開發GitHub·點這里GitEE·點這里☆☆☆☆
03SpringCloud微服務基礎組件案例詳解GitHub·點這里GitEE·點這里☆☆☆
04SpringCloud微服務架構實戰綜合案例GitHub·點這里GitEE·點這里☆☆☆☆☆
05SpringBoot框架基礎應用入門到進階GitHub·點這里GitEE·點這里☆☆☆☆
06SpringBoot框架整合開發常用中間件GitHub·點這里GitEE·點這里☆☆☆☆☆
07數據管理、分布式、架構設計基礎案例GitHub·點這里GitEE·點這里☆☆☆☆☆
08大數據系列、存儲、組件、計算等框架GitHub·點這里GitEE·點這里☆☆☆☆☆

總結

以上是生活随笔為你收集整理的Hadoop框架:DataNode工作机制详解的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。