當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

HDFS数据的写入过程

發布時間：2024/4/13 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 HDFS数据的写入过程小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

HDFS 文件寫入過程

Client 發起文件上傳請求, 通過 RPC 與 NameNode 建立通訊, NameNode 檢查目標文件是否已存在, 父目錄是否存在, 返回是否可以上傳

Client 請求第一個 block 該傳輸到哪些 DataNode 服務器上

NameNode 根據配置文件中指定的備份數量及機架感知原理進行文件分配, 返回可用的 DataNode 的地址如: A, B, C

Hadoop 在設計時考慮到數據的安全與高效, 數據文件默認在 HDFS 上存放三份, 存儲策略為本地一份, 同機架內其它某一節點上一份, 不同機架的某一節點上一份。

Client 請求 3 臺 DataNode 中的一臺 A 上傳數據（本質上是一個 RPC 調用，建立 pipeline ）, A 收到請求會繼續調用 B, 然后 B 調用 C, 將整個 pipeline 建立完成, 后逐級返回 client

Client 開始往 A 上傳第一個 block（先從磁盤讀取數據放到一個本地內存緩存）, 以 packet 為單位（默認64K）, A 收到一個 packet 就會傳給 B, B 傳給 C. A 每傳一個 packet 會放入一個應答隊列等待應答

數據被分割成一個個 packet 數據包在 pipeline 上依次傳輸, 在 pipeline 反方向上, 逐個發送 ack（命令正確應答）, 最終由 pipeline 中第一個 DataNode 節點 A 將 pipelineack 發送給 Client

當一個 block 傳輸完成之后, Client 再次請求 NameNode 上傳第二個 block 到服務 1

HDFS 文件讀取過程

Client向NameNode發起RPC請求，來確定請求文件block所在的位置；

NameNode會視情況返回文件的部分或者全部block列表，對于每個block，NameNode 都會返回含有該 block 副本的 DataNode 地址；這些返回的 DN 地址，會按照集群拓撲結構得出 DataNode 與客戶端的距離，然后進行排序，排序兩個規則：網絡拓撲結構中距離 Client 近的排靠前；心跳機制中超時匯報的 DN 狀態為 STALE，這樣的排靠后；

Client 選取排序靠前的 DataNode 來讀取 block，如果客戶端本身就是DataNode,那么將從本地直接獲取數據(短路讀取特性)；

底層上本質是建立 Socket Stream（FSDataInputStream），重復的調用父類 DataInputStream 的 read 方法，直到這個塊上的數據讀取完畢；

當讀完列表的 block 后，若文件讀取還沒有結束，客戶端會繼續向NameNode 獲取下一批的 block 列表；

讀取完一個 block 都會進行 checksum 驗證，如果讀取 DataNode 時出現錯誤，客戶端會通知 NameNode，然后再從下一個擁有該 block 副本的DataNode 繼續讀。

read 方法是并行的讀取 block 信息，不是一塊一塊的讀取；NameNode 只是返回Client請求包含塊的DataNode地址，并不是返回請求塊的數據；

最終讀取來所有的 block 會合并成一個完整的最終文件。

總結

以上是生活随笔為你收集整理的HDFS数据的写入过程的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： HDFS的Secondarynameno
下一篇： HDFS的API操作-获取FileSys