HDFS--Hadoop分布式文件系统
生活随笔
收集整理的這篇文章主要介紹了
HDFS--Hadoop分布式文件系统
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
HDFS是什么
HDFS設計特性和概念
HDFS,全稱是Hadoop Distributed Filesystem,是一個分布式的文件系統,以流式數據訪問模式來存儲超大文件(一次寫入、多次讀取)。
HDFS具有如下設計特性:
(1)處理超大文件,指的是GB、TB、PB級別的文件。百度、淘寶都有PB級別的HDFS,百度應該有國內最大規模的HDFS,幾十PB。
(2)流式數據訪問,一次寫入,多次讀取,所處理的場景中,讀取整個數據的延遲比讀取第一條記錄的時間延遲重要。
(3)運行在普通商用PC即可,比如3萬級別的普通PC服務器(16-32G ECC內存,8-16核CPU)。
(4)是為高數據吞吐量優化的,以高時間延遲為代價。
(5)推薦處理大量小文件,由于namenode將文件系統的元數據存儲在內存中,故文件總數受制于namenode節點內存。根據經驗,一個文件/目錄/block大約占用150自己,所以億級別文件還可以,10億級別內存就不夠了。
(6)對于寫入,只能有一個寫入操作,也只能把內容添加在文件的末尾。
總結
以上是生活随笔為你收集整理的HDFS--Hadoop分布式文件系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MapReduce编程实战之“初识”
- 下一篇: java信息管理系统总结_java实现科