當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop文件的基本操作

發布時間：2024/1/23 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop文件的基本操作小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hadoop提供了大量的API對文件系統中的文件進行操作，主要包括：

（1)讀取文件

（2)寫文件

（3)讀取文件屬性

（4)列出文件

（5)刪除文件

1､讀取文件

以下示例中，將hdfs中的一個文件讀取出來，并輸出到標準輸出流中。

package org.jediael.hadoopdemo.fsdemo;import java.io.IOException; import java.net.URI;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils;public class FileSystemDoubleCat {public static void main(String[] args) throws IOException {String fileName = args[0];Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(fileName), conf);FSDataInputStream in = null;try {in = fs.open(new Path(fileName));IOUtils.copyBytes(in, System.out, 4096, false);in.seek(0);IOUtils.copyBytes(in, System.out, 4096, false);} finally {in.close();}}} （1)其中FSDataInputStream實現了Seekable接口，可以對文件進行隨機定位，但注意，seek()的代價較高，如無必要，盡量少使用。

2､文件復制

package org.jediael.hadoopdemo.fsdemo;import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils;public class FileCopy {public static void main(String[] args) throws IOException {String sourceFile = args[0];String destFile = args[1];InputStream in = null;OutputStream out = null;try {//1､準備輸入流in = new BufferedInputStream(new FileInputStream(sourceFile));//2､準備輸出流Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(destFile), conf);out = fs.create(new Path(destFile));//3､復制IOUtils.copyBytes(in, out, 4096, false);} finally {in.close();out.close();}}}

3、獲取文件屬性

文件屬性以FileStatus對象進行封裝，使用FileSystem對象的getFileStatus()方法，可以獲取到文件的FileStatus對象。

package org.jediael.hadoopdemo.fsdemo;import java.io.IOException; import java.net.URI;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path;public class FileStatusDemo {public static void main(String[] args) throws IOException {String fileName = args[0];Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(fileName), conf);//獲取FileSystem對象。FileStatus status = fs.getFileStatus(new Path(fileName));System.out.println(status.getOwner()+" "+status.getModificationTime());}}

4、列出某個目錄下的文件

使用FileSystem的ListStatus方法，可以獲取到某個目錄下所有文件的FileStatus對象。

package org.jediael.hadoopdemo.fsdemo;import java.io.IOException; import java.net.URI;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileUtil; import org.apache.hadoop.fs.Path;public class ListStatusDemo {public static void main(String[] args) throws IOException {String dir = args[0];Configuration conf = new Configuration();FileSystem fs = FileSystem.get(URI.create(dir), conf);FileStatus[] stats = fs.listStatus(new Path(dir));Path[] paths = FileUtil.stat2Paths(stats);for(Path path : paths){System.out.println(path);}}}

總結

以上是生活随笔為你收集整理的Hadoop文件的基本操作的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：安装hadoop1.2.1集群环境
下一篇：在Eclipse中运行hadoop程序