當前位置：首頁 > 编程语言 > python >内容正文

python

python spark hadoop_使用Scala或Python列出存储在Hadoop HDFS上的Spark群集中可用的所有文件？...

發布時間：2025/3/15 python 18 豆豆

生活随笔收集整理的這篇文章主要介紹了 python spark hadoop_使用Scala或Python列出存储在Hadoop HDFS上的Spark群集中可用的所有文件？... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

列出Spark中本地可用的所有文件名的最有效方法是什么？我正在使用Scala API，但是，Python也應該沒問題。

解決方案

import org.apache.hadoop.fs。{FileSystem，FileUtil，Path}

import scala.collection.mutable.Stack

$ b $ val fs = FileSystem.get(sc.hadoopConfiguration)

var dirs = Stack [String]()

val files = scala.collection.mutable.ListBuffer.empty [String]

val fs = FileSystem.get(sc.hadoopConfiguration)

dirs.push("/ user / username /")

while(！dirs.isEmpty){

val status = fs.listStatus(new Path(dirs.pop()))

status.foreach(x => if(x .isDirectory)dirs.push(x.getPath.toString)else

files + = x.getPath.toString)

}

files.foreach(println)

< / code>

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。