python spark hadoop_使用Scala或Python列出存储在Hadoop HDFS上的Spark群集中可用的所有文件?...
列出Spark中本地可用的所有文件名的最有效方法是什么?我正在使用Scala API,但是,Python也應該沒問題。
解決方案
import org.apache.hadoop.fs。{FileSystem,FileUtil,Path}
import scala.collection.mutable.Stack
$ b $ val fs = FileSystem.get(sc.hadoopConfiguration)
var dirs = Stack [String]()
val files = scala.collection.mutable.ListBuffer.empty [String]
val fs = FileSystem.get(sc.hadoopConfiguration)
dirs.push("/ user / username /")
while(!dirs.isEmpty){
val status = fs.listStatus(new Path(dirs.pop()))
status.foreach(x => if(x .isDirectory)dirs.push(x.getPath.toString)else
files + = x.getPath.toString)
}
files.foreach(println)
< / code>
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的python spark hadoop_使用Scala或Python列出存储在Hadoop HDFS上的Spark群集中可用的所有文件?...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 服务器绑定域名可修改吗,云服务器可以绑定
- 下一篇: websocket python爬虫_p