日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

line和spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)

發布時間:2023/12/3 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 line和spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

line和spline

最近引起我注意的一個有趣且很有希望的開源項目是Spline ,它是由Absa維護的Apache Spark數據沿襲跟蹤和可視化工具。 該項目由兩部分組成:一個在驅動程序上工作的Scala庫,該庫通過分析Spark執行計劃來捕獲數據沿襲,以及一個Web應用程序,該應用程序提供了一個可視化它們的UI。

Spline支持MongoDB和HDFS作為JSON格式的數據沿襲的存儲系統。 在這篇文章中,我指的是MongoDB。

您可以通過Spark外殼開始使用Spline。 只需將必需的依賴項添加到shell類路徑中,如下所示(參考該項目的最新0.3.5版本):

spark-shell --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5"

在Ubuntu和其他Linux發行版上使用上述命令運行Spark shell,是否應該出現有關下載Joda Time庫(Spline組件之一的傳遞依賴性)的問題,請刪除.ivy1和.m2隱藏子目錄執行了spark-shell命令的目錄,然后重新運行它。

假設您已啟動并運行Mongo服務器,并且已經為Spline創建了一個空數據庫,那么在Spark Shell中需要做的第一件事是指定要使用的持久性工廠類,然后指定連接字符串和數據庫名稱:

System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", "mongodb://<username>:<password>@<server_name_or_ip>:<port>")
System.setProperty("spline.mongodb.name", "<database_name>")

現在,您可以啟用樣條線數據沿襲跟蹤:

import za.co.absa.spline.core.SparkLineageInitializer._
spark.enableLineageTracking()

然后開始做一些涉及數據的事情:

val employeesJson =
spark.read.json("/home/guglielmo/spark-2.3.2-bin-hadoop2.7/examples/src/main/resources/employees.json")

import spark.implicits._val employeeNames = employeesJson.select(employeesJson("name")) employeeNames.write.parquet("/home/guglielmo/spline/example/employee_names")

是否應該發生以下異常:

com.mongodb.MongoCommandException: Command failed with error 9: 'The 'cursor' option is required, except for aggregate with the explain argument' on server localhost:27017. The full response is { "ok" : 0.0, "errmsg" : "The 'cursor' option is required, except for aggregate with the explain argument", "code" : 9, "codeName" : "FailedToParse" }

那么您必須將MongoDB Java驅動程序依賴項更新到任何3.6+版本(可以通過在運行Windows Server 2003時簡單地將其添加到軟件包列表中來完成)
spark-shell命令)。

啟動Spline Web應用程序:

java -jar spline-web-0.3.5-exec-war.jar -Dspline.mongodb.url=mongodb://<username>:<password>@<server_name_or_ip>:<port> -Dspline.mongodb.name=<database_name>?

您可以在Web UI中查看捕獲的數據沿襲(默認監聽端口為8080):

這只是一個開始。 在本系列的第2部分中,我們將深入探討Spline。

翻譯自: https://www.javacodegeeks.com/2018/12/spline-data-trackervisualization-spark.html

line和spline

總結

以上是生活随笔為你收集整理的line和spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。