當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

探索适用于Apache Spark的Spline Data Tracker和可视化工具（第2部分）

發布時間：2023/12/3 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了探索适用于Apache Spark的Spline Data Tracker和可视化工具（第2部分）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在第1部分中，我們學習了如何使用以下方法測試數據沿襲信息收集
Spark外殼中的花鍵。在任何Scala或Java Spark應用程序中都可以這樣做。需要在您選擇的構建工具（Maven，Gradle或sbt）中注冊與Spark Shell相同的依賴項：

groupId: za.co.absa.spline artifactId: spline-core version: 0.3.5 groupId: za.co.absa.spline artifactId: spline-persistence-mongo version:0.3.5 groupId: za.co.absa.spline artifactId:spline-core-spark-adapter-2.3 version:0.3.5

參考Scala和Spark 2.3.x，像這樣的Spark作業：

// Create the Spark session val sparkSession = SparkSession .builder() .appName("Spline Tester") .getOrCreate()// Init Spline System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory") System.setProperty("spline.mongodb.url", args(0)) System.setProperty("spline.mongodb.name", args(1)) import za.co.absa.spline.core.SparkLineageInitializer._ sparkSession.enableLineageTracking()//Do something with DataFrames import sparkSession.sqlContext.implicits._ val df1 = sparkSession.sparkContext.parallelize(1 to 10000, 42).toDF("FirstValue") val df2 = sparkSession.sparkContext.parallelize(1.to(100000, 17), 42).toDF("SecondValue")val output = df1.crossJoin(df2).where('FirstValue % 42 === 'SecondValue % 42)// Write results to file system output.write.format("parquet").save("splinetester.parquet")// Stop the Spark Session sparkSession.stop()

可以通過以下方式提交到Spark集群：

$SPARK_HOME/bin/spark-submit --class org.googlielmo.splinetest.SplineExample --master <url> --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5" splinetest-1.0.jar mongodb://<username>:<password>@<hostname>:<port> <dbname>

樣條線配置屬性也可以存儲到應用程序類路徑中的屬性文件中。這是可用的樣條曲線屬性的完整列表：

spline.mode ：3個可能的值， BEST_EFFORT （默認）， DISABLED ， REQUIRED 。如果為BEST_EFFORT，則Spline會嘗試初始化自身，但如果失敗，它將切換為DISABLED模式，這樣Spark應用程序可以正常進行而沒有沿襲跟蹤。如果禁用，則根本不會發生沿襲跟蹤。如果需要，則Spline是否因任何原因而無法初始化自身，Spark應用程序將中止并顯示錯誤。
spline.persistence.factory ：可以是za.co.absa.spline.persistence.mongo.MongoPersistenceFactory （用于對MongoDB的持久性）或za.co.absa.spline.persistence.hdfs.HdfsPersistenceFactory （用于對HDFS的持久性）。
spline.mongodb.url ：MongoDB連接字符串（僅適用于MongoDB持久性）。
spline.mongodb.name：MongoDB數據庫名稱（僅適用于MongoDB持久性）。
spline.persistence.composition.factories ：以逗號分隔的要委托的工廠列表（僅對于成分工廠而言）。

第一次從Spark作業啟用Spline時，它將在目標MongoDB數據庫中創建6個集合：

- attributes_v4 ：有關所涉及的Spark數據集的屬性的信息。

Spline Web應用程序使用這6個集合中的文檔來生成UI中沿襲的視覺表示。

在本系列的第三部分和最后一部分中，我將分享在Spark預生產環境中采用該項目的最初幾周后的結果。

翻譯自: https://www.javacodegeeks.com/2018/12/spline-tracker-visualization-tool-spark.html

總結

以上是生活随笔為你收集整理的探索适用于Apache Spark的Spline Data Tracker和可视化工具（第2部分）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：安卓测试模式指令（安卓测试模式）
下一篇：探索适用于Apache Spark的Sp