日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分)

發布時間:2023/12/3 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在第1部分中,我們學習了如何使用以下方法測試數據沿襲信息收集
Spark外殼中的花鍵 。 在任何Scala或Java Spark應用程序中都可以這樣做。 需要在您選擇的構建工具(Maven,Gradle或sbt)中注冊與Spark Shell相同的依賴項:

groupId: za.co.absa.spline artifactId: spline-core version: 0.3.5 groupId: za.co.absa.spline artifactId: spline-persistence-mongo version:0.3.5 groupId: za.co.absa.spline artifactId:spline-core-spark-adapter-2.3 version:0.3.5

參考Scala和Spark 2.3.x,像這樣的Spark作業:

// Create the Spark session val sparkSession = SparkSession .builder() .appName("Spline Tester") .getOrCreate()// Init Spline System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory") System.setProperty("spline.mongodb.url", args(0)) System.setProperty("spline.mongodb.name", args(1)) import za.co.absa.spline.core.SparkLineageInitializer._ sparkSession.enableLineageTracking()//Do something with DataFrames import sparkSession.sqlContext.implicits._ val df1 = sparkSession.sparkContext.parallelize(1 to 10000, 42).toDF("FirstValue") val df2 = sparkSession.sparkContext.parallelize(1.to(100000, 17), 42).toDF("SecondValue")val output = df1.crossJoin(df2).where('FirstValue % 42 === 'SecondValue % 42)// Write results to file system output.write.format("parquet").save("splinetester.parquet")// Stop the Spark Session sparkSession.stop()

可以通過以下方式提交到Spark集群:

$SPARK_HOME/bin/spark-submit --class org.googlielmo.splinetest.SplineExample --master <url> --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5" splinetest-1.0.jar mongodb://<username>:<password>@<hostname>:<port> <dbname>

樣條線配置屬性也可以存儲到應用程序類路徑中的屬性文件中。 這是可用的樣條曲線屬性的完整列表:

  • spline.mode :3個可能的值, BEST_EFFORT (默認), DISABLED , REQUIRED 。 如果為BEST_EFFORT,則Spline會嘗試初始化自身,但如果失敗,它將切換為DISABLED模式,這樣Spark應用程序可以正常進行而沒有沿襲跟蹤。 如果禁用,則根本不會發生沿襲跟蹤。 如果需要,則Spline是否因任何原因而無法初始化自身,Spark應用程序將中止并顯示錯誤。
  • spline.persistence.factory :可以是za.co.absa.spline.persistence.mongo.MongoPersistenceFactory (用于對MongoDB的持久性)或za.co.absa.spline.persistence.hdfs.HdfsPersistenceFactory (用于對HDFS的持久性)。
  • spline.mongodb.url :MongoDB連接字符串(僅適用于MongoDB持久性)。
  • spline.mongodb.name:MongoDB數據庫名稱(僅適用于MongoDB持久性)。
  • spline.persistence.composition.factories :以逗號分隔的要委托的工廠列表(僅對于成分工廠而言)。

第一次從Spark作業啟用Spline時,它將在目標MongoDB數據庫中創建6個集合:

    • attributes_v4 :有關所涉及的Spark數據集的屬性的信息。

Spline Web應用程序使用這6個集合中的文檔來生成UI中沿襲的視覺表示。

在本系列的第三部分和最后一部分中,我將分享在Spark預生產環境中采用該項目的最初幾周后的結果。

翻譯自: https://www.javacodegeeks.com/2018/12/spline-tracker-visualization-tool-spark.html

總結

以上是生活随笔為你收集整理的探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。