日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

案例实操:Azkaban调度spark作业

發布時間:2025/1/21 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 案例实操:Azkaban调度spark作业 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

新建AccessLogDriverCluster類

package com.it19gong.clickproject;import java.sql.PreparedStatement; import java.util.ArrayList; import java.util.List;import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import org.apache.spark.api.java.function.VoidFunction; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.Row; import org.apache.spark.sql.RowFactory; import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.types.DataTypes; import org.apache.spark.sql.types.StructField; import org.apache.spark.sql.types.StructType;public class AccessLogDriverCluster {static DBHelper db1=null;public static void main(String[] args) throws Exception {// 創建SparkConf、JavaSparkContext、SQLContextSparkConf conf = new SparkConf() .setAppName("RDD2DataFrameProgrammatically"); JavaSparkContext sc = new JavaSparkContext(conf);SQLContext sqlContext = new SQLContext(sc);// 第一步,創建一個普通的RDD,但是,必須將其轉換為RDD<Row>的這種格式//獲取昨天時間JavaRDD<String> lines = sc.textFile("hdfs://node1/data/clickLog/2019/08/31");// 分析一下// 它報了一個,不能直接從String轉換為Integer的一個類型轉換的錯誤// 就說明什么,說明有個數據,給定義成了String類型,結果使用的時候,要用Integer類型來使用// 而且,錯誤報在sql相關的代碼中// 所以,基本可以斷定,就是說,在sql中,用到age<=18的語法,所以就強行就將age轉換為Integer來使用// 但是,肯定是之前有些步驟,將age定義為了String// 所以就往前找,就找到了這里// 往Row中塞數據的時候,要注意,什么格式的數據,就用什么格式轉換一下,再塞進去JavaRDD<Row> clickRDD = lines.map(new Function<String, Row>() {private static final long serialVersionUID = 1L;@Overridepublic Row call(String line) throws Exception {String itr[] = line.split(" ");String ip = itr[0];String date = AnalysisNginxTool.nginxDateStmpToDate(itr[3]);String url = itr[6];String upFlow = itr[9];return RowFactory.create(ip,date,url,Integer.valueOf(upFlow)); }});// 第二步,動態構造元數據// 比如說,id、name等,field的名稱和類型,可能都是在程序運行過程中,動態從mysql db里// 或者是配置文件中,加載出來的,是不固定的// 所以特別適合用這種編程的方式,來構造元數據List<StructField> structFields = new ArrayList<StructField>();structFields.add(DataTypes.createStructField("ip", DataTypes.StringType, true)); structFields.add(DataTypes.createStructField("date", DataTypes.StringType, true)); structFields.add(DataTypes.createStructField("url", DataTypes.StringType, true)); structFields.add(DataTypes.createStructField("upflow", DataTypes.IntegerType, true)); StructType structType = DataTypes.createStructType(structFields);// 第三步,使用動態構造的元數據,將RDD轉換為DataFrameDataFrame studentDF = sqlContext.createDataFrame(clickRDD, structType);// 后面,就可以使用DataFrame了studentDF.registerTempTable("log"); DataFrame sumFlowDF = sqlContext.sql("select ip,sum(upflow) as sum from log group by ip order by sum desc"); db1=new DBHelper();final String sql="insert into upflow(ip,sum) values(?,?) ";sumFlowDF.javaRDD().foreach(new VoidFunction<Row>() {@Overridepublic void call(Row t) throws Exception {// TODO Auto-generated method stubPreparedStatement pt = db1.conn.prepareStatement(sql);pt.setString(1,t.getString(0));pt.setString(2,String.valueOf(t.getLong(1)));pt.executeUpdate();}});;}}

打包

報錯

刪除apptest文件

再次打包

把打好的包拷貝出來

并且重命名

vim project.sh /opt/modules/spark-1.5.1-bin-hadoop2.6/bin/spark-submit --class com.it19gong.clickproject.AccessLogDriverCluster --num-executors 3 --driver-memory 100m --executor-memory 100m --executor-cores 3 --files /opt/modules/hive/conf/hive-site.xml --driver-class-path /opt/modules/hive/lib/mysql-connector-java-5.1.28.jar /home/hadoop/sparkproject.jar

把原來的包刪除

上傳新的包

執行腳本

mysql數據多了兩條

打開azkaban的頁面,這里再次提醒要用谷歌瀏覽器

新建spark.job文件

#command.job type=command command=bash project.sh

打包成zip包

上傳zip包

開始執行

mysql數據庫多了兩天數據

參考鏈接:https://www.cnblogs.com/braveym/p/12259956.html

總結

以上是生活随笔為你收集整理的案例实操:Azkaban调度spark作业的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。