當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

部署Azkaban多节点分布式模式

發(fā)布時間：2023/12/9 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了部署Azkaban多节点分布式模式小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡單介紹：

Azkaban是由Linkedin公司推出的一個批量工作流任務(wù)調(diào)度器，用于在一個工作流內(nèi)以一個特定的順序運行一組工作和流程。Azkaban使用job配置文件建立任務(wù)之間的依賴關(guān)系，并提供一個易于使用的web用戶界面維護和跟蹤你的工作流。它有三個重要組件：

關(guān)系數(shù)據(jù)庫（目前僅支持mysql）
web管理服務(wù)器－AzkabanWebServer
執(zhí)行服務(wù)器－AzkabanExecutorServer

Azkaban使用MySQL來存儲它的狀態(tài)信息，Azkaban Executor Server和Azkaban Web Server均使用到了MySQL數(shù)據(jù)庫。

AzkabanExecutorServer在如下幾個方面使用到了數(shù)據(jù)庫：

獲取project的信息
執(zhí)行工作流
存儲工作流運行日志
如果一個工作流在不同的執(zhí)行器上運行，它將從DB中獲取狀態(tài)。

AzkabanWebServer在如下幾個方面使用到了數(shù)據(jù)庫：

Project管理
跟蹤工作流執(zhí)行進度
訪問歷史工作流的運行信息
定時執(zhí)行工作流任務(wù)
記錄所有sla規(guī)則

AzkabanWebServer

AzkabanWebserver是整個Azkaban工作流系統(tǒng)的主要管理者，它負責(zé)project管理、用戶登錄認證、定時執(zhí)行工作流、跟蹤工作流執(zhí) 行進度等一系列任務(wù)。同時，它還提供Web服務(wù)操作的接口，利用該接口，用戶可以使用curl或其他ajax的方式，來執(zhí)行azkaban的相關(guān)操作。操作包括：用戶登錄、創(chuàng)建project、上傳workflow、執(zhí)行workflow、查詢workflow的執(zhí)行進度、殺掉workflow等一系列操作，且這些操作的返回結(jié)果均是json的格式。

AzkabanExecutorServer

之所以將AzkabanWebServer和AzkabanExecutorServer分開，主要是因為在某個任務(wù)流失敗后，可以更方便的將重新執(zhí)行。而且也更有利于Azkaban系統(tǒng)的升級。

注意：安裝sqoop的節(jié)點都要安裝azkaban

環(huán)境配置：由于azkaban3.0以上沒有相應(yīng)的安裝包，需要從源碼進行編譯。編譯的環(huán)境需要安裝jdk8。

分布式模式：集群內(nèi)應(yīng)當(dāng)安裝三個exec-server和一個web-server，相關(guān)組件分配如下：

bigdata243 ? ? ?azkaban-exec

bigdata244 ? ? ?azkaban-exec

bigdata245 ? ? ?azkaban-web-server azkaban-exec-server mysql

azkaban-web目錄

bin 啟動腳本存放目錄

conf 配置文件存放目錄（沒有的話從solo-server的目錄中拷貝過來）

lib 依賴jar包存放目錄

extlib 附加jar包存放目錄（沒有的話手動創(chuàng)建）

plugins 插件安裝目錄

web web資源文件

logs 日志存儲目錄

sql sql資源

azkaban-exec目錄

bin 啟動腳本存放目錄

conf 配置文件存放目錄（沒有的話從solo-server的目錄中拷貝過來）

lib 依賴jar包存放目錄

extlib 附加jar包存放目錄（沒有的話手動創(chuàng)建）

plugins 插件安裝目錄

編譯，安裝過程

官網(wǎng)下載：3.47版本

進入到azkaban下面編譯：[hadoop@bigdata245 azkaban-3.47.0]$ ./gradlew distTar

編譯結(jié)果為：

azkaban-common : 常用工具類。

azkaban-db : 對應(yīng)的sql腳本

azkaban-hadoop-secutity-plugin : hadoop 有關(guān)kerberos插件

azkaban-solo-server: web和executor 一起的項目。

azkaban-web/executor-server:azkaban的 web和executor的server信息

azkaban-spi: azkaban存儲接口以及exception類

編譯完成后：db、web、exec、solo四個目錄的build/distributions/下生成其壓縮包

將壓縮包拷貝到：新建文件夾：mkdir azkaban

cp azkaban-db-0.1.0-SNAPSHOT.tar.gz /home/hadoop/app/azkaban/

cp azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz /home/hadoop/app/azkaban/

cp azkaban-web-server-0.1.0-SNAPSHOT.tar.gz /home/hadoop/app/azkaban/

cp azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz /home/hadoop/app/azkaban/

解壓重命名

tar -zxvf azkaban-web-server-0.1.0-SNAPSHOT.tar.gz

tar -zxvf azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz

tar -zxvf azkaban-db-0.1.0-SNAPSHOT.tar.gz

tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz

mv azkaban-db-0.1.0-SNAPSHOT azkaban-db

mv azkaban-web-server-0.1.0-SNAPSHOT azkaban-web

mv azkaban-solo-server-0.1.0-SNAPSHOT azkaban-solo

mv azkaban-exec-server-0.1.0-SNAPSHOT azkaban-exec

創(chuàng)建Azkaban元數(shù)據(jù)庫：登錄mysql，執(zhí)行如下語句

mysql> create database azkaban_matadata;

Query OK, 1 row affected (0.00 sec)

mysql> use azkaban_matadata;

Database changed

mysql> source /home/hadoop/app/azkaban/azkaban-db/create-all-sql-0.1.0-SNAPSHOT.sql （會創(chuàng)建所有表）

配置keystore

在azkaban-web/bin目錄下執(zhí)行這條命令，在執(zhí)行完這條命令之后，會生成一個文件：keystore.使用keytool創(chuàng)建SSL配置，keytool是JDK提供的一個工具，輸入如下命令，可以查看

[root@bigdata245 ~]# find / -name keytool

/home/hadoop/app/jdk1.8/bin/keytool

/home/hadoop/app/jdk1.8/jre/bin/keytool

執(zhí)行命令創(chuàng)建SSL配置

[hadoop@bigdata245 bin]$ keytool -keystore keystore -alias jetty -genkey -keyalg RSA

輸入密鑰庫口令: azkaban

再次輸入新口令: azkaban

您的名字與姓氏是什么? [Unknown]: 略過

您的組織單位名稱是什么? [Unknown]: 略過

您的組織名稱是什么? [Unknown]: 略過

您所在的城市或區(qū)域名稱是什么? [Unknown]: 略過

您所在的省/市/自治區(qū)名稱是什么? [Unknown]: 略過

該單位的雙字母國家/地區(qū)代碼是什么? [Unknown]: CN

CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN是否正確?

[否]: Y

輸入 <jetty> 的密鑰口令 (如果和密鑰庫口令相同, 按回車):

將azkaban-solo下的conf plugins 和sql文件夾拷貝到azkaban-web目錄下

[hadoop@bigdata245 azkaban-solo]$ cp -a conf/ plugins/ sql/ /home/hadoop/app/azkaban/azkaban-web/

配置web-server

配置azkaban-web/conf/azkaban.properties

# Azkaban Personalization Settings azkaban.name=bigdata245 # 服務(wù)器UI名稱,用于服務(wù)器上方顯示的名字 azkaban.label=Aliyun bigdata245 Azkaban # 描述信息 azkaban.color=#FF3601 # 顏色 azkaban.default.servlet.path=/index web.resource.dir=/home/hadoop/app/azkaban/azkaban-web/web/ #默認跟web目錄，設(shè)置為絕對路徑 default.timezone.id=Asia/Shanghai # 時區(qū)，默認為美國America/Los_Angeles # Azkaban UserManager class user.manager.class=azkaban.user.XmlUserManager #用戶權(quán)限管理默認類 user.manager.xml.file=/home/hadoop/app/azkaban/azkaban-web/conf/azkaban-users.xml #用戶配置，具體配置參見下文 # Loader for projects executor.global.properties=/home/hadoop/app/azkaban/azkaban-web/conf/global.properties #globa配置文件所在位置 azkaban.project.dir=projectsdatabase.type=mysql # 數(shù)據(jù)庫類型 mysql.port=3306 # 端口 mysql.host=245 # 數(shù)據(jù)庫連接IP mysql.database=azkaban_matadata # 數(shù)據(jù)庫實例名 mysql.user=root # 數(shù)據(jù)庫用戶名 mysql.password=P@ssw0rd # 數(shù)據(jù)庫密碼 mysql.numconnections=100 # 最大連接數(shù) h2.path=./h2 h2.create.tables=true # Velocity dev mode velocity.dev.mode=false # Azkaban Jetty server properties. jetty.use.ssl=false jetty.maxThreads=25 #最大線程數(shù) jetty.port=8081 #jetty端口 jetty.ssl.port=8443 #jetty ssl端口號 jetty.keystore=/home/hadoop/app/azkaban/azkaban-web/bin/keystore #ssl的文件名，絕對路徑 jetty.password=azkaban #ssl文件密碼 jetty.keypassword=azkaban #jetty主密碼與keystore文件相同 jetty.truststore=keystore #SSL文件名 jetty.trustpassword=azkaban #SSL文件密碼 # Azkaban Executor settings executor.port=12321 #執(zhí)行服務(wù)器端口 # mail settings mail.sender= #發(fā)送郵箱 mail.host= #發(fā)送郵箱smtp地址 # User facing web server configurations used to construct the user facing server URLs. They are useful when there is a reverse proxy between Azkaban web servers and users. # enduser -> myazkabanhost:443 -> proxy -> localhost:8081 # when this parameters set then these parameters are used to generate email links. # if these parameters are not set then jetty.hostname, and jetty.port(if ssl configured jetty.ssl.port) are used. # azkaban.webserver.external_hostname=myazkabanhost.com # azkaban.webserver.external_ssl_port=443 # azkaban.webserver.external_port=8081 job.failure.email= job.success.email= lockdown.create.projects=false cache.directory=cache #緩存目錄 # JMX stats jetty.connector.stats=true executor.connector.stats=true # Azkaban plugin settings azkaban.jobtype.plugin.dir=/home/hadoop/app/azkaban/azkaban-web/plugins/jobtypes 端口號使用規(guī)則：jetty.ssl.port > jetty.port。但是使用jetty.ssl.port的前提是jetty.use.ssl=true。這個配置表示開啟ssl【Secure Sockets Layer】安全套接層，否則使用jetty.port端口。

在azkaban-web/conf目錄下添加log4j.properties

[hadoop@bigdata245 conf]$ touch log4j.propertieslog4j.rootLogger=INFO,C log4j.appender.C=org.apache.log4j.ConsoleAppender log4j.appender.C.Target=System.err log4j.appender.C.layout=org.apache.log4j.PatternLayout log4j.appender.C.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:%L - %m%n

添加MySQL驅(qū)動在azkaban-web目錄下創(chuàng)建文件夾：mkdir extlib?

將lib目錄下的mysql驅(qū)動復(fù)制到extlib目錄下

[hadoop@bigdata245 azkaban-web]$ cp lib/mysql-connector-java-5.1.28.jar extlib/

添加管理員用戶以及密碼

進入azkaban-web/conf目錄,修改azkaban-users.xml，這個文件存放用戶登錄信息以及權(quán)限信息。同時增加管理員用戶admin

azkaban-web目錄下創(chuàng)建logs文件用于存放日志文件 # mkdir logs

注意：多個執(zhí)行器模式也就是分布式執(zhí)行模式下運行，需要在webserver配置中啟用多個執(zhí)行器模式。確認在azkaban.properties中具有以下屬性。azkaban.use.multiple.executors和azkaban.executorselector.comparator。*是必需的屬性。

注意：azkaban.use.multiple.executors?多重執(zhí)行模式不予以尊重

配置多節(jié)點執(zhí)行服務(wù)器在azkaban-web/conf/azkaban.properties里添加

azkaban.use.multiple.executors =true azkaban.executorselector.filters = StaticRemainingFlowSize，MinimumFreeMemory，CpuStatus azkaban.executorselector.comparator.NumberOfAssignedFlowComparator = 1 azkaban.executorselector.comparator.Memory = 1 azkaban.executorselector.comparator.LastDispatched = 1 azkaban.executorselector.comparator.CpuUsage = 1以確認使用的是分布式方式，隨后提交的job會根據(jù)情況自行選擇執(zhí)行服務(wù)器，否則默認只使用本地執(zhí)行服務(wù)器。

配置exec-server

拷貝azkaban-web目錄下的conf和extlib到azkaban-web目錄下

cp -a conf/ extlib/ /home/hadoop/app/azkaban/azkaban-exec/

配置azkaban-web/conf/azkaban.properties

default.timezone.id=Asia/Shanghai # Loader for projects executor.global.properties=/home/hadoop/app/azkaban/azkaban-exec/conf/global.properties azkaban.project.dir=/home/hadoop/app/azkaban/azkaban-exec/bin/projects # Azkaban plugin settings azkaban.jobtype.plugin.dir=plugins/jobtypes database.type=mysql mysql.port=3306 mysql.host=245 mysql.database=azkaban_matadata mysql.user=root mysql.password=P@ssw0rd mysql.numconnections=100 # Azkaban Executor settings executor.maxThreads=50 executor.port=12321 executor.flow.threads=25 #分布式節(jié)點必配 azkaban.use.multiple.executors=true azkaban.executorselector.filters=StaticRemainingFlowSize，MinimumFreeMemory，CpuStatus azkaban.executorselector.comparator.NumberOfAssignedFlowComparator=1 azkaban.executorselector.comparator.Memory=1 azkaban.executorselector.comparator.LastDispatched=1 azkaban.executorselector.comparator.CpuUsage=1

在azkaban-exec/conf目錄下添加log4j.properties

[hadoop@bigdata245 conf]$ touch log4j.propertieslog4j.rootLogger=INFO,Clog4j.appender.C=org.apache.log4j.ConsoleAppenderlog4j.appender.C.Target=System.errlog4j.appender.C.layout=org.apache.log4j.PatternLayoutlog4j.appender.C.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:%L - %m%n

在mysql的azkaban庫中添加各個執(zhí)行服務(wù)器的ip/域名和端口：

配置多執(zhí)行器模式的執(zhí)行程序，目前沒有執(zhí)行程序管理UI。需要在數(shù)據(jù)庫中配置執(zhí)行程序。需要將所有執(zhí)行程序插入mysql DB以進行執(zhí)行程序設(shè)置。驗證執(zhí)行程序表中的正確執(zhí)行程序是否處于活動狀態(tài)。

>insert into executors(host,port) values("bigdata245",3306);>insert into executors(host,port) values("bigdata244",3306);>insert into executors(host,port) values("bigdata243",3306);

啟動，先啟動exec-server（執(zhí)行器），然后啟動web-server（web服務(wù)）

cd azkaban-exec/bin：./start-exec.sh

cd azkaban-web/bin：./start-web.sh

注意：在bin目錄下啟動會生成一堆文件，如果用腳本啟動注意修改配置路勁

啟動完成后，三臺節(jié)點下可以查看到對應(yīng)的進程

AzkabanExecutorServer 3

AzkabanWebServer 1

問題1；

The last packet sent successfully to the server was 0 milliseconds ago.?The driver has not received any packets from the server.)

Caused by: java.net.ConnectException: Connection refused (Connection refused)

如果出現(xiàn)這兩個問題，去配置文件查看mysql鏈接是否出錯，還有mysql配置執(zhí)行服務(wù)器的語句是否有問題

訪問Azkaban UI界面

http://bigdata245:8081/index

輸入用戶名密碼azkaban/azkaban登錄?

修改如下配置（azkaban默認啟動規(guī)則是在哪里啟動在哪里生成一堆文件）

exec/bin

[hadoop@bigdata243 bin]$ cat start-exec.sh

#!/bin/bash

script_dir=$(dirname $0)

# pass along command line arguments to the internal launch script.

${script_dir}/internal/internal-start-executor.sh "$@" >/home/hadoop/app/azkaban/azkaban-exec/bin/executorServerLog__`date +%F+%T`.out 2>&1 &

[hadoop@bigdata243 bin]$ pwd

/home/hadoop/app/azkaban/azkaban-exec/bin

web/bin

[hadoop@bigdata245 bin]$ pwd

/home/hadoop/app/azkaban/azkaban-web/bin

[hadoop@bigdata245 bin]$ cat start-web.sh

#!/bin/bash

script_dir=$(dirname $0)

${script_dir}/internal/internal-start-web.sh >/home/hadoop/app/azkaban/azkaban-web/bin/webServerLog_`date +%F+%T`.out 2>&1 &

配置azkaban-exec/conf/azkaban.properties

azkaban.project.dir=/home/hadoop/app/azkaban/azkaban-exec/bin/projects

配置azkaban-web/conf/azkaban.properties

azkaban.project.dir=/home/hadoop/app/azkaban/azkaban-web/bin/projects

Azkaban測試及使用

projects：最重要的部分，創(chuàng)建一個工程，所有flows將在工程中運行。?

Scheduling:顯示定時任務(wù)?

Executing:顯示當(dāng)前運行的任務(wù)?

History:顯示歷史運行任務(wù)

主要介紹Projects部分，在創(chuàng)建工程前，我們先了解下之間的關(guān)系，一個工程包含一個或多個flows，一個flow包含多個job。job是你想在azkaban中運行的一個進程，可以是簡單的linux命令，可是java程序，也可以是復(fù)雜的shell腳本、或者python腳本，當(dāng)然，如果你安裝相關(guān)插件，也可以運行插件。一個job可以依賴于另一個job，這種多個job和它們的依賴組成的圖表叫做flow。

web-server節(jié)點：負責(zé)項目作業(yè)管理（上傳和分發(fā)）?

exec-server節(jié)點：負責(zé)具體執(zhí)行的executor會解析job文件

一、commond 類型單一Job

1.創(chuàng)建工程

Flows：工作流程，有多個job組成?

Permissions:權(quán)限管理?

Project Logs:工程日志

2.創(chuàng)建Job

job就是一個以.job結(jié)尾的文本文件，例如創(chuàng)建一個job，名為hello.job，用于打印hello azkaban

3.打包

將創(chuàng)建的job打包成.zip壓縮文件，注意只能是.zip格式?

4.使用Azkaban UI 界面創(chuàng)建project并上傳壓縮包

點擊Execute執(zhí)行?

執(zhí)行后，點擊Detail，查看日志

azkaban-exec/plugins/jobtypes/commonprivate.properties配置文件，內(nèi)容中添加：azkaban.native.lib=false

關(guān)閉重啟服務(wù)

如果還不行，編譯源碼

源碼路徑：/home/hadoop/app/compile_azkaban3.47/azkaban-common/src/main/java/azkaban/jobExecutor/ProcessJob.java

修改如下：final boolean isExecuteAsUser = this.sysProps.getBoolean(EXECUTE_AS_USER, false);

重新編譯之后將azkaban/azkaban-exec-server/build/distributions目錄下的azkaban-exec-server-3.48.0-8-gdc851ec.tar.gz 解壓重命名，然后再修改配置替換舊的azkaban-exec-server，最后重啟exec和web服務(wù)即可

再次運行就好了

二、commond 類型多JOb 工作流 flow

1.創(chuàng)建項目

首先，創(chuàng)建一個項目，名為 Com_Job

2.job 創(chuàng)建

假設(shè)有這么一種場景：

(1).task1 依賴 task2

(2).task2 依賴 task3

(3).task3 依賴 task4

說明：假設(shè)task1是一個計算指標(biāo)任務(wù)，task2 給 task1 提供執(zhí)行需要的基礎(chǔ)數(shù)據(jù)

task3 給 task2 提供數(shù)據(jù)，以此類推。

3.flow 創(chuàng)建

多個jobs和它們的依賴組成flow。怎么創(chuàng)建依賴，只要指定dependencies參數(shù)就行了

定義4個job:

(1).run_task1.job：計算業(yè)務(wù)指標(biāo)數(shù)據(jù)

(2).run_task2.job：計算task1所需要的數(shù)據(jù)

(3).run_task3.job：計算task2所需要的數(shù)據(jù)

(4).run_task4.job：從 slaves 中抽取源數(shù)據(jù)

依賴關(guān)系：

task1 依賴 task2，task2 依賴 task3，task3 依賴 task4

4個job文件內(nèi)容如下（這里以執(zhí)行python為例）

# run_task1.job

type = command

command = python /home/hadoop/pyshell/run_task1.py

dependencies = run_task2

# run_task2.job

type = command

command = python /home/hadoop/pyshell/run_task2.py

dependencies = run_task3

# run_task3.job

type = command

command = python /home/hadoop/pyshell/run_task3.py

dependencies = run_task4

# run_task4.job

type = command

command = python /home/hadoop/pyshell/run_task4.py

創(chuàng)建python腳本

[hadoop@bigdata245 pyshell]$ touch run_task1.py

[hadoop@bigdata245 pyshell]$ touch run_task2.py

[hadoop@bigdata245 pyshell]$ touch run_task3.py

[hadoop@bigdata245 pyshell]$ touch run_task4.py

4個文件內(nèi)容如下

run_task1.py

#!/usr/bin/python3

# -*- coding: utf-8 -*-

print("task1：計算業(yè)務(wù)指標(biāo)數(shù)據(jù)...")

run_task2.py

#!/usr/bin/python3

# -*- coding: utf-8 -*-

print("task2：計算基礎(chǔ)數(shù)據(jù)，為task1提供數(shù)據(jù)")

run_task3.py

#!/usr/bin/python3

# -*- coding: utf-8 -*-

print("task3：數(shù)據(jù)清洗，為task2提供數(shù)據(jù)")

run_task4.py

#!/usr/bin/python3

# -*- coding: utf-8 -*-

print("task4：從Slaves中抽取源數(shù)據(jù)")

3.將上述 job 打成zip包,上傳至 azkaban

上傳完成后，點擊右側(cè)Execute Flow按鈕，查看流程視圖?

Flow view：流程視圖。可以禁用，啟用某些job

Notification：定義任務(wù)成功或者失敗是否發(fā)送郵件

Failure Options：定義一個job失敗，剩下的job怎么執(zhí)行

Concurrent：并行任務(wù)執(zhí)行設(shè)置

Flow Parametters：參數(shù)設(shè)置。

4.執(zhí)行

(1).執(zhí)行一次，點擊右下角Execute?

(2).定時執(zhí)行，點擊左下角Schedule?

設(shè)置完成后，執(zhí)行右下角schedule，即完成調(diào)度配置，azkaban這里的配置與linux下的crontab類似?

想要查看job的調(diào)度列表，切換到Schedule菜單即可

5.查看項目flow中各個Job的執(zhí)行情況

綠色代表成功，藍色是運行，紅色是失敗。可以查看job運行時間，依賴和日志，點擊details可以查看各個job運行情況

三、MapReduce 任務(wù)

Azkaban 執(zhí)行 MapReduce 任務(wù)，我們以 WordCount 為例

1.準(zhǔn)備數(shù)據(jù)

[hadoop@bigdata245 ~]$ hadoop fs -mkdir -p /azkaban/input

[hadoop@bigdata245 data]$ hadoop fs -put words.txt /azkaban/input

使用hadoop提供的jar統(tǒng)計單詞數(shù)量

[hadoop@bigdata245 mapreduce]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /azkaban/input/* /azkaban/outputs/

運行結(jié)果

2.創(chuàng)建項目

3.job創(chuàng)建

job

# mapreduce_wordcount.job

type = command

command=sh /home/hadoop/pyshell/wordcount.sh

4.打包上傳，執(zhí)行

5.查看運行結(jié)果

azkaban上打印的日志顯示已經(jīng)成功?

四、Hive 腳本任務(wù)

1.創(chuàng)建項目

hive_export_to_mysql

2.job創(chuàng)建

我們要完成，hive中創(chuàng)建表，加載數(shù)據(jù)，然后導(dǎo)出數(shù)據(jù)到mysql，分為兩個job?

hive_task1：將hive中的數(shù)據(jù)導(dǎo)出到mysql中?

hive_task2：hive中創(chuàng)建表，加載數(shù)據(jù)?

依賴關(guān)系：hive_task1 依賴 hive_task2

3.flow創(chuàng)建

job 文件內(nèi)容如下

# hive_task1.job

type = command

command = sh /home/hadoop/pyshell/hive_task1.sh

dependencies = hive_task2

# hive_task2.job

type = command

command = sh /home/hadoop/pyshell/hive_task2.sh

腳本內(nèi)容如下

[hadoop@bigdata245 pyshell]$ cat hive_task1.sh

#!/bin/bash

/home/hadoop/app/sqoop1/bin/sqoop export \

--connect jdbc:mysql://bigdata245:3306/sqoop \

--username root --password P@ssw0rd \

--table EMP \

--export-dir /user/hive/warehouse/test.db/emp \

--input-fields-terminated-by ',' \

--input-null-string 'null' --input-null-non-string 'null' \

-m 1

[hadoop@bigdata245 pyshell]$ cat hive_task2

#!/bin/bash

hive -f /home/hadoop/pyshell/test.sql

sql文件 test.sql內(nèi)容如下

[hadoop@bigdata245 pyshell]$ cat test.sql

create database if not exists test;

use test;

drop table if exists emp;

create table emp(

empno int,

ename string,

job string

)

row format delimited fields terminated by ',';

load data local inpath '/home/hadoop/pyshell/emp.txt' overwrite into table emp;

emp.txt文件內(nèi)容如下

[hadoop@bigdata245 pyshell]$ cat emp.txt

1001,Tom,Java

1002,Jack,PHP

1003,Harvey,BigData

1004,David,IOS

1005,Kett,DBA

4.打包上傳

5.執(zhí)行，查看運行結(jié)果

執(zhí)行前記得先在mysql中創(chuàng)建表emp，sql語句如下

DROP TABLE IF EXISTS `EMP`;

CREATE TABLE `EMP` (

`empno` int(11) DEFAULT NULL,

`ename` varchar(255) DEFAULT NULL,

`job` varchar(255) DEFAULT NULL

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

SET FOREIGN_KEY_CHECKS=1;

總結(jié)

以上是生活随笔為你收集整理的部署Azkaban多节点分布式模式的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Linux--文件结构体struct f
下一篇： BO QUERY BUILDER － S