部署Azkaban多节点分布式模式
簡單介紹:
Azkaban是由Linkedin公司推出的一個批量工作流任務(wù)調(diào)度器,用于在一個工作流內(nèi)以一個特定的順序運行一組工作和流程。Azkaban使用job配置文件建立任務(wù)之間的依賴關(guān)系,并提供一個易于使用的web用戶界面維護和跟蹤你的工作流。 它有三個重要組件:
- 關(guān)系數(shù)據(jù)庫(目前僅支持mysql)
- web管理服務(wù)器-AzkabanWebServer
- 執(zhí)行服務(wù)器-AzkabanExecutorServer
Azkaban使用MySQL來存儲它的狀態(tài)信息,Azkaban Executor Server和Azkaban Web Server均使用到了MySQL數(shù)據(jù)庫。
AzkabanExecutorServer在如下幾個方面使用到了數(shù)據(jù)庫:
- 獲取project的信息
- 執(zhí)行工作流
- 存儲工作流運行日志
- 如果一個工作流在不同的執(zhí)行器上運行,它將從DB中獲取狀態(tài)。
AzkabanWebServer在如下幾個方面使用到了數(shù)據(jù)庫:
- Project管理
- 跟蹤工作流執(zhí)行進度
- 訪問歷史工作流的運行信息
- 定時執(zhí)行工作流任務(wù)
- 記錄所有sla規(guī)則
?
AzkabanWebServer
AzkabanWebserver是整個Azkaban工作流系統(tǒng)的主要管理者,它負責(zé)project管理、用戶登錄認證、定時執(zhí)行工作流、跟蹤工作流執(zhí) 行進度等一系列任務(wù)。同時,它還提供Web服務(wù)操作的接口,利用該接口,用戶可以使用curl或其他ajax的方式,來執(zhí)行azkaban的相關(guān)操作。操作包括:用戶登錄、創(chuàng)建project、上傳workflow、執(zhí)行workflow、查詢workflow的執(zhí)行進度、殺掉workflow等一系列操作,且這些操作的返回結(jié)果均是json的格式。
AzkabanExecutorServer
之所以將AzkabanWebServer和AzkabanExecutorServer分開,主要是因為在某個任務(wù)流失敗后,可以更方便的將重新執(zhí)行。而且也更有利于Azkaban系統(tǒng)的升級。
?
注意:安裝sqoop的節(jié)點都要安裝azkaban
環(huán)境配置:由于azkaban3.0以上沒有相應(yīng)的安裝包,需要從源碼進行編譯。編譯的環(huán)境需要安裝jdk8。
分布式模式:集群內(nèi)應(yīng)當(dāng)安裝三個exec-server和一個web-server,相關(guān)組件分配如下:
bigdata243 ? ? ?azkaban-exec
bigdata244 ? ? ?azkaban-exec
bigdata245 ? ? ?azkaban-web-server azkaban-exec-server mysql
?
azkaban-web目錄
bin 啟動腳本存放目錄
conf 配置文件存放目錄(沒有的話從solo-server的目錄中拷貝過來)
lib 依賴jar包存放目錄
extlib 附加jar包存放目錄(沒有的話手動創(chuàng)建)
plugins 插件安裝目錄
web web資源文件
logs 日志存儲目錄
sql sql資源
?
azkaban-exec目錄
bin 啟動腳本存放目錄
conf 配置文件存放目錄(沒有的話從solo-server的目錄中拷貝過來)
lib 依賴jar包存放目錄
extlib 附加jar包存放目錄(沒有的話手動創(chuàng)建)
plugins 插件安裝目錄
?
編譯,安裝過程
官網(wǎng)下載:3.47版本
進入到azkaban下面編譯:[hadoop@bigdata245 azkaban-3.47.0]$ ./gradlew distTar
編譯結(jié)果為:
azkaban-common : 常用工具類。
azkaban-db : 對應(yīng)的sql腳本
azkaban-hadoop-secutity-plugin : hadoop 有關(guān)kerberos插件
azkaban-solo-server: web和executor 一起的項目。
azkaban-web/executor-server:azkaban的 web和executor的server信息
azkaban-spi: azkaban存儲接口以及exception類
編譯完成后:db、web、exec、solo四個目錄的build/distributions/下生成其壓縮包
將壓縮包拷貝到:新建文件夾:mkdir azkaban
cp azkaban-db-0.1.0-SNAPSHOT.tar.gz /home/hadoop/app/azkaban/
cp azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz /home/hadoop/app/azkaban/
cp azkaban-web-server-0.1.0-SNAPSHOT.tar.gz /home/hadoop/app/azkaban/
cp azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz /home/hadoop/app/azkaban/
?
解壓重命名
tar -zxvf azkaban-web-server-0.1.0-SNAPSHOT.tar.gz
tar -zxvf azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz
tar -zxvf azkaban-db-0.1.0-SNAPSHOT.tar.gz
tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz
mv azkaban-db-0.1.0-SNAPSHOT azkaban-db
mv azkaban-web-server-0.1.0-SNAPSHOT azkaban-web
mv azkaban-solo-server-0.1.0-SNAPSHOT azkaban-solo
mv azkaban-exec-server-0.1.0-SNAPSHOT azkaban-exec
創(chuàng)建Azkaban元數(shù)據(jù)庫:登錄mysql,執(zhí)行如下語句
mysql> create database azkaban_matadata;
Query OK, 1 row affected (0.00 sec)
mysql> use azkaban_matadata;
Database changed
mysql> source /home/hadoop/app/azkaban/azkaban-db/create-all-sql-0.1.0-SNAPSHOT.sql (會創(chuàng)建所有表)
配置keystore
在azkaban-web/bin目錄下執(zhí)行這條命令,在執(zhí)行完這條命令之后,會生成一個文件:keystore.使用keytool創(chuàng)建SSL配置,keytool是JDK提供的一個工具,輸入如下命令,可以查看
[root@bigdata245 ~]# find / -name keytool
/home/hadoop/app/jdk1.8/bin/keytool
/home/hadoop/app/jdk1.8/jre/bin/keytool
?
執(zhí)行命令創(chuàng)建SSL配置
[hadoop@bigdata245 bin]$ keytool -keystore keystore -alias jetty -genkey -keyalg RSA
輸入密鑰庫口令: azkaban
再次輸入新口令: azkaban
您的名字與姓氏是什么? [Unknown]: 略過
您的組織單位名稱是什么? [Unknown]: 略過
您的組織名稱是什么? [Unknown]: 略過
您所在的城市或區(qū)域名稱是什么? [Unknown]: 略過
您所在的省/市/自治區(qū)名稱是什么? [Unknown]: 略過
該單位的雙字母國家/地區(qū)代碼是什么? [Unknown]: CN
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN是否正確?
[否]: Y
輸入 <jetty> 的密鑰口令 (如果和密鑰庫口令相同, 按回車):
?
將azkaban-solo下的conf plugins 和sql文件夾拷貝到azkaban-web目錄下
[hadoop@bigdata245 azkaban-solo]$ cp -a conf/ plugins/ sql/ /home/hadoop/app/azkaban/azkaban-web/
?
配置web-server
配置azkaban-web/conf/azkaban.properties
# Azkaban Personalization Settings azkaban.name=bigdata245 # 服務(wù)器UI名稱,用于服務(wù)器上方顯示的名字 azkaban.label=Aliyun bigdata245 Azkaban # 描述信息 azkaban.color=#FF3601 # 顏色 azkaban.default.servlet.path=/index web.resource.dir=/home/hadoop/app/azkaban/azkaban-web/web/ #默認跟web目錄,設(shè)置為絕對路徑 default.timezone.id=Asia/Shanghai # 時區(qū),默認為美國America/Los_Angeles # Azkaban UserManager class user.manager.class=azkaban.user.XmlUserManager #用戶權(quán)限管理默認類 user.manager.xml.file=/home/hadoop/app/azkaban/azkaban-web/conf/azkaban-users.xml #用戶配置,具體配置參見下文 # Loader for projects executor.global.properties=/home/hadoop/app/azkaban/azkaban-web/conf/global.properties #globa配置文件所在位置 azkaban.project.dir=projectsdatabase.type=mysql # 數(shù)據(jù)庫類型 mysql.port=3306 # 端口 mysql.host=245 # 數(shù)據(jù)庫連接IP mysql.database=azkaban_matadata # 數(shù)據(jù)庫實例名 mysql.user=root # 數(shù)據(jù)庫用戶名 mysql.password=P@ssw0rd # 數(shù)據(jù)庫密碼 mysql.numconnections=100 # 最大連接數(shù) h2.path=./h2 h2.create.tables=true # Velocity dev mode velocity.dev.mode=false # Azkaban Jetty server properties. jetty.use.ssl=false jetty.maxThreads=25 #最大線程數(shù) jetty.port=8081 #jetty端口 jetty.ssl.port=8443 #jetty ssl端口號 jetty.keystore=/home/hadoop/app/azkaban/azkaban-web/bin/keystore #ssl的文件名,絕對路徑 jetty.password=azkaban #ssl文件密碼 jetty.keypassword=azkaban #jetty主密碼與keystore文件相同 jetty.truststore=keystore #SSL文件名 jetty.trustpassword=azkaban #SSL文件密碼 # Azkaban Executor settings executor.port=12321 #執(zhí)行服務(wù)器端口 # mail settings mail.sender= #發(fā)送郵箱 mail.host= #發(fā)送郵箱smtp地址 # User facing web server configurations used to construct the user facing server URLs. They are useful when there is a reverse proxy between Azkaban web servers and users. # enduser -> myazkabanhost:443 -> proxy -> localhost:8081 # when this parameters set then these parameters are used to generate email links. # if these parameters are not set then jetty.hostname, and jetty.port(if ssl configured jetty.ssl.port) are used. # azkaban.webserver.external_hostname=myazkabanhost.com # azkaban.webserver.external_ssl_port=443 # azkaban.webserver.external_port=8081 job.failure.email= job.success.email= lockdown.create.projects=false cache.directory=cache #緩存目錄 # JMX stats jetty.connector.stats=true executor.connector.stats=true # Azkaban plugin settings azkaban.jobtype.plugin.dir=/home/hadoop/app/azkaban/azkaban-web/plugins/jobtypes 端口號使用規(guī)則:jetty.ssl.port > jetty.port。但是使用jetty.ssl.port的前提是jetty.use.ssl=true。這個配置表示開啟ssl【Secure Sockets Layer】安全套接層,否則使用jetty.port端口。?
在azkaban-web/conf目錄下添加log4j.properties
[hadoop@bigdata245 conf]$ touch log4j.propertieslog4j.rootLogger=INFO,C log4j.appender.C=org.apache.log4j.ConsoleAppender log4j.appender.C.Target=System.err log4j.appender.C.layout=org.apache.log4j.PatternLayout log4j.appender.C.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:%L - %m%n?
添加MySQL驅(qū)動在azkaban-web目錄下創(chuàng)建文件夾:mkdir extlib?
將lib目錄下的mysql驅(qū)動復(fù)制到extlib目錄下
[hadoop@bigdata245 azkaban-web]$ cp lib/mysql-connector-java-5.1.28.jar extlib/
?
添加管理員用戶以及密碼
進入azkaban-web/conf目錄,修改azkaban-users.xml,這個文件存放用戶登錄信息以及權(quán)限信息。同時增加管理員用戶admin
<user username="admin" password="admin" roles="admin"/>
azkaban-web目錄下創(chuàng)建logs文件用于存放日志文件 # mkdir logs
注意:多個執(zhí)行器模式也就是分布式執(zhí)行模式下運行,需要在webserver配置中啟用多個執(zhí)行器模式。確認在azkaban.properties中具有以下屬性。azkaban.use.multiple.executors和azkaban.executorselector.comparator。*是必需的屬性。
注意:azkaban.use.multiple.executors?多重執(zhí)行模式不予以尊重
配置多節(jié)點執(zhí)行服務(wù)器在azkaban-web/conf/azkaban.properties里添加
azkaban.use.multiple.executors =true azkaban.executorselector.filters = StaticRemainingFlowSize,MinimumFreeMemory,CpuStatus azkaban.executorselector.comparator.NumberOfAssignedFlowComparator = 1 azkaban.executorselector.comparator.Memory = 1 azkaban.executorselector.comparator.LastDispatched = 1 azkaban.executorselector.comparator.CpuUsage = 1以確認使用的是分布式方式,隨后提交的job會根據(jù)情況自行選擇執(zhí)行服務(wù)器,否則默認只使用本地執(zhí)行服務(wù)器。?
?
?
?
?
?
?
?
?
配置exec-server
拷貝azkaban-web目錄下的conf和extlib到azkaban-web目錄下
cp -a conf/ extlib/ /home/hadoop/app/azkaban/azkaban-exec/
配置azkaban-web/conf/azkaban.properties
default.timezone.id=Asia/Shanghai # Loader for projects executor.global.properties=/home/hadoop/app/azkaban/azkaban-exec/conf/global.properties azkaban.project.dir=/home/hadoop/app/azkaban/azkaban-exec/bin/projects # Azkaban plugin settings azkaban.jobtype.plugin.dir=plugins/jobtypes database.type=mysql mysql.port=3306 mysql.host=245 mysql.database=azkaban_matadata mysql.user=root mysql.password=P@ssw0rd mysql.numconnections=100 # Azkaban Executor settings executor.maxThreads=50 executor.port=12321 executor.flow.threads=25 #分布式節(jié)點必配 azkaban.use.multiple.executors=true azkaban.executorselector.filters=StaticRemainingFlowSize,MinimumFreeMemory,CpuStatus azkaban.executorselector.comparator.NumberOfAssignedFlowComparator=1 azkaban.executorselector.comparator.Memory=1 azkaban.executorselector.comparator.LastDispatched=1 azkaban.executorselector.comparator.CpuUsage=1在azkaban-exec/conf目錄下添加log4j.properties
[hadoop@bigdata245 conf]$ touch log4j.propertieslog4j.rootLogger=INFO,Clog4j.appender.C=org.apache.log4j.ConsoleAppenderlog4j.appender.C.Target=System.errlog4j.appender.C.layout=org.apache.log4j.PatternLayoutlog4j.appender.C.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:%L - %m%n?
在mysql的azkaban庫中添加各個執(zhí)行服務(wù)器的ip/域名和端口:
配置多執(zhí)行器模式的執(zhí)行程序,目前沒有執(zhí)行程序管理UI。需要在數(shù)據(jù)庫中配置執(zhí)行程序。需要將所有執(zhí)行程序插入mysql DB以進行執(zhí)行程序設(shè)置。驗證執(zhí)行程序表中的正確執(zhí)行程序是否處于活動狀態(tài)。
>insert into executors(host,port) values("bigdata245",3306);>insert into executors(host,port) values("bigdata244",3306);>insert into executors(host,port) values("bigdata243",3306);?
啟動,先啟動exec-server(執(zhí)行器),然后啟動web-server(web服務(wù))
cd azkaban-exec/bin:./start-exec.sh
cd azkaban-web/bin:./start-web.sh
注意:在bin目錄下啟動會生成一堆文件,如果用腳本啟動注意修改配置路勁
啟動完成后,三臺節(jié)點下可以查看到對應(yīng)的進程
AzkabanExecutorServer 3
AzkabanWebServer 1
問題1;
The last packet sent successfully to the server was 0 milliseconds ago.?The driver has not received any packets from the server.)
Caused by: java.net.ConnectException: Connection refused (Connection refused)
如果出現(xiàn)這兩個問題,去配置文件查看mysql鏈接是否出錯,還有mysql配置執(zhí)行服務(wù)器的語句是否有問題
?
訪問Azkaban UI界面
http://bigdata245:8081/index
輸入用戶名密碼azkaban/azkaban登錄?
?
修改如下配置(azkaban默認啟動規(guī)則是在哪里啟動在哪里生成一堆文件)
exec/bin
[hadoop@bigdata243 bin]$ cat start-exec.sh
#!/bin/bash
script_dir=$(dirname $0)
# pass along command line arguments to the internal launch script.
${script_dir}/internal/internal-start-executor.sh "$@" >/home/hadoop/app/azkaban/azkaban-exec/bin/executorServerLog__`date +%F+%T`.out 2>&1 &
[hadoop@bigdata243 bin]$ pwd
/home/hadoop/app/azkaban/azkaban-exec/bin
web/bin
[hadoop@bigdata245 bin]$ pwd
/home/hadoop/app/azkaban/azkaban-web/bin
[hadoop@bigdata245 bin]$ cat start-web.sh
#!/bin/bash
script_dir=$(dirname $0)
${script_dir}/internal/internal-start-web.sh >/home/hadoop/app/azkaban/azkaban-web/bin/webServerLog_`date +%F+%T`.out 2>&1 &
?
配置azkaban-exec/conf/azkaban.properties
azkaban.project.dir=/home/hadoop/app/azkaban/azkaban-exec/bin/projects
?
配置azkaban-web/conf/azkaban.properties
azkaban.project.dir=/home/hadoop/app/azkaban/azkaban-web/bin/projects
?
Azkaban測試及使用
projects:最重要的部分,創(chuàng)建一個工程,所有flows將在工程中運行。?
Scheduling:顯示定時任務(wù)?
Executing:顯示當(dāng)前運行的任務(wù)?
History:顯示歷史運行任務(wù)
主要介紹Projects部分,在創(chuàng)建工程前,我們先了解下之間的關(guān)系,一個工程包含一個或多個flows,一個flow包含多個job。job是你想在azkaban中運行的一個進程,可以是簡單的linux命令,可是java程序,也可以是復(fù)雜的shell腳本、或者python腳本,當(dāng)然,如果你安裝相關(guān)插件,也可以運行插件。一個job可以依賴于另一個job,這種多個job和它們的依賴組成的圖表叫做flow。
web-server節(jié)點:負責(zé)項目作業(yè)管理(上傳和分發(fā))?
exec-server節(jié)點:負責(zé)具體執(zhí)行的executor會解析job文件
一、commond 類型單一Job
1.創(chuàng)建工程
Flows:工作流程,有多個job組成?
Permissions:權(quán)限管理?
Project Logs:工程日志
2.創(chuàng)建Job
job就是一個以.job結(jié)尾的文本文件,例如創(chuàng)建一個job,名為hello.job,用于打印hello azkaban
3.打包
將創(chuàng)建的job打包成.zip壓縮文件,注意只能是.zip格式?
4.使用Azkaban UI 界面創(chuàng)建project并上傳壓縮包
點擊Execute執(zhí)行?
執(zhí)行后,點擊Detail,查看日志
?
azkaban-exec/plugins/jobtypes/commonprivate.properties配置文件,內(nèi)容中添加:azkaban.native.lib=false
關(guān)閉重啟服務(wù)
如果還不行,編譯源碼
源碼路徑:/home/hadoop/app/compile_azkaban3.47/azkaban-common/src/main/java/azkaban/jobExecutor/ProcessJob.java
修改如下:final boolean isExecuteAsUser = this.sysProps.getBoolean(EXECUTE_AS_USER, false);
?
重新編譯之后將azkaban/azkaban-exec-server/build/distributions目錄下的azkaban-exec-server-3.48.0-8-gdc851ec.tar.gz 解壓重命名,然后再修改配置替換舊的azkaban-exec-server,最后重啟exec和web服務(wù)即可
再次運行就好了
二、commond 類型多JOb 工作流 flow
1.創(chuàng)建項目
首先,創(chuàng)建一個項目,名為 Com_Job
2.job 創(chuàng)建
?
假設(shè)有這么一種場景:
(1).task1 依賴 task2
(2).task2 依賴 task3
(3).task3 依賴 task4
說明:假設(shè)task1是一個計算指標(biāo)任務(wù),task2 給 task1 提供執(zhí)行需要的基礎(chǔ)數(shù)據(jù)
task3 給 task2 提供數(shù)據(jù),以此類推。
?
3.flow 創(chuàng)建
?
多個jobs和它們的依賴組成flow。怎么創(chuàng)建依賴,只要指定dependencies參數(shù)就行了
定義4個job:
(1).run_task1.job:計算業(yè)務(wù)指標(biāo)數(shù)據(jù)
(2).run_task2.job:計算task1所需要的數(shù)據(jù)
(3).run_task3.job:計算task2所需要的數(shù)據(jù)
(4).run_task4.job:從 slaves 中抽取源數(shù)據(jù)
?
依賴關(guān)系:
task1 依賴 task2,task2 依賴 task3,task3 依賴 task4
?
4個job文件內(nèi)容如下(這里以執(zhí)行python為例)
# run_task1.job
type = command
command = python /home/hadoop/pyshell/run_task1.py
dependencies = run_task2
?
# run_task2.job
type = command
command = python /home/hadoop/pyshell/run_task2.py
dependencies = run_task3
?
# run_task3.job
type = command
command = python /home/hadoop/pyshell/run_task3.py
dependencies = run_task4
?
# run_task4.job
type = command
command = python /home/hadoop/pyshell/run_task4.py
?
創(chuàng)建python腳本
[hadoop@bigdata245 pyshell]$ touch run_task1.py
[hadoop@bigdata245 pyshell]$ touch run_task2.py
[hadoop@bigdata245 pyshell]$ touch run_task3.py
[hadoop@bigdata245 pyshell]$ touch run_task4.py
?
4個文件內(nèi)容如下
run_task1.py
?
#!/usr/bin/python3
# -*- coding: utf-8 -*-
print("task1:計算業(yè)務(wù)指標(biāo)數(shù)據(jù)...")
?
run_task2.py
?
#!/usr/bin/python3
# -*- coding: utf-8 -*-
print("task2:計算基礎(chǔ)數(shù)據(jù),為task1提供數(shù)據(jù)")
?
run_task3.py
?
#!/usr/bin/python3
# -*- coding: utf-8 -*-
print("task3:數(shù)據(jù)清洗,為task2提供數(shù)據(jù)")
?
run_task4.py
?
#!/usr/bin/python3
# -*- coding: utf-8 -*-
print("task4:從Slaves中抽取源數(shù)據(jù)")
3.將上述 job 打成zip包,上傳至 azkaban
上傳完成后,點擊右側(cè)Execute Flow按鈕,查看流程視圖?
Flow view:流程視圖。可以禁用,啟用某些job
Notification:定義任務(wù)成功或者失敗是否發(fā)送郵件
Failure Options:定義一個job失敗,剩下的job怎么執(zhí)行
Concurrent:并行任務(wù)執(zhí)行設(shè)置
Flow Parametters:參數(shù)設(shè)置。
4.執(zhí)行
(1).執(zhí)行一次,點擊右下角Execute?
(2).定時執(zhí)行,點擊左下角Schedule?
設(shè)置完成后,執(zhí)行右下角schedule,即完成調(diào)度配置,azkaban這里的配置與linux下的crontab類似?
想要查看job的調(diào)度列表,切換到Schedule菜單即可
5.查看項目flow中各個Job的執(zhí)行情況
?
綠色代表成功,藍色是運行,紅色是失敗。可以查看job運行時間,依賴和日志,點擊details可以查看各個job運行情況
三、MapReduce 任務(wù)
Azkaban 執(zhí)行 MapReduce 任務(wù),我們以 WordCount 為例
1.準(zhǔn)備數(shù)據(jù)
[hadoop@bigdata245 ~]$ hadoop fs -mkdir -p /azkaban/input
[hadoop@bigdata245 data]$ hadoop fs -put words.txt /azkaban/input
使用hadoop提供的jar統(tǒng)計單詞數(shù)量
[hadoop@bigdata245 mapreduce]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /azkaban/input/* /azkaban/outputs/
運行結(jié)果
?
2.創(chuàng)建項目
3.job創(chuàng)建
job
# mapreduce_wordcount.job
type = command
command=sh /home/hadoop/pyshell/wordcount.sh
?
4.打包上傳,執(zhí)行
5.查看運行結(jié)果
azkaban上打印的日志顯示已經(jīng)成功?
四、Hive 腳本任務(wù)
1.創(chuàng)建項目
hive_export_to_mysql
2.job創(chuàng)建
我們要完成,hive中創(chuàng)建表,加載數(shù)據(jù),然后導(dǎo)出數(shù)據(jù)到mysql,分為兩個job?
hive_task1:將hive中的數(shù)據(jù)導(dǎo)出到mysql中?
hive_task2:hive中創(chuàng)建表,加載數(shù)據(jù)?
依賴關(guān)系:hive_task1 依賴 hive_task2
3.flow創(chuàng)建
job 文件內(nèi)容如下
# hive_task1.job
type = command
command = sh /home/hadoop/pyshell/hive_task1.sh
dependencies = hive_task2
?
# hive_task2.job
type = command
command = sh /home/hadoop/pyshell/hive_task2.sh
?
腳本內(nèi)容如下
?
[hadoop@bigdata245 pyshell]$ cat hive_task1.sh
#!/bin/bash
/home/hadoop/app/sqoop1/bin/sqoop export \
--connect jdbc:mysql://bigdata245:3306/sqoop \
--username root --password P@ssw0rd \
--table EMP \
--export-dir /user/hive/warehouse/test.db/emp \
--input-fields-terminated-by ',' \
--input-null-string 'null' --input-null-non-string 'null' \
-m 1
?
[hadoop@bigdata245 pyshell]$ cat hive_task2
#!/bin/bash
hive -f /home/hadoop/pyshell/test.sql
?
sql文件 test.sql內(nèi)容如下
[hadoop@bigdata245 pyshell]$ cat test.sql
create database if not exists test;
use test;
drop table if exists emp;
create table emp(
empno int,
ename string,
job string
)
row format delimited fields terminated by ',';
load data local inpath '/home/hadoop/pyshell/emp.txt' overwrite into table emp;
?
emp.txt文件內(nèi)容如下
[hadoop@bigdata245 pyshell]$ cat emp.txt
1001,Tom,Java
1002,Jack,PHP
1003,Harvey,BigData
1004,David,IOS
1005,Kett,DBA
4.打包上傳
5.執(zhí)行,查看運行結(jié)果
執(zhí)行前記得先在mysql中創(chuàng)建表emp,sql語句如下
DROP TABLE IF EXISTS `EMP`;
CREATE TABLE `EMP` (
`empno` int(11) DEFAULT NULL,
`ename` varchar(255) DEFAULT NULL,
`job` varchar(255) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
SET FOREIGN_KEY_CHECKS=1;
?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的部署Azkaban多节点分布式模式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux--文件结构体struct f
- 下一篇: BO QUERY BUILDER - S