ETL异构数据源Datax_部署前置环境_01
文章目錄
- 一、概述
- 1. 是什么?
- 2. 開源地址
- 二、簡介
- 2.1. 設計架構
- 2.2. 框架結構
- 三、檢查環境
- 3.1. 檢驗是否安裝JDK(1.8以上,推薦1.8)
- 3.2. 檢驗是否安裝python環境,要求2.6=<版本
- 3.3. maven環境
- 四、JDK環境安裝
- 4.1. rpm方式安裝
- 4.2. gz方式安裝
- 五、python環境安裝
- 5.1. python 最新版下載
- 5.2. python 下載指定版本
- 5.3. python 安裝
一、概述
1. 是什么?
DataX 是阿里巴巴集團內被廣泛使用的離線數據同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構數據源之間高效的數據同步功能。
2. 開源地址
https://github.com/alibaba/DataX
######3. DataX下載地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
二、簡介
2.1. 設計架構
數據交換通過DataX進行中轉,任何數據源只要和DataX連接上即可以和已實現的任意數據源同步
2.2. 框架結構
核心組件:
Reader:數據采集模塊,負責從源采集數據
Writer:數據寫入模塊,負責寫入目標庫
Framework:數據傳輸通道,負責處理數據緩沖等
以上只需要重寫Reader與Writer插件,即可實現新數據源支持
支持主流數據源,詳見https://github.com/alibaba/DataX/blob/master/introduction.md
從一個JOB來理解datax的核心模塊組件:
datax完成單個數據同步的作業,稱為Job,job會負責數據清理、任務切分等工作;
任務啟動后,Job會根據不同源的切分策略,切分成多個Task并發執行,Task就是執行作業的最小單元
切分完成后,根據Scheduler模塊,將Task組合成TaskGroup,每個group負責一定的并發和分配Task
三、檢查環境
3.1. 檢驗是否安裝JDK(1.8以上,推薦1.8)
java -version3.2. 檢驗是否安裝python環境,要求2.6=<版本
python3.3. maven環境
Apache Maven 3.x (Compile DataX)
源碼編譯環境
Linux環境安裝并配置Maven
四、JDK環境安裝
安裝方式任選其一
4.1. rpm方式安裝
安裝jdk rpm -ivh jdk-8u271-linux-x64.rpm#設置環境變量 export JAVA_HOME=/usr/java/jdk1.8.0_271-amd64 export PATH=$JAVA_HOME/bin:$PATH source .bash_profilejava -version4.2. gz方式安裝
CentOS 7 安裝jdk
五、python環境安裝
Python(推薦Python2.6.X=<版本)
5.1. python 最新版下載
官網:https://www.python.org/downloads/
聲明:請根據系統環境下載
5.2. python 下載指定版本
根據需求下載即可
Python-2.7.18.tgz下載地址:
https://www.python.org/downloads/release/python-2718/
5.3. python 安裝
#上傳服務器指定目錄 根據需求而定#解壓 cd /app tar -zxvf Python-2.7.18.tgz#指定安裝目錄 ./configure --prefix=/usr/local/python-2.7.18#編譯 make#安裝 make install#加入環境變量 vi .bash_profile export PATH=/usr/local/python-2.7.18/bin:$PATH#刷新環境變量 source .bash_profile#驗證 python操作記錄:
[root@localhost ~]# python Python 2.7.5 (default, Aug 7 2019, 00:51:29) [GCC 4.8.5 20150623 (Red Hat 4.8.5-39)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>>總結
以上是生活随笔為你收集整理的ETL异构数据源Datax_部署前置环境_01的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Flowable 数据库表结构 ACT_
- 下一篇: Jenkins操作手册