大数据ETL简介
目錄
- 1 數據抽取
- 2 數據轉換
- 3 數據加載
1 數據抽取
ETL(Extract-Transform-Load)是將數據從來源端經過抽取(extract)、轉換(transform)、加載
(load)??的端的過程。從數據源抽取出所需要的原始數據,經過數據清洗,最終將清洗后的數據加
載到數據倉庫中去。也稱為數據倉庫技術。
數據抽取是從數據源抽取需要的原始數據,抽取的?式多種多樣,要根據數據源的特點來確定,通常有
如下?種數據抽取的?式:
1、從關系數據抽取數據
通常OLTP系統采?關系數據庫存儲業務操作數據,從關系數據庫抽取操作型數據是最多?種數據抽取
?式。
數據從關系數據庫抽取后通常會先以?件的?式存儲到分布式?件系統中(例如HDFS),?便ETL程序
讀取原始數據。也有的是將抽取后的數據直接存儲到數據倉庫中,采?第?種?法需要提前在數據倉庫
創建與原始數據相同結構的數據倉庫模型。
2、從?志?件抽取
OLTP系統通過?志系統將??的操作?志、系統?志等存儲在OLTP服務器上,由專?的采集程序從服
務器上采集?志?件信息。
3、從數據流接?抽取
OLTP系統提供對外輸出數據的接?(?如telnet),采集系統與該接?對接,從數據流接?抽取需要的
數據。
2 數據轉換
數據轉換也叫數據清洗轉換,是將采集過來的原始數據(通常原始數據存在?定的臟數據)清洗(過
慮)掉不符合要求的臟數據,根據數據倉庫的要求對數據格式進?轉換,經過數據清洗轉換后是符合數
據倉庫要求的數據。
要清洗的臟數據的形式有:
1、錯誤的數據
存在數據內容錯誤的信息,?如學?選課信息中課程標識錯誤或選課?志?法等。
2、不完整的數據
是指信息不完整,?如學?選課信息中缺少學?或缺少課程的信息,這類信息是不符合學?選課數據模
型的要求。
3、重復數據
第三類數據是要根據具體的業務進?單獨去重操作,?如:同?個課程學習會話中只允許有?條學習記
錄,這?就要根據會話ID對數據進?去重操作。
數據轉換的形式有:
1、數據格式轉換
對數據的格式進?轉換,通常轉換后數據內容是不變的,?如:數據倉庫要求的?期存儲格式是
yyyymmdd,?采集過來的數據格式是yyyy-mm-dd,這?需要將yyyy-mm-dd的格式轉換為
yyyymmdd。
2、數據內容轉換
對數據內容進?轉換,通常數據內容轉換后是不會改變原始數據內容的意義的,?如:數據倉庫要求存
儲??所在區域,這?就需要根據采集過來的??IP地址從IP庫中查找出??的IP地址所對應的區域信
息,這?根據IP地址轉換為區域就是數據內容的轉換。
3 數據加載
數據加載就是清洗轉換后的數據存儲到數據倉庫中,數據加載的?式包括:全量加載、增量加載。
全量加載:
全量加載相當于覆蓋加載的?式,每個加載都會覆蓋原始數據將數據全部加載的數據倉庫,此類加載?
式通常?于維度數據。
增量加載:
增量加載按照?定的計劃(通常是時間計劃)逐步的將數據?批?批的將數據加載到數據倉庫,此類加
載?式通常?于OLTP的業務操作數據。
總結
- 上一篇: AppCan TreeView
- 下一篇: CTS测试中testCameraOrie