日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据ETL简介

發布時間:2023/12/20 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据ETL简介 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 1 數據抽取
  • 2 數據轉換
  • 3 數據加載


1 數據抽取

ETL(Extract-Transform-Load)是將數據從來源端經過抽取(extract)、轉換(transform)、加載
(load)??的端的過程。從數據源抽取出所需要的原始數據,經過數據清洗,最終將清洗后的數據加
載到數據倉庫中去。也稱為數據倉庫技術。

  • 數據源通過采集的?式獲取, 保存到數據倉庫
  • 通過數據清洗,處理完成落地到數據倉庫
  • 供業務使?
  • 數據抽取是從數據源抽取需要的原始數據,抽取的?式多種多樣,要根據數據源的特點來確定,通常有
    如下?種數據抽取的?式:
    1、從關系數據抽取數據
    通常OLTP系統采?關系數據庫存儲業務操作數據,從關系數據庫抽取操作型數據是最多?種數據抽取
    ?式。
    數據從關系數據庫抽取后通常會先以?件的?式存儲到分布式?件系統中(例如HDFS),?便ETL程序
    讀取原始數據。也有的是將抽取后的數據直接存儲到數據倉庫中,采?第?種?法需要提前在數據倉庫
    創建與原始數據相同結構的數據倉庫模型。
    2、從?志?件抽取
    OLTP系統通過?志系統將??的操作?志、系統?志等存儲在OLTP服務器上,由專?的采集程序從服
    務器上采集?志?件信息。
    3、從數據流接?抽取
    OLTP系統提供對外輸出數據的接?(?如telnet),采集系統與該接?對接,從數據流接?抽取需要的
    數據。

    2 數據轉換

    數據轉換也叫數據清洗轉換,是將采集過來的原始數據(通常原始數據存在?定的臟數據)清洗(過
    慮)掉不符合要求的臟數據,根據數據倉庫的要求對數據格式進?轉換,經過數據清洗轉換后是符合數
    據倉庫要求的數據。
    要清洗的臟數據的形式有:
    1、錯誤的數據
    存在數據內容錯誤的信息,?如學?選課信息中課程標識錯誤或選課?志?法等。
    2、不完整的數據
    是指信息不完整,?如學?選課信息中缺少學?或缺少課程的信息,這類信息是不符合學?選課數據模
    型的要求。
    3、重復數據
    第三類數據是要根據具體的業務進?單獨去重操作,?如:同?個課程學習會話中只允許有?條學習記
    錄,這?就要根據會話ID對數據進?去重操作。
    數據轉換的形式有:
    1、數據格式轉換
    對數據的格式進?轉換,通常轉換后數據內容是不變的,?如:數據倉庫要求的?期存儲格式是
    yyyymmdd,?采集過來的數據格式是yyyy-mm-dd,這?需要將yyyy-mm-dd的格式轉換為
    yyyymmdd。
    2、數據內容轉換
    對數據內容進?轉換,通常數據內容轉換后是不會改變原始數據內容的意義的,?如:數據倉庫要求存
    儲??所在區域,這?就需要根據采集過來的??IP地址從IP庫中查找出??的IP地址所對應的區域信
    息,這?根據IP地址轉換為區域就是數據內容的轉換。

    3 數據加載

    數據加載就是清洗轉換后的數據存儲到數據倉庫中,數據加載的?式包括:全量加載、增量加載。
    全量加載:
    全量加載相當于覆蓋加載的?式,每個加載都會覆蓋原始數據將數據全部加載的數據倉庫,此類加載?
    式通常?于維度數據。
    增量加載:
    增量加載按照?定的計劃(通常是時間計劃)逐步的將數據?批?批的將數據加載到數據倉庫,此類加
    載?式通常?于OLTP的業務操作數據。

    總結

    以上是生活随笔為你收集整理的大数据ETL简介的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。