日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据仓库ETL工具箱——元数据

發(fā)布時(shí)間:2023/12/20 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据仓库ETL工具箱——元数据 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

由于ETL是數(shù)據(jù)倉庫得核心,時(shí)常承擔(dān)著管理和存儲(chǔ)數(shù)據(jù)倉庫大量元數(shù)據(jù)得職責(zé)。在數(shù)據(jù)倉庫中ETL處理程序是元數(shù)據(jù)最重要得創(chuàng)建者——數(shù)據(jù)沿襲。數(shù)據(jù)沿襲追蹤數(shù)據(jù)從源系統(tǒng)和文件中得請確位置直到最終被裝載之前。數(shù)據(jù)血統(tǒng)包括數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)定義和在數(shù)據(jù)參考古中最終靜止?fàn)顟B(tài)。元數(shù)據(jù)分為后臺元數(shù)據(jù)和前端元數(shù)據(jù),后臺元數(shù)據(jù)是與處理相關(guān)的,指導(dǎo)抽取清洗裝載工作;前端元數(shù)據(jù)更偏向描述性和使我們的查詢工具和報(bào)表工具更加穩(wěn)定。后臺將數(shù)據(jù)加載到數(shù)據(jù)倉庫,同時(shí)指明數(shù)據(jù)來源,而前端元數(shù)據(jù)主要是為終端用戶服務(wù)的,可以作為描述所有數(shù)據(jù)的業(yè)務(wù)數(shù)據(jù)字典。對于元數(shù)據(jù)應(yīng)該進(jìn)行以下工作:

  • 制定完善的良好的注釋目錄
  • 判定每一部分究竟有多重要
  • 指定專人負(fù)責(zé)
  • 判定一個(gè)和諧一致的工作規(guī)則
  • 判定是否自己構(gòu)建還是購買
  • 專門存儲(chǔ)用以備份和恢復(fù)
  • 對需要他們的人們開放
  • 保證質(zhì)量,保證完整和及時(shí)更新
  • 實(shí)時(shí)控制

以上各項(xiàng)任務(wù)都需要完善的文檔。數(shù)據(jù)源規(guī)范:

  • 知識庫
  • 來源計(jì)劃
  • 拷貝記錄
  • 所有權(quán)或第三方來源計(jì)劃
  • 存檔主機(jī)數(shù)據(jù)的原有格式
  • 相關(guān)源系統(tǒng)數(shù)據(jù)表和DDL
  • 電子數(shù)據(jù)表
  • Lotus Notes 數(shù)據(jù)庫
  • 表達(dá)圖形
  • URL來源規(guī)格說明
  • 來源描述信息:

1.各來源的所有描述信息

2.各來源的業(yè)務(wù)描述

3.最初來源的更新頻率

4.各來源使用的司法局限性

5.存儲(chǔ)方法,讀取權(quán)限,和各來源存取口令

  • 處理信息

6.主機(jī)或源系統(tǒng)工作計(jì)劃

7.使用COBLO/JCL或C或Basic或其它語言來實(shí)現(xiàn)抽取

8.如果使用工具,則包含自動(dòng)化抽取工具的設(shè)置

9.特殊抽取的結(jié)果,包括抽取時(shí)間和工作完成率

關(guān)于元數(shù)據(jù)的描述,數(shù)據(jù)需要的信息:

  • 數(shù)據(jù)傳輸計(jì)劃和特殊傳輸結(jié)果
  • 數(shù)據(jù)傳送區(qū)的文件用法,包括持續(xù)時(shí)間消耗和所有者信息

維度表管理:

  • 規(guī)范化維度的定義和規(guī)范化事實(shí)的定義
  • 關(guān)聯(lián)源的Job規(guī)范,剝除域,查找屬性
  • 降低每一個(gè)引入描述屬性維度規(guī)則的變化速度
  • 每一個(gè)生產(chǎn)鍵所分配的當(dāng)前代理鍵,也包括內(nèi)存中執(zhí)行映射的查找表
  • 前一天生產(chǎn)維度的副本,最為比較差的基礎(chǔ)

轉(zhuǎn)換和聚合:

  • 數(shù)據(jù)清洗規(guī)范
  • 數(shù)據(jù)增加和映射轉(zhuǎn)換
  • 為數(shù)據(jù)挖掘所準(zhǔn)備的數(shù)據(jù)轉(zhuǎn)換
  • 目標(biāo)計(jì)劃涉及,源和目標(biāo)數(shù)據(jù)流,和目標(biāo)數(shù)據(jù)所有權(quán)
  • 數(shù)據(jù)庫管理系統(tǒng)的導(dǎo)入腳本
  • 聚合定義
  • 聚合用法統(tǒng)計(jì),基礎(chǔ)數(shù)據(jù)表使用統(tǒng)計(jì),以及潛在的聚合
  • 聚合更改日志

審計(jì),工作日志和文檔:

  • 數(shù)據(jù)沿襲和審計(jì)記錄
  • 數(shù)據(jù)轉(zhuǎn)換時(shí)間日志
  • 數(shù)據(jù)轉(zhuǎn)換運(yùn)行時(shí)間日志,成功記錄摘要,時(shí)間戳
  • 數(shù)據(jù)軟件版本號
  • 抽取過程的業(yè)務(wù)描述
  • 抽取文件,抽取軟件和抽取元數(shù)據(jù)的安全設(shè)置
  • 數(shù)據(jù)轉(zhuǎn)換的安全設(shè)置(授權(quán)口令)
  • 數(shù)據(jù)分段傳送區(qū)存檔文件日志和恢復(fù)進(jìn)程
  • 數(shù)據(jù)分段傳送區(qū)存檔文件日志安全設(shè)置

DBMS元數(shù)據(jù)中作用在以下部分:

  • 數(shù)據(jù)庫管理系統(tǒng)系統(tǒng)表目錄
  • 分區(qū)設(shè)置
  • 索引
  • 磁盤帶區(qū)規(guī)范
  • 程序處理提示
  • 數(shù)據(jù)庫管理系統(tǒng)級別和安全的權(quán)限和授權(quán)
  • 視圖的定義
  • 存儲(chǔ)過程和SQL管理腳本
  • 數(shù)據(jù)庫備份,狀態(tài)備份程序和備份安全性

在前端擴(kuò)展的元數(shù)據(jù)包括:

  • 縱列表分組的業(yè)務(wù)名稱和描述等等
  • 模糊查詢和報(bào)表定義
  • 連接規(guī)范工具設(shè)置
  • 靈活打印規(guī)范說明
  • 最終用戶文檔和培訓(xùn)幫助,包括供應(yīng)商提供和IT提供
  • 網(wǎng)絡(luò)安全用戶授權(quán)
  • 網(wǎng)絡(luò)安全鑒定證數(shù)
  • 網(wǎng)絡(luò)安全使用統(tǒng)計(jì),包括試圖讀取的日志和用戶ID
  • 個(gè)人使用者描述包括人力資源鏈接
  • 提高影響讀取權(quán)限的傳輸流暢性
  • 連接到合約人和合作者可以追蹤讀取權(quán)限的影響范圍
  • 數(shù)據(jù)原理,數(shù)據(jù)庫表,和視圖報(bào)告的使用和讀取映射
  • 資源回收統(tǒng)計(jì)
  • 收藏的網(wǎng)頁

?元數(shù)據(jù)包括了所有,從某種程度上來說,元數(shù)據(jù)是數(shù)據(jù)倉庫的DNA,它定義了所有元素及元素之間協(xié)同工作的方式。元數(shù)據(jù)可以分為以下三類:

  • 業(yè)務(wù)元數(shù)據(jù),在業(yè)務(wù)層面描述數(shù)據(jù)的含義
  • 技術(shù)元數(shù)據(jù),描繪數(shù)據(jù)的技術(shù)方面包括數(shù)據(jù)的屬性,如數(shù)據(jù)類型、長度、沿襲及評估統(tǒng)計(jì)等
  • 過程處理元數(shù)據(jù),介紹運(yùn)行ETL處理的統(tǒng)計(jì)信息,包括度量標(biāo)準(zhǔn)比如記錄導(dǎo)入成功,記錄丟失,處理時(shí)間等等
  • 除了這三種元數(shù)據(jù)之外,還應(yīng)該考慮元數(shù)據(jù)的標(biāo)準(zhǔn),數(shù)據(jù)倉庫后端的元數(shù)據(jù)流程如下圖:

    ?

    上圖描述了使用和收集的元數(shù)據(jù)的所有地方,包括:

    • 每一個(gè)數(shù)據(jù)階段的起源和處理步驟
    • 元數(shù)據(jù)資料庫作為第三方ETL工具的一個(gè)有利條件
    • 元數(shù)據(jù)需求構(gòu)架:源表,清洗和處理
    • 為終端用戶介紹有用的元數(shù)據(jù)
    • 抽取轉(zhuǎn)換應(yīng)用
    • 規(guī)范化元數(shù)據(jù)
    • 元數(shù)據(jù)的XML描述
    • 平面文件中元數(shù)據(jù)的缺失
    • 分析元數(shù)據(jù)的效果
    • 計(jì)劃創(chuàng)建描述沿襲的元數(shù)據(jù),業(yè)務(wù)定義,技術(shù)定義以及處理過程
    • 邏輯數(shù)據(jù)視圖
    • 抽取過程中源數(shù)據(jù)的捕獲計(jì)算
    • 源數(shù)據(jù)庫描述
    • ETL工具讀取ERP系統(tǒng)元數(shù)據(jù)
    • 數(shù)據(jù)評估的結(jié)果
    • 錯(cuò)誤事件跟蹤事實(shí)表
    • 審計(jì)維度
    • 代理鍵最高值
    • 聚合數(shù)據(jù)
    • 處理數(shù)據(jù)搭建OLAP架構(gòu)
    • 裝載到控制文件
    • 支持恢復(fù)處理的元數(shù)據(jù)
    • ETL參數(shù)
    • 任務(wù)依賴
    • 任務(wù)操作性統(tǒng)計(jì),如性能和資源的使用
    • 元數(shù)據(jù)資料庫報(bào)告
    • 數(shù)據(jù)表凈化規(guī)則

    ?業(yè)務(wù)定義對于數(shù)據(jù)倉庫至關(guān)重要,不僅是終端用戶需要業(yè)務(wù)定義,ETL也需要業(yè)務(wù)定義來給出正在操作數(shù)據(jù)的上下文關(guān)系。一個(gè)典型的業(yè)務(wù)定義矩陣包括3個(gè)主要組成部分:

    • 物理表和列名稱,數(shù)據(jù)參控股中數(shù)據(jù)元素的業(yè)務(wù)解釋是基于數(shù)據(jù)庫中真實(shí)的表和列名稱。
    • 業(yè)務(wù)列名稱,數(shù)據(jù)庫所存儲(chǔ)的數(shù)據(jù)元素在技術(shù)上是由前綴后綴和下劃線組成的。業(yè)務(wù)名稱需要技術(shù)性名稱和有實(shí)際意義名稱之間的翻譯
    • 業(yè)務(wù)定義,業(yè)務(wù)定義是指對業(yè)務(wù)屬性含義的描述。數(shù)據(jù)倉庫中每個(gè)屬性一定會(huì)有一個(gè)業(yè)務(wù)定義。

    所有ETL工具都支持捕獲和存儲(chǔ)元數(shù)據(jù),ETL工具應(yīng)該和數(shù)據(jù)模型工具、數(shù)據(jù)庫一起獲得業(yè)務(wù)定義,并通過BI工具把業(yè)務(wù)名稱和業(yè)務(wù)定義展現(xiàn)給最終用戶。

    數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫前需要進(jìn)行分析,指定數(shù)據(jù)改造計(jì)劃,使數(shù)據(jù)能夠較為理想的被導(dǎo)入到數(shù)據(jù)倉庫中,在分析源系統(tǒng)時(shí),需要以下元數(shù)據(jù)屬性:

    數(shù)據(jù)庫或文件系統(tǒng),當(dāng)涉及到源系統(tǒng)或文件的時(shí)候經(jīng)常用到這個(gè)屬性

    表規(guī)范,包括表的用途,表的大小,主鍵和預(yù)備鍵以及所有列的清單

    排異處理規(guī)則

    業(yè)務(wù)定義

    業(yè)務(wù)規(guī)則,針對于每張表都要有相應(yīng)的業(yè)務(wù)規(guī)則

    在數(shù)據(jù)倉庫項(xiàng)目中,數(shù)據(jù)分析階段需要大量時(shí)間研究源系統(tǒng),缺少源系統(tǒng)元數(shù)據(jù)和導(dǎo)致數(shù)據(jù)倉庫更多的故障,所有源系統(tǒng)的元數(shù)據(jù)必須在ETL開發(fā)之前提供給ETL團(tuán)隊(duì)。

    數(shù)據(jù)倉庫的數(shù)據(jù)字典時(shí)關(guān)于所有數(shù)據(jù)元素和他們業(yè)務(wù)定義的清單,與源系統(tǒng)業(yè)務(wù)定義相似,數(shù)據(jù)倉庫數(shù)據(jù)字典包括物理表和列名稱,業(yè)務(wù)名稱和業(yè)務(wù)定義。

    邏輯數(shù)據(jù)視圖時(shí)ETL的生命線,從元數(shù)據(jù)的角度上看,邏輯數(shù)據(jù)視圖是由從源到目的的映射,從邏輯上解釋了數(shù)據(jù)從源系統(tǒng)中抽取出來到裝載到數(shù)據(jù)倉庫中的整個(gè)流程。邏輯數(shù)據(jù)映射是元數(shù)據(jù)的重要部分。

    技術(shù)元數(shù)據(jù)服務(wù)于多種用途,它包括了到列名稱,數(shù)據(jù)類型,存儲(chǔ)和RAID矩陣的配置,需要了解數(shù)據(jù)倉庫中數(shù)據(jù)元素的物理模型及屬性。數(shù)據(jù)的技術(shù)定義是數(shù)據(jù)的容器和框架結(jié)構(gòu),必須了解數(shù)據(jù)定義的三種環(huán)境:

    • 源數(shù)據(jù)庫
    • 分段處理區(qū)域表
    • 數(shù)據(jù)倉庫展現(xiàn)區(qū)

    每個(gè)環(huán)境都應(yīng)該被提供一個(gè)E-R圖,每個(gè)系統(tǒng)至少要包含以下元素:

    • 表:表或文件的一份詳盡清單,這份清單有可能在抽取和裝載過程中使用,通常這份清單只提供邏輯數(shù)據(jù)映射的源系統(tǒng)數(shù)據(jù)表
    • 列:對于每張表,都需要一張數(shù)據(jù)映射所要求列的清單,由源系統(tǒng)的DBA提供
    • 數(shù)據(jù)類型:數(shù)據(jù)表的每一列都有一個(gè)數(shù)據(jù)類型,在不同數(shù)據(jù)庫系統(tǒng)中有些數(shù)據(jù)類型不盡相同,大部分ETL工具可以轉(zhuǎn)換相應(yīng)的數(shù)據(jù)類型
    • 關(guān)系型數(shù)據(jù)庫:關(guān)系型數(shù)據(jù)庫支持參照完整性,參照完整性和表之間的關(guān)聯(lián)關(guān)系能夠保證數(shù)據(jù)導(dǎo)入的唯一一致性,數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系是通過表與表之間的主外鍵連接展示的

    每一個(gè)潛在的數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)定義應(yīng)該是一致的。數(shù)據(jù)每一次進(jìn)入數(shù)據(jù)庫或者進(jìn)入文件后,數(shù)據(jù)質(zhì)量很容易發(fā)生變化。如果在各個(gè)環(huán)境中的數(shù)據(jù)定義各不相同,則需要在ETL系統(tǒng)中進(jìn)行轉(zhuǎn)換來避免數(shù)據(jù)不一致,必須要有下列數(shù)據(jù)定義的元數(shù)據(jù)內(nèi)容:

    • 表名稱:表和文件的物理名稱
    • 列名稱:表和文件中列的物理名稱
    • 數(shù)據(jù)類型:數(shù)字型、字符型、日期型、二進(jìn)制以及自定義數(shù)據(jù)類型
    • 域:數(shù)值要進(jìn)入的列被稱為域,域通過外鍵和檢查約束或數(shù)據(jù)庫頂端應(yīng)用來執(zhí)行
    • 參照完整性:數(shù)據(jù)倉庫中的參照完整性被認(rèn)為不是必要的,因?yàn)樗械臄?shù)據(jù)都是經(jīng)過ETL處理以受約束的形式進(jìn)入數(shù)據(jù)庫的,在數(shù)據(jù)庫級不需要強(qiáng)制的完整性約束
    • 約束:約束時(shí)業(yè)務(wù)規(guī)則的另一種物理執(zhí)行,數(shù)據(jù)庫約束可以消除空值,爭搶外鍵查找等
    • 缺省值:萬一實(shí)際值是不可獲取的,ETL元數(shù)據(jù)的缺省值可以分配為字符串類型,數(shù)字型,日期型或bit型。在源系統(tǒng)中,缺省值經(jīng)常被分配為數(shù)據(jù)庫級別的。在數(shù)據(jù)倉庫中,缺省值的指派發(fā)生在ETL處理中,數(shù)據(jù)倉庫中的缺省值最好堅(jiān)持始終如一的一致性
    • 存儲(chǔ)過程:存儲(chǔ)過程存儲(chǔ)了已經(jīng)在數(shù)據(jù)庫中寫好的SQL語句,可以通過存儲(chǔ)過程看到源數(shù)據(jù)是如何使用的,每個(gè)數(shù)據(jù)倉庫項(xiàng)目都要涉及到源系統(tǒng)的分析型存儲(chǔ)過程
    • 觸發(fā):當(dāng)數(shù)據(jù)庫系統(tǒng)中的記錄要增加,刪除或更新時(shí)通過觸發(fā)自動(dòng)執(zhí)行SQL程序。像存儲(chǔ)過程一樣,通過觸發(fā)器,也可以指導(dǎo)數(shù)據(jù)時(shí)如何使用的。觸發(fā)經(jīng)常通過向加入到表中的數(shù)據(jù)增加額外的檢查來增強(qiáng)外鍵約束。當(dāng)表中的數(shù)據(jù)發(fā)生變化或被刪除時(shí),觸發(fā)還承擔(dān)審核表的責(zé)任,審核表時(shí)數(shù)據(jù)倉庫中刪除數(shù)據(jù)的重要審核來源。

    業(yè)務(wù)規(guī)則可以分為業(yè)務(wù)或技術(shù)源數(shù)據(jù),多有的業(yè)務(wù)規(guī)則都要以彪馬的形式被包含在ETL過程中,業(yè)務(wù)規(guī)則可以包括起始域中的任何允許值、缺省值和計(jì)算。在源系統(tǒng)中,業(yè)務(wù)規(guī)則在存儲(chǔ)過程、強(qiáng)制約束或數(shù)據(jù)庫觸發(fā)中被執(zhí)行,但是業(yè)務(wù)規(guī)則還是最常出現(xiàn)在應(yīng)用程序中。業(yè)務(wù)規(guī)則的元數(shù)據(jù)會(huì)在功能性或者技術(shù)性文檔和本地程序語言的源代碼或偽代碼之間進(jìn)行改變。業(yè)務(wù)規(guī)則必須和邏輯數(shù)據(jù)視圖緊密結(jié)合在一起,有時(shí)業(yè)務(wù)規(guī)則會(huì)在邏輯數(shù)據(jù)視圖中被忽略,直到執(zhí)行完第一次ETL處理之后才被人注意,或被用戶在UAT中發(fā)現(xiàn)。當(dāng)有新的業(yè)務(wù)規(guī)則是,邏輯數(shù)據(jù)視圖的元數(shù)據(jù)必須更新來反映新的規(guī)則。

    當(dāng)ETL物理程序被建立之后,一定要生成明確的元數(shù)據(jù)來捕獲每個(gè)處理的內(nèi)部工作,ETL元數(shù)據(jù)可以被分為四類:

    • ETL任務(wù)元數(shù)據(jù):任務(wù)元數(shù)據(jù)包含了數(shù)據(jù)倉庫中各元素?cái)?shù)據(jù)沿襲
    • 轉(zhuǎn)換元數(shù)據(jù):每個(gè)任務(wù)都由多個(gè)轉(zhuǎn)換組成,任務(wù)中數(shù)據(jù)處理的任何形式都是由專門轉(zhuǎn)換工作來執(zhí)行的
    • 批處理元數(shù)據(jù):批處理時(shí)一種執(zhí)行任務(wù)集合的技術(shù),應(yīng)該具有配置執(zhí)行連續(xù)性和并行處理的能力,包含分支批處理
    • 處理元數(shù)據(jù):每當(dāng)執(zhí)行批處理,就會(huì)生成處理元數(shù)據(jù),對于描述數(shù)據(jù)是否被陳工裝載到的數(shù)據(jù)倉庫中,處理元數(shù)據(jù)非常重要

    下圖展現(xiàn)了ETL任務(wù)元數(shù)據(jù)被創(chuàng)建,存儲(chǔ)和發(fā)布的元素:

    ?

    • 任務(wù)名稱:物理ETL任務(wù)名稱
    • 任務(wù)用途:最初中心任務(wù)的簡要描述
    • 源表/文件:所有源數(shù)據(jù)的名稱和路徑位置
    • 目的表/文件:在轉(zhuǎn)換完成之后所有結(jié)果數(shù)據(jù)的名稱和目錄路徑
    • 丟棄文件名稱:丟棄文件的名稱和路徑位置(在裝載過程中沒有載入目的地址的數(shù)據(jù)表或文件稱為丟棄文件)
    • 預(yù)處理前置任務(wù):在任務(wù)被執(zhí)行之前需要處理任務(wù)或腳本
    • 后置任務(wù):在任務(wù)處理之后需要執(zhí)行的任務(wù)或腳本

    任務(wù)是一系列轉(zhuǎn)換的集合,這些轉(zhuǎn)換執(zhí)行物理上的抽取、轉(zhuǎn)換和裝載程序。一個(gè)任務(wù)的元數(shù)據(jù)是物理的源到目的映射,任務(wù)應(yīng)該根據(jù)裝載的目標(biāo)表或文件來命名,ETL任務(wù)大致上可以分為三類:

    • 抽取,EXT_<table_name>,從名稱中看出這個(gè)任務(wù)的主要目的是從源系統(tǒng)中抽取數(shù)據(jù)
    • 中間階段,STG_<table_name>,是一個(gè)數(shù)據(jù)存在于集結(jié)區(qū)的中間過程
    • 目標(biāo),TRG_<table_name>意味著任務(wù)是裝載數(shù)據(jù)到目標(biāo)數(shù)據(jù)倉庫的

    轉(zhuǎn)換元數(shù)據(jù)是關(guān)于ETL處理構(gòu)造的信息,轉(zhuǎn)換是由客戶化函數(shù),存儲(chǔ)程序,常規(guī)程序組成的,這些程序包含了指針、循環(huán)、內(nèi)存變量。在ETL處理過程中的任何對數(shù)據(jù)的操作都被認(rèn)為是轉(zhuǎn)換。專門的ETL工具為數(shù)據(jù)倉庫環(huán)境預(yù)先定義了通用轉(zhuǎn)換,并把他們打包提供給使用者。預(yù)先建立的轉(zhuǎn)換加速了ETL的開發(fā),而且還可以在暗中捕獲轉(zhuǎn)換元數(shù)據(jù)。在大部分ETL任務(wù)中的通用數(shù)據(jù)轉(zhuǎn)換包括:

    • 源數(shù)據(jù)抽取
    • 代理鍵生成器
    • 查找
    • 篩選
    • 路由器
    • 聯(lián)合
    • 聚合
    • 異構(gòu)連接
    • 更新策略
    • 目標(biāo)裝載器

    每個(gè)轉(zhuǎn)換獲得數(shù)據(jù),操作數(shù)據(jù)的程度,然后傳送數(shù)據(jù)到任務(wù)隊(duì)列中進(jìn)行下一個(gè)轉(zhuǎn)換,描述轉(zhuǎn)換的元數(shù)據(jù)屬性包括:

    • 轉(zhuǎn)換名稱
    • 轉(zhuǎn)換的意圖
    • 輸入列
    • 物理計(jì)算
    • 邏輯計(jì)算
    • 輸出列

    轉(zhuǎn)換是ETL任務(wù)的一個(gè)構(gòu)成部分,每種轉(zhuǎn)換在名命格式上都會(huì)稍有不同,由于可維護(hù)性的原因,在建立ETL轉(zhuǎn)換時(shí)最好遵從以下名命規(guī)則:

    • 源數(shù)據(jù)抽取:SRC_<table_name>
    • 代理鍵生成器:SEQ_<table_name>
    • 查找:LKP_<正在加載或引用的table_name>
    • 篩選:FIL_<用途>
    • 聚合:AGG_<用途>
    • 異構(gòu)連接:HJN_<第一張table_name>_<第二張table_name>
    • 更新策略:UPD_<操作類型(INS,UPD,DEL,UPS)>_<標(biāo)記table_name>
    • 目標(biāo)裝載器:TRG_<標(biāo)記表名>

    裝載進(jìn)度取決于以下因素:

    • 依賴的批處理
    • 頻度
    • 執(zhí)行進(jìn)度
    • 恢復(fù)步驟

    數(shù)據(jù)倉庫中所有的處理元數(shù)據(jù)都是由ETL過程生成的,每次一個(gè)任務(wù)或批處理執(zhí)行,統(tǒng)計(jì)或成功指示器都需要被捕獲。導(dǎo)入統(tǒng)計(jì)是元數(shù)據(jù)的一個(gè)重要部分。元數(shù)據(jù)元素可以幫助理解ETL任務(wù)中的活動(dòng)和批處理或評估成功的處理:

    • 主題名稱:可以是數(shù)據(jù)集市或者描述為某個(gè)特定區(qū)域而執(zhí)行批處理
    • 任務(wù)名稱:執(zhí)行程序的名稱
    • 處理行:從源數(shù)據(jù)系統(tǒng)中讀取或處理的行數(shù)統(tǒng)計(jì)和百分比統(tǒng)計(jì)
    • 成功行數(shù):裝載到數(shù)據(jù)倉庫中數(shù)據(jù)的總數(shù)和百分比
    • 失敗行數(shù):被數(shù)據(jù)倉庫拒絕的數(shù)據(jù)總數(shù)和百分比
    • 最近錯(cuò)誤代碼:在數(shù)據(jù)裝載過程中,最近的數(shù)據(jù)庫或者ETL異常的錯(cuò)誤代碼
    • 最近錯(cuò)誤:最近錯(cuò)誤的文本描述
    • 讀取能力:用來衡量ETL處理性能的,用行/秒來描述,當(dāng)源系統(tǒng)讀取發(fā)生瓶頸時(shí),記錄讀取能力
    • 寫能力:用來衡量ETL處理性能的,用行/秒來描述
    • 開始時(shí)間:任務(wù)開始時(shí)的日期,時(shí)間和分秒
    • 結(jié)束時(shí)間:任務(wù)結(jié)束時(shí)的日期,時(shí)間和分秒,不考慮任務(wù)是否成功
    • 耗時(shí):性能分析的重要指標(biāo)
    • 源文件名稱:ETL抽取涉及的數(shù)據(jù)的表或文件的名稱
    • 目標(biāo)文件名稱:ETL涉及目標(biāo)的數(shù)據(jù)的表或文件名稱

    處理執(zhí)行元數(shù)據(jù)在數(shù)據(jù)存儲(chǔ)中保留,以便進(jìn)行趨勢分析,分析元數(shù)據(jù)可以發(fā)現(xiàn)ETL處理的瓶頸,可以保證數(shù)據(jù)倉庫性能的可控性,同時(shí)也可以衡量數(shù)據(jù)質(zhì)量。

    • 在執(zhí)行過程中,可能引起數(shù)據(jù)記錄異常條件,可以采取以下措施:
    • 主題名稱:可以是數(shù)據(jù)集市或關(guān)于批處理的描述
    • 任務(wù)名稱:執(zhí)行程序的名稱
    • 異常條件:異常條件的標(biāo)準(zhǔn)設(shè)置
    • 嚴(yán)重性
    • 采取措施
    • 操作員
    • 結(jié)果

    批處理是一系列要執(zhí)行的ETL任務(wù)調(diào)度的集合,批處理的名稱應(yīng)該可以反應(yīng)出其所屬主題,任務(wù)執(zhí)行的頻率和任務(wù)中批處理執(zhí)行方式是并行還是串行。

    為了維護(hù)企業(yè)級數(shù)據(jù)倉庫所有ETL過程中可管理的任務(wù),數(shù)據(jù)倉庫必須要建立標(biāo)準(zhǔn),制定時(shí)考慮下列標(biāo)準(zhǔn):

    • 命名習(xí)慣
    • 體系結(jié)構(gòu)
    • 基礎(chǔ)構(gòu)造

    維護(hù)ETL元數(shù)據(jù)的一個(gè)有利條件是元數(shù)據(jù)可以進(jìn)行效果分析,通過效果分析,可以列出數(shù)據(jù)倉庫環(huán)境中的所有可以改變的特征,還可以分析這些變化所帶來的影響。ETL工具要記錄源系統(tǒng)所有表,列到他們裝載到數(shù)據(jù)倉庫中的所有信息。

    本篇介紹了元數(shù)據(jù)的分類,至此所有數(shù)據(jù)倉庫中關(guān)于ETL工具的技術(shù)內(nèi)容全部介紹完畢,下一篇將介紹ETL小組的職責(zé)作為本書內(nèi)容的收官之比。

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    總結(jié)

    以上是生活随笔為你收集整理的数据仓库ETL工具箱——元数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。