数据仓库专题(6)-数据仓库、主题域、主题概念与定义
一、數(shù)據(jù)倉(cāng)庫(kù)
????? 關(guān)于數(shù)據(jù)倉(cāng)庫(kù)概念的標(biāo)準(zhǔn)定義業(yè)內(nèi)認(rèn)可度比較高的,是由數(shù)據(jù)倉(cāng)庫(kù)之父比爾·恩門(mén)(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數(shù)據(jù)倉(cāng)庫(kù)》)一書(shū)中所提出:
????? 中文定義:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
????? 英文定義:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.
二、主題
????? 主題是與傳統(tǒng)數(shù)據(jù)庫(kù)的面向應(yīng)用相對(duì)應(yīng)的,是一個(gè)抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類(lèi)并進(jìn)行分析利用的抽象。每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀(guān)的分析領(lǐng)域。在邏輯意義上,它是對(duì)應(yīng)企業(yè)中某一宏觀(guān)分析領(lǐng)域所涉及的分析對(duì)象。面向主題的數(shù)據(jù)組織方式, 就是在較高層次上對(duì)分析對(duì)象數(shù)據(jù)的一個(gè)完整并且一致的描 述,能刻畫(huà)各個(gè)分析對(duì)象所涉及的企業(yè)各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相 對(duì)面向應(yīng)用的數(shù)據(jù)組織方式而言的, 是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象 級(jí)別。 與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用進(jìn)行數(shù)據(jù)組織的特點(diǎn)相對(duì)應(yīng), 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向主題進(jìn)行組織的。主題是根據(jù)分析的要求來(lái)確定的。這與按照數(shù)據(jù)處理或應(yīng)用的要求來(lái)組織數(shù)據(jù)是不同的。
三、主題域
主題域通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合。可以根據(jù)業(yè)務(wù)的關(guān)注點(diǎn),將這些數(shù)據(jù)主題劃分到不同的主題域。主題域的確定必須由最終用戶(hù)和數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)人員共同完成。
四、主題域、主題、實(shí)體間關(guān)系
主題設(shè)計(jì)是對(duì)主題域進(jìn)一步分解,細(xì)化的過(guò)程。主題域下面可以有多個(gè)主題,主題還可以劃分成更多的子主題,而實(shí)體則是不可劃分的最小單位。主題域、主題、實(shí)體的關(guān)系如下圖所示:
?
五、關(guān)于主題域的爭(zhēng)議
曾經(jīng)在看到過(guò)關(guān)于主題域的另外一個(gè)定義方式:“主題域是對(duì)某個(gè)主題進(jìn)行分析后確定的主題的邊界”。相關(guān)內(nèi)容如下文所示:
主題域是對(duì)某個(gè)主題進(jìn)行分析后確定的主題的邊界。分析主題域,確定要裝載到數(shù)據(jù)倉(cāng)庫(kù)的主題是 信息打包技術(shù)的第一步。而在進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)時(shí),一般是一次先建立一個(gè)主題或企業(yè)全部主題中的一部分,因此在大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程中都有一個(gè)主題域的 選擇過(guò)程。主題域的確定必須由最終用戶(hù)和數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)人員共同完成。
比如,對(duì)于A(yíng)dventure Works Cycle這種類(lèi)型的公司管理層需要分析的主題一般包括供應(yīng)商主題、商品主題、客戶(hù)主題和倉(cāng)庫(kù)主題。其中商品主題的內(nèi)容包括記錄超市商品的采購(gòu)情況、商品 的銷(xiāo)售情況和商品的存儲(chǔ)情況;客戶(hù)主題包括的內(nèi)容可能有客戶(hù)購(gòu)買(mǎi)商品的情況;倉(cāng)庫(kù)主題包括倉(cāng)庫(kù)中商品的存儲(chǔ)情況和倉(cāng)庫(kù)的管理情況等,如圖3-31所示。
圖3-31? 根據(jù)業(yè)務(wù)情況確定的分析主題
確定主題邊界實(shí)際上需要進(jìn)一步理解業(yè)務(wù)關(guān)系,因此在確定整個(gè)分析主題后,還需要對(duì)這些主題進(jìn)行初步的細(xì)化才便于獲取每一個(gè)主題應(yīng)該具有的邊界。對(duì)于圖3-31的4個(gè)主題及其在企業(yè)中的業(yè)務(wù)關(guān)系可以確定邊界如圖3-32所示。
?
?
圖3-32? 主題域的劃分
經(jīng)過(guò)對(duì)以上內(nèi)容深入分析,發(fā)現(xiàn)此定義與:”主題域通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合“并不矛盾,只是所站的視角不同,“數(shù)據(jù)主題集合”的觀(guān)點(diǎn)從數(shù)據(jù)著眼,前提是已經(jīng)經(jīng)過(guò)分析、梳理列出所有可能的數(shù)據(jù)主題,此處數(shù)據(jù)主題是細(xì)粒度的,是從微觀(guān)到宏觀(guān);“邊界論”的觀(guān)點(diǎn)中,某個(gè)主題是分析的主題,是宏觀(guān)概念,而非數(shù)據(jù)主題。
六、未完待續(xù)
? 分布式數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)模型設(shè)計(jì)進(jìn)行中,后續(xù)會(huì)持續(xù)更新,請(qǐng)關(guān)注QQ群:分布式數(shù)據(jù)倉(cāng)庫(kù)建模 398419457。
?
作者:張子良
出處:http://www.cnblogs.com/hadoopdev
本文版權(quán)歸作者所有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須保留此段聲明,且在文章頁(yè)面明顯位置給出原文連接,否則保留追究法律責(zé)任的權(quán)利。
總結(jié)
以上是生活随笔為你收集整理的数据仓库专题(6)-数据仓库、主题域、主题概念与定义的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Django中扩展Paginator实现
- 下一篇: svn Error:Wrong com