数据挖掘——数据仓库
雖然存在數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘的先決條件,但實際上,若能訪問數(shù)據(jù)倉庫,數(shù)據(jù)挖掘的任務就會變得容易的多。
數(shù)據(jù)倉庫的主要目標是增加決策過程的“情報”和此過程的相關人員的知識。數(shù)據(jù)倉庫對不同的人來說有不同的意義。
數(shù)據(jù)倉庫是一個集成的,面向主題的數(shù)據(jù)庫集合,用于實現(xiàn)決策支持功能(DSF),其中的每個數(shù)據(jù)單元都和某個時刻相關。
根據(jù)這個定義,數(shù)據(jù)倉庫也可看成是某個組織的數(shù)據(jù)存儲庫,用于支持戰(zhàn)略決策。數(shù)據(jù)倉庫的功能是以集成的方式存儲某組織的歷史數(shù)據(jù),來反應這個組織和企業(yè)的多個方面。數(shù)據(jù)倉庫中的數(shù)據(jù)永遠不會更新,僅用于相應終端用戶的查詢。一般來說,數(shù)據(jù)倉庫非常的大,存儲了數(shù)以億計的記錄。
要更好的理解數(shù)據(jù)倉庫的設計過程,最重要的是兩個方面:
? ?第一是數(shù)據(jù)倉庫中存儲的數(shù)據(jù)的特定類型(分類);
? ?第二是對數(shù)據(jù)進行什么轉換才能使數(shù)據(jù)變成有利于決策的最終形式。
數(shù)據(jù)倉庫包括一下數(shù)據(jù)類別,這個分類適用于依賴時間的數(shù)據(jù)源。
? 1、過去細節(jié)數(shù)據(jù)
? 2、當前(新)細節(jié)數(shù)據(jù)
? 3、輕度綜合數(shù)據(jù)
? 4、高度綜合數(shù)據(jù)
? 5、元數(shù)據(jù)(數(shù)據(jù)目錄或者向導)
為了在數(shù)據(jù)倉庫中準備這5種基本數(shù)據(jù)或者導出數(shù)據(jù),數(shù)據(jù)轉換的基本類型已經(jīng)標準化。有以下4中主要轉換形式,每一種轉換形式都有自己的特點:
? 第一種?簡單轉換—— 這種轉換是所有其他復雜類型轉換的基石。這種類型的轉換包括一次只操作一個字段中的數(shù)據(jù),而不考慮相關字段的值。
?
? 第二種 清潔和凈化——這種轉換確保一個字段或一組相關的字段采用一致的格式和用法。
? 第三種 集成——這個過程從一個或者多個數(shù)據(jù)源中提取操作類型數(shù)據(jù),并逐個字段地把它們映射到數(shù)據(jù)倉庫中的新數(shù)據(jù)結構上。在構建數(shù)據(jù)倉庫時,常見的標識符問題是最難的繼承問題之一。當同一個實體有多個系統(tǒng)源,但無法將這些實體區(qū)分開時,就會出現(xiàn)這種情況。
? 第四種 聚合和總結——這個方法將操作環(huán)境中的數(shù)據(jù)實例濃縮成數(shù)據(jù)倉庫環(huán)境中更少的實例??偨Y是一維或者多維數(shù)據(jù)值的簡單相加。聚合指的是不同商業(yè)元素相加得到一個總計,它高度依賴于域。
?這些轉換是把數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘過程的數(shù)據(jù)源的主要原因。如果數(shù)據(jù)倉庫可用,數(shù)據(jù)挖掘的預處理階段就可以極大地簡化,有時候甚至可以去掉。數(shù)據(jù)準備是最耗時間的階段。
數(shù)據(jù)倉庫的開發(fā)過程可概括為3個階段:
? ?1、建?!唵蔚卣f,就是花時間了解商業(yè)過程,這些過程的信息需求以及在這些過程中做出的當前的決策。
??
? ?2、構建——確定對工具的需求,該工具符合目標商業(yè)過程所需的決策支持類型;創(chuàng)建一個有助于進一步定義信息需求的數(shù)據(jù)模型;把問題分解為數(shù)據(jù)規(guī)范和實際的數(shù)據(jù)存儲庫,數(shù)據(jù)存儲最終會表示為數(shù)據(jù)集市或者更加全面的數(shù)據(jù)倉庫。
? 3、部署—— 用戶研究存儲庫(了解可用的和應當可用的數(shù)據(jù))和實際數(shù)據(jù)倉庫的早期版本。這會使數(shù)據(jù)倉庫出現(xiàn)演化,包括增加更多的數(shù)據(jù)擴充歷史周期或重新回到構建階段,以方便通過數(shù)據(jù)模型來擴展數(shù)據(jù)倉庫的范圍。
? 數(shù)據(jù)倉庫的唯一功能是向終端用戶提供信息已作出決策。數(shù)據(jù)倉庫也允許終端用戶提取隱藏的,重要的信息。這種信息雖然更加難以提取,但能提供更大的商業(yè)和科學利益。
? 與其他典型的數(shù)據(jù)倉庫應用(如結構化查詢語言SQL)和聯(lián)機分析處理工具(OLAP)的不同
? ? ? ?SQL:一種標準的關系數(shù)據(jù)庫語言,善于進行在數(shù)據(jù)庫數(shù)據(jù)上強加一些約束條件以獲取答案;
? ? ? ?數(shù)據(jù)挖掘:進行另外一種本質上的探測性分析:獲取隱藏的,不那么明顯的信息。
? ? ? OLAP:是決策支持的一部分。他回答了為什么某些事情是正確的。用戶可以建立一個關聯(lián)假設,二隊數(shù)據(jù)執(zhí)行一系列查詢來驗證該假設。OLAP分析實際上是一個推導過程。OLAP工具不依賴與數(shù)據(jù),也不創(chuàng)造新的知識。它們通常是根據(jù)圖形化濃縮的數(shù)據(jù),幫助終端用用戶做出結論和決策的。具有專門用途的可視化工具。
總結
以上是生活随笔為你收集整理的数据挖掘——数据仓库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 王彪20162321 2016-2017
- 下一篇: delphi中利用Indy的TIdFtp