【商务智能】数据仓库 ( 多维数据模型 | 多维数据分析 )
商務智能系列文章目錄
【商務智能】數(shù)據(jù)預處理
【商務智能】數(shù)據(jù)倉庫 ( 多維數(shù)據(jù)模型 | 多維數(shù)據(jù)分析 )
文章目錄
- 商務智能系列文章目錄
- 前言
- 一、數(shù)據(jù)倉庫 與 傳統(tǒng)數(shù)據(jù)庫 區(qū)別
- 二、數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)
- 三、多維數(shù)據(jù)模型
- 1、星型模式
- 2、雪片模式
- 3、事實星座
- 四、在線分析處理
- 五、多維數(shù)據(jù)分析操作
- 總結(jié)
前言
上一篇博客 【商務智能】數(shù)據(jù)預處理 中講解了數(shù)據(jù)預處理操作 , 本篇博客介紹 數(shù)據(jù)倉庫 , 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫區(qū)別 , 多維數(shù)據(jù)模型 等 ;
一、數(shù)據(jù)倉庫 與 傳統(tǒng)數(shù)據(jù)庫 區(qū)別
數(shù)據(jù)倉庫特征 :
- 面向主題
- 集成
- 不可更新
- 隨時間不斷變化
數(shù)據(jù)倉庫定義 : 數(shù)據(jù)倉庫 是 用于 更好地 支持 企業(yè) / 組織 決策分析處理 , 面向主題的 , 集成的 , 不可更新的 , 隨時間不斷變化的 數(shù)據(jù)集合 ;
傳統(tǒng)的數(shù)據(jù)庫 又稱為 操作型數(shù)據(jù)庫 , 如 Oracle , MySQL 等數(shù)據(jù)庫 ;
| 數(shù)據(jù)粒度 | 細節(jié)的 | 綜合的 |
| 數(shù)據(jù)時效 | 存儲瞬間準確 | 過去的歷史數(shù)據(jù) |
| 是否只讀 | 可更新 | 不可更新 |
| 需求可知 | 操作時實現(xiàn)知道需求 | 操作時事先不知道需求 |
| 生命周期 | 生命周期符合 SDLC | 完全不同的生命周期 |
| 性能要求 | 性能要求高 | 性能要求低 |
| 操作大小 | 同一時刻操作一個單元的數(shù)據(jù) | 同一時刻操作一個集合的數(shù)據(jù) |
| 數(shù)據(jù)大小 | 單次操作數(shù)據(jù)量小 | 單次操作數(shù)據(jù)量大 |
| 驅(qū)動力量 | 事務驅(qū)動 | 分析驅(qū)動 |
| 具體用途 | 面向應用 | 面向分析 |
| 應用場景 | 支持日常操作 | 支持管理需求 |
| 數(shù)據(jù)內(nèi)容 | 業(yè)務相關數(shù)據(jù) | 決策相關數(shù)據(jù) |
| 數(shù)據(jù)模型 | 關系,層次結(jié)構(gòu) | 關系, 多維數(shù)據(jù)結(jié)構(gòu) |
| 數(shù)據(jù)訪問 | 隨機讀寫操作 | 只有查詢操作 |
| 工作負載 | 事物處理量大, 每個事物涉及記錄很少 | 查詢小, 每次需要查詢大量數(shù)據(jù) |
| 事務輸出 | 很少 | 很大 |
| 系統(tǒng)停機 | 災難性的系統(tǒng)宕機 | 延遲決策 |
二、數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)
數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu) :
- 數(shù)據(jù)源
- 集成工具
- 數(shù)據(jù)倉庫
- 數(shù)據(jù)倉庫服務器
- OLAP 服務器
- 元數(shù)據(jù)
- 元數(shù)據(jù)管理工具
- 數(shù)據(jù)集市
- 前臺分析工具
三、多維數(shù)據(jù)模型
多維數(shù)據(jù)模型 : 從 業(yè)務分析 角度 , 對數(shù)據(jù)進行 邏輯建模 的方法 ; 具有 簡單 , 易于理解 , 方便查詢 ;
多維數(shù)據(jù)模型 又稱為 維度數(shù)據(jù)模型 , 由 維度表 和 事實表 構(gòu)成 ;
1、星型模式
星型模式 : 中間有一個表 , 稱為 事實表 , 周圍有很多小表 , 這些表稱為 維表 ;
星型模式 缺點 :
① 星型模式 不支持 維 的層結(jié)構(gòu) ;
- 單一維表 : 每個 維 只有一個維表 , 所有的 維層屬性 都放在一個表中 , 沒有進行規(guī)范化 ;
- 單一維表 示例 : 以上述 “商品” 事實表的 時間 對應的維表 為例 , 將 年 , 月 , 日 , 時 , 分 , 秒 等字段放在同一個 維表 中 , 時間維 可以變成 多個維表 , 如只包含 年月日的維表 , 只包含 年 月 的維表 等 ;
② 數(shù)據(jù)冗余 :
- 數(shù)據(jù)冗余 : 每個 維表 都要表示所有的層 , 每個層有自己的屬性 , 有很多數(shù)據(jù)冗余 ;
- 數(shù)據(jù)冗余 示例 : 上述 時間維表 中每個商品 , 都要存儲完整的 年 , 月 , 日 , 時 , 分 , 秒 數(shù)據(jù) , 實際上商品的 年 , 月 , 等數(shù)據(jù) , 很多商品都是相同的 , 只記錄一次即可 , 不同所有的商品都記錄年月 信息 , 因此產(chǎn)生了大量的冗余數(shù)據(jù) ;
③ 不同維層屬性名相同查詢問題 :
- 不同維層 , 有相同的屬性 , 只能使用 換名 方式進行查詢 ;
- 不同維層 相同屬性示例 : 如 商店 事實表中 , 城市 , 省份 , 國家 , 每個層級都有一個經(jīng)理 Manager , 當 查詢 Manager 屬性時 , 直接將 城市經(jīng)理 , 省份經(jīng)理 , 國家經(jīng)理 , 都查詢出來了 , 無法查詢單獨一個級別的經(jīng)理信息 ;
2、雪片模式
對于 維層次 復雜的維
- 為了 避免 冗余數(shù)據(jù)占用過多空間
- 為了 支持 不同維層 相同屬性 查詢
使用多個維表 描述復雜的維 , 這樣在 星型模型 的 星的角上 , 出現(xiàn)了分支 , 類似于雪花形狀 , 因此這種變種的 星型模型 稱為 “雪片模型” ;
雪片模型 優(yōu)缺點 :
- 雪片模型優(yōu)點 : 雪片模型的維表是規(guī)范化的維表 , 雪片模型維表 易于維護 , 節(jié)省存儲空間 ;
- 雪片模型缺點 : 雪片模型 查詢時 , 需要 進行較多的連接操作 , 影響系統(tǒng)性能 ;
3、事實星座
該模型 比 星型模式 , 雪片模型 更復雜 , 上述兩個模型 , 只有一個事實表 , 但是 在事實星座模型中 , 有多個事實表 , 兩個事實表 , 可能公用一些維表 ;
四、在線分析處理
在線分析處理 : 一類軟件技術 , 分析人員 , 管理人員 利用該技術 , 從 多種視角 , 通過 快速 , 一致 , 交互 的訪問數(shù)據(jù) , 達到 對數(shù)據(jù)洞察 ;
五、多維數(shù)據(jù)分析操作
多維數(shù)據(jù)分析操作 :
切片 : 在 數(shù)據(jù)方體 某一維 , 選定一個 維成員 ;
切塊 : 在 數(shù)據(jù)方體 某一維 , 選定 某個區(qū)間的 維成員 ;
旋轉(zhuǎn) : 改變 數(shù)據(jù)方體 維次序 ;
下鉆 : 分析過程中 , 用戶需要從 更多維 或者 某個維更細層次上 觀察數(shù)據(jù) , 前者 增加更多的維 , 后者 在現(xiàn)有維上鉆取到更細一層的數(shù)據(jù) ;
上卷 : 分析過程中 , 用戶需要從 更少維 或者 某個維更粗層次上 觀察數(shù)據(jù) , 前者 減少一個維后分析 , 后者 上卷到現(xiàn)有的某個維的更高層次進行分析 ;
總結(jié)
本博客中從各個角度分析了 數(shù)據(jù)倉庫 與 數(shù)據(jù)塊 的區(qū)別 , 簡要介紹了數(shù)據(jù)倉庫體系結(jié)構(gòu) , 多維數(shù)據(jù)模型的三種模型結(jié)構(gòu) , 以及在多維數(shù)據(jù)模型中的數(shù)據(jù)分析操作 ;
總結(jié)
以上是生活随笔為你收集整理的【商务智能】数据仓库 ( 多维数据模型 | 多维数据分析 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【商务智能】数据预处理
- 下一篇: 【商务智能】商务智能 ( 概念 | 组成