数据仓库与数据挖掘实践期末复习总结
本篇內(nèi)容為筆者數(shù)據(jù)倉(cāng)庫(kù)挖掘與實(shí)踐的期末復(fù)習(xí)提綱范圍,提綱標(biāo)號(hào)為《數(shù)據(jù)倉(cāng)庫(kù)挖掘?qū)嵺`》的部分目錄。
文章目錄
- 1.1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)
- 定義
- 特征(4個(gè))
- 1.2.1 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成
- 定義
- 組成
- 1.2.2 ETL
- 1.4 數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)的關(guān)系
- 操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別
- 數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)的對(duì)比
- 2.3.1 多維數(shù)據(jù)模型及相關(guān)概念
- 2.3.4 幾種常見(jiàn)的基于關(guān)系數(shù)據(jù)庫(kù)的多維數(shù)據(jù)模型
- 3.1 OLAP概述
- 3.2 OLAP的多維數(shù)據(jù)模型
- 3.3.1 數(shù)據(jù)立方體的有效計(jì)算
- 5.1 關(guān)聯(lián)分析的概念
- 5.2 Aprior算法
- 7.1 分類(lèi)過(guò)程
- 7.3 決策樹(shù)分類(lèi)算法
- 7.4 樸素貝葉斯分類(lèi)算法
- 10.1 聚類(lèi)概述
- 10.2 K-means算法
- 10.3.1 層級(jí)聚類(lèi)算法概述
- 10.3.2 DIANA算法和AGNES算法
1.1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)
定義
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè) 面向主題的、穩(wěn)定的、集成的、隨時(shí)間變化的 數(shù)據(jù)的集合。
特征(4個(gè))
主題是指用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)領(lǐng)域。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)的集合。
面向主體組織的數(shù)據(jù)具有以下特點(diǎn):
A. 各個(gè)主題有完整、一致的內(nèi)容一邊在此基礎(chǔ)上進(jìn)行分析處理
B. 主題之間有重疊的內(nèi)容,反應(yīng)主題之間的聯(lián)系。重疊是邏輯上的,不是物理上的。
C. 個(gè)主題的綜合方式存在不同
D. 主題域應(yīng)該具有獨(dú)立性和完備性
數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)一般從企業(yè)原來(lái)已經(jīng)建立的數(shù)據(jù)庫(kù)系統(tǒng)中提取出來(lái),但并不是原有數(shù)據(jù)的簡(jiǎn)單復(fù)制,而是經(jīng)過(guò)了抽取、篩選、清理、轉(zhuǎn)換、綜合等工作。
數(shù)據(jù)倉(cāng)庫(kù)在某個(gè)時(shí)間段來(lái)看是不變的
定期從操作型數(shù)據(jù)庫(kù)系統(tǒng)之接收新的數(shù)據(jù)內(nèi)容
1.2.1 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成
定義
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)以數(shù)據(jù)倉(cāng)庫(kù)為核心,將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供平臺(tái)。通過(guò)數(shù)據(jù)分析與報(bào)表模塊和分析工具OLAP(聯(lián)機(jī)分析處理)、決策分析、數(shù)據(jù)挖掘完成對(duì)信息的提取,滿(mǎn)足決策需要。
組成
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)通常指的是一個(gè)數(shù)據(jù)庫(kù)環(huán)境
由以下3部分組成:
包含以下4個(gè)內(nèi)容:
A. 數(shù)據(jù)倉(cāng)庫(kù):整個(gè)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對(duì)數(shù)據(jù)檢索的支持。
B. 抽取工具:把數(shù)據(jù)從各種各樣的環(huán)境中提取出來(lái),進(jìn)行必要的轉(zhuǎn)化、整理,在存放到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)。
C. 元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù),位于數(shù)據(jù)倉(cāng)庫(kù)的上層,是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)、位置和建立方法的數(shù)據(jù)。
D. 數(shù)據(jù)集市:面向某個(gè)主題而從數(shù)據(jù)倉(cāng)庫(kù)中劃分出來(lái)的
OLAP服務(wù)是對(duì)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)提供分析的一種軟件。
數(shù)據(jù)報(bào)表、數(shù)據(jù)分析和數(shù)據(jù)挖掘?yàn)橛脩?hù)產(chǎn)生的各種數(shù)據(jù)分析和匯總報(bào)表,以及數(shù)據(jù)挖掘結(jié)果。
1.2.2 ETL
ETL:抽取、轉(zhuǎn)換、裝載。簡(jiǎn)稱(chēng)為數(shù)據(jù)抽取,按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程。
將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中抽取出來(lái)
按照原先設(shè)計(jì)好的規(guī)則將抽取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,是本來(lái)異構(gòu)的數(shù)據(jù)格式統(tǒng)一起來(lái)
將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中
1.4 數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)的關(guān)系
操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別
| 細(xì)節(jié)的 | 綜合的 |
| 存取瞬間 | 歷史數(shù)據(jù) |
| 可更新 | 不可更新 |
| 事先可知操作需求 | 操作需求事先不可知 |
| 符合軟件開(kāi)發(fā)的生命周期 | 完全不同的生命周期 |
| 對(duì)性能要求較高 | 對(duì)性能要求較為寬松 |
| 某一個(gè)時(shí)刻操作一個(gè)單元 | 某一個(gè)時(shí)刻操作一個(gè)集合 |
| 事務(wù)驅(qū)動(dòng) | 分析驅(qū)動(dòng) |
| 細(xì)節(jié)的 | 一次操作的數(shù)據(jù)量較大 |
數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)的對(duì)比
| 面向主題 | 面向應(yīng)用 |
| 容量巨大 | 容量相對(duì)較小 |
| 數(shù)據(jù)是綜合的或提煉的 | 數(shù)據(jù)是詳細(xì)的 |
| 保存歷史的數(shù)據(jù) | 保存當(dāng)前的數(shù)據(jù) |
| 通常數(shù)據(jù)是不可更新的 | 數(shù)據(jù)是可更新的 |
| 操作需求是臨時(shí)決定的 | 操作需求是事先可知的 |
| 一個(gè)操作存取一個(gè)數(shù)據(jù)集合 | 一個(gè)操作存取一條記錄 |
| 數(shù)據(jù)經(jīng)常冗余 | 數(shù)據(jù)非冗余 |
| 操作相對(duì)不頻繁 | 操作較頻繁 |
| 所查詢(xún)的是經(jīng)過(guò)加工的數(shù)據(jù) | 所查詢(xún)的是原始數(shù)據(jù) |
| 支持決策分析 | 支持事務(wù)處理 |
| 決策分析需要?dú)v史數(shù)據(jù) | 事務(wù)處理需要當(dāng)前數(shù)據(jù) |
| 需要復(fù)雜計(jì)算 | 鮮有復(fù)雜計(jì)算 |
| 服務(wù)對(duì)象為企業(yè)高層決策人員 | 服務(wù)對(duì)象為企業(yè)業(yè)務(wù)處理方面的人員 |
2.3.1 多維數(shù)據(jù)模型及相關(guān)概念
指數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)單元的詳細(xì)程度和級(jí)別,數(shù)據(jù)越詳細(xì),粒度越小,級(jí)別越低。
簡(jiǎn)稱(chēng)“維”,是指人們觀察事物的特定角度,概念上類(lèi)似于關(guān)系表的屬性
一個(gè)維是通過(guò)一組屬性來(lái)描述的,維的一個(gè)取值稱(chēng)為該維的一個(gè)成員
同一維度可以存在細(xì)節(jié)程度不同的各個(gè)值,可以將粒度大的值映射到粒度小的值上,這樣構(gòu)成為層次
度量是數(shù)據(jù)倉(cāng)庫(kù)中的信息單元,即多維空間中的一個(gè)單元,用以存放數(shù)據(jù),也稱(chēng)為事實(shí)。
2.3.4 幾種常見(jiàn)的基于關(guān)系數(shù)據(jù)庫(kù)的多維數(shù)據(jù)模型
三種模式:星形模式,雪花模式,事實(shí)星座模式
星形模式是最基本的模式,一個(gè)星形模式有多個(gè)維表,但只能存在一個(gè)事實(shí)表。在星形模式基礎(chǔ)上,構(gòu)造維表的層結(jié)構(gòu)(維表的規(guī)范化),得到雪花模式。如果打破星形模式只有一個(gè)事實(shí)表的限制,且這些事實(shí)表共享部分或全部已有維表信息,則稱(chēng)為事實(shí)星座模式。
3.1 OLAP概述
3.2 OLAP的多維數(shù)據(jù)模型
3.3.1 數(shù)據(jù)立方體的有效計(jì)算
5.1 關(guān)聯(lián)分析的概念
5.2 Aprior算法
7.1 分類(lèi)過(guò)程
7.3 決策樹(shù)分類(lèi)算法
7.4 樸素貝葉斯分類(lèi)算法
10.1 聚類(lèi)概述
10.2 K-means算法
10.3.1 層級(jí)聚類(lèi)算法概述
10.3.2 DIANA算法和AGNES算法
總結(jié)
以上是生活随笔為你收集整理的数据仓库与数据挖掘实践期末复习总结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Vue后台管理系统项目总结
- 下一篇: 计算机数控入门,数控基础知识课件