日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据仓库与数据挖掘实践期末复习总结

發(fā)布時(shí)間:2024/8/1 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据仓库与数据挖掘实践期末复习总结 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本篇內(nèi)容為筆者數(shù)據(jù)倉(cāng)庫(kù)挖掘與實(shí)踐的期末復(fù)習(xí)提綱范圍,提綱標(biāo)號(hào)為《數(shù)據(jù)倉(cāng)庫(kù)挖掘?qū)嵺`》的部分目錄。

文章目錄

  • 1.1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)
    • 定義
    • 特征(4個(gè))
  • 1.2.1 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成
    • 定義
    • 組成
  • 1.2.2 ETL
  • 1.4 數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)的關(guān)系
    • 操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別
    • 數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)的對(duì)比
  • 2.3.1 多維數(shù)據(jù)模型及相關(guān)概念
  • 2.3.4 幾種常見(jiàn)的基于關(guān)系數(shù)據(jù)庫(kù)的多維數(shù)據(jù)模型
  • 3.1 OLAP概述
  • 3.2 OLAP的多維數(shù)據(jù)模型
  • 3.3.1 數(shù)據(jù)立方體的有效計(jì)算
  • 5.1 關(guān)聯(lián)分析的概念
  • 5.2 Aprior算法
  • 7.1 分類(lèi)過(guò)程
  • 7.3 決策樹(shù)分類(lèi)算法
  • 7.4 樸素貝葉斯分類(lèi)算法
  • 10.1 聚類(lèi)概述
  • 10.2 K-means算法
  • 10.3.1 層級(jí)聚類(lèi)算法概述
  • 10.3.2 DIANA算法和AGNES算法

1.1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)

定義

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè) 面向主題的、穩(wěn)定的、集成的、隨時(shí)間變化的 數(shù)據(jù)的集合。

特征(4個(gè))

  • 面向主題
    主題是指用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)領(lǐng)域。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)的集合。
    面向主體組織的數(shù)據(jù)具有以下特點(diǎn):
    A. 各個(gè)主題有完整、一致的內(nèi)容一邊在此基礎(chǔ)上進(jìn)行分析處理
    B. 主題之間有重疊的內(nèi)容,反應(yīng)主題之間的聯(lián)系。重疊是邏輯上的,不是物理上的。
    C. 個(gè)主題的綜合方式存在不同
    D. 主題域應(yīng)該具有獨(dú)立性和完備性
  • 集成的
    數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)一般從企業(yè)原來(lái)已經(jīng)建立的數(shù)據(jù)庫(kù)系統(tǒng)中提取出來(lái),但并不是原有數(shù)據(jù)的簡(jiǎn)單復(fù)制,而是經(jīng)過(guò)了抽取、篩選、清理、轉(zhuǎn)換、綜合等工作。
  • 非易失的
    數(shù)據(jù)倉(cāng)庫(kù)在某個(gè)時(shí)間段來(lái)看是不變的
  • 時(shí)變的
    定期從操作型數(shù)據(jù)庫(kù)系統(tǒng)之接收新的數(shù)據(jù)內(nèi)容
  • 1.2.1 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成

    定義

    數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)以數(shù)據(jù)倉(cāng)庫(kù)為核心,將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供平臺(tái)。通過(guò)數(shù)據(jù)分析與報(bào)表模塊和分析工具OLAP(聯(lián)機(jī)分析處理)、決策分析、數(shù)據(jù)挖掘完成對(duì)信息的提取,滿(mǎn)足決策需要。

    組成

    數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)通常指的是一個(gè)數(shù)據(jù)庫(kù)環(huán)境
    由以下3部分組成:

  • 數(shù)據(jù)存儲(chǔ)與管理層
    包含以下4個(gè)內(nèi)容:
    A. 數(shù)據(jù)倉(cāng)庫(kù):整個(gè)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對(duì)數(shù)據(jù)檢索的支持。
    B. 抽取工具:把數(shù)據(jù)從各種各樣的環(huán)境中提取出來(lái),進(jìn)行必要的轉(zhuǎn)化、整理,在存放到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)。
    C. 元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù),位于數(shù)據(jù)倉(cāng)庫(kù)的上層,是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)、位置和建立方法的數(shù)據(jù)。
    D. 數(shù)據(jù)集市:面向某個(gè)主題而從數(shù)據(jù)倉(cāng)庫(kù)中劃分出來(lái)的
  • OLAP服務(wù)器層
    OLAP服務(wù)是對(duì)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)提供分析的一種軟件。
  • 前端分析工具層
    數(shù)據(jù)報(bào)表、數(shù)據(jù)分析和數(shù)據(jù)挖掘?yàn)橛脩?hù)產(chǎn)生的各種數(shù)據(jù)分析和匯總報(bào)表,以及數(shù)據(jù)挖掘結(jié)果。
  • 1.2.2 ETL

    ETL:抽取、轉(zhuǎn)換、裝載。簡(jiǎn)稱(chēng)為數(shù)據(jù)抽取,按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程。

  • 數(shù)據(jù)抽取
    將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中抽取出來(lái)
  • 數(shù)據(jù)轉(zhuǎn)換
    按照原先設(shè)計(jì)好的規(guī)則將抽取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,是本來(lái)異構(gòu)的數(shù)據(jù)格式統(tǒng)一起來(lái)
  • 數(shù)據(jù)裝載
    將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中
  • 1.4 數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)的關(guān)系

    操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別

    操作型數(shù)據(jù)分析性數(shù)據(jù)
    細(xì)節(jié)的綜合的
    存取瞬間歷史數(shù)據(jù)
    可更新不可更新
    事先可知操作需求操作需求事先不可知
    符合軟件開(kāi)發(fā)的生命周期完全不同的生命周期
    對(duì)性能要求較高對(duì)性能要求較為寬松
    某一個(gè)時(shí)刻操作一個(gè)單元某一個(gè)時(shí)刻操作一個(gè)集合
    事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)
    細(xì)節(jié)的一次操作的數(shù)據(jù)量較大

    數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)的對(duì)比

    數(shù)據(jù)倉(cāng)庫(kù)操作型數(shù)據(jù)庫(kù)
    面向主題面向應(yīng)用
    容量巨大容量相對(duì)較小
    數(shù)據(jù)是綜合的或提煉的數(shù)據(jù)是詳細(xì)的
    保存歷史的數(shù)據(jù)保存當(dāng)前的數(shù)據(jù)
    通常數(shù)據(jù)是不可更新的數(shù)據(jù)是可更新的
    操作需求是臨時(shí)決定的操作需求是事先可知的
    一個(gè)操作存取一個(gè)數(shù)據(jù)集合一個(gè)操作存取一條記錄
    數(shù)據(jù)經(jīng)常冗余數(shù)據(jù)非冗余
    操作相對(duì)不頻繁操作較頻繁
    所查詢(xún)的是經(jīng)過(guò)加工的數(shù)據(jù)所查詢(xún)的是原始數(shù)據(jù)
    支持決策分析支持事務(wù)處理
    決策分析需要?dú)v史數(shù)據(jù)事務(wù)處理需要當(dāng)前數(shù)據(jù)
    需要復(fù)雜計(jì)算鮮有復(fù)雜計(jì)算
    服務(wù)對(duì)象為企業(yè)高層決策人員服務(wù)對(duì)象為企業(yè)業(yè)務(wù)處理方面的人員

    2.3.1 多維數(shù)據(jù)模型及相關(guān)概念

  • 粒度
    指數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)單元的詳細(xì)程度和級(jí)別,數(shù)據(jù)越詳細(xì),粒度越小,級(jí)別越低。
  • 維度
    簡(jiǎn)稱(chēng)“維”,是指人們觀察事物的特定角度,概念上類(lèi)似于關(guān)系表的屬性
  • 維屬性和維成員
    一個(gè)維是通過(guò)一組屬性來(lái)描述的,維的一個(gè)取值稱(chēng)為該維的一個(gè)成員
  • 維層次
    同一維度可以存在細(xì)節(jié)程度不同的各個(gè)值,可以將粒度大的值映射到粒度小的值上,這樣構(gòu)成為層次
  • 度量/事實(shí)
    度量是數(shù)據(jù)倉(cāng)庫(kù)中的信息單元,即多維空間中的一個(gè)單元,用以存放數(shù)據(jù),也稱(chēng)為事實(shí)。
  • 2.3.4 幾種常見(jiàn)的基于關(guān)系數(shù)據(jù)庫(kù)的多維數(shù)據(jù)模型

    三種模式:星形模式,雪花模式,事實(shí)星座模式
    星形模式是最基本的模式,一個(gè)星形模式有多個(gè)維表,但只能存在一個(gè)事實(shí)表。在星形模式基礎(chǔ)上,構(gòu)造維表的層結(jié)構(gòu)(維表的規(guī)范化),得到雪花模式。如果打破星形模式只有一個(gè)事實(shí)表的限制,且這些事實(shí)表共享部分或全部已有維表信息,則稱(chēng)為事實(shí)星座模式

    3.1 OLAP概述

    3.2 OLAP的多維數(shù)據(jù)模型

    3.3.1 數(shù)據(jù)立方體的有效計(jì)算

    5.1 關(guān)聯(lián)分析的概念

    5.2 Aprior算法

    7.1 分類(lèi)過(guò)程

    7.3 決策樹(shù)分類(lèi)算法

    7.4 樸素貝葉斯分類(lèi)算法

    10.1 聚類(lèi)概述

    10.2 K-means算法

    10.3.1 層級(jí)聚類(lèi)算法概述

    10.3.2 DIANA算法和AGNES算法

    總結(jié)

    以上是生活随笔為你收集整理的数据仓库与数据挖掘实践期末复习总结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。