日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据仓库--基本概念

發(fā)布時間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据仓库--基本概念 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

0x00 前言
整理一些數(shù)據(jù)倉庫中的常用概念。大部分概念不是照搬書上的準(zhǔn)確定義,會加入很多自己的理解。

0x01 概念
數(shù)據(jù)倉庫(Data Warehouse)
數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。

個人理解,數(shù)據(jù)倉庫不單單是一個概念,其實(shí)算是對數(shù)據(jù)管理和使用的一種方法論,它包括了如何合理地收集數(shù)據(jù)、如何規(guī)范的管理數(shù)據(jù)、如何優(yōu)雅地使用數(shù)據(jù),以及任務(wù)調(diào)度、數(shù)據(jù)血統(tǒng)分析等一系列內(nèi)容。 在大數(shù)據(jù)時代這些概念依舊沒有過時,相反,它更加重要。

利用數(shù)據(jù)倉庫的方式存放的資料,具有一旦存入,便不會隨時間發(fā)生變動的特性,此外,存入的資料必定包含時間屬性,通常一個數(shù)據(jù)倉庫中會含有大量的歷史性資料,并且它可利用特定的分析方式,從其中發(fā)掘出特定的資訊。

聯(lián)機(jī)分析處理(OLAP, Online Analytical Process)
OLAP(Online Analytical Process),聯(lián)機(jī)分析處理,以多維度的方式分析數(shù)據(jù),而且能夠彈性地提供上卷(Roll-up)、下鉆(Drill-down)和透視分析(Pivot)等操作,它是呈現(xiàn)集成性決策信息的方法,多用于決策支持系統(tǒng)、商務(wù)智能或數(shù)據(jù)倉庫。其主要的功能在于方便大規(guī)模數(shù)據(jù)分析及統(tǒng)計(jì)計(jì)算,可對決策提供參考和支持。與之相區(qū)別的是聯(lián)機(jī)交易處理(OLTP),聯(lián)機(jī)交易處理,更側(cè)重于基本的、日常的事務(wù)處理,包括數(shù)據(jù)的增刪改查。

OLAP需要以大量歷史數(shù)據(jù)為基礎(chǔ),再配合上時間點(diǎn)的差異,對多維度及匯整型的信息進(jìn)行復(fù)雜的分析。

OLAP的概念,在實(shí)際應(yīng)用中存在廣義和狹義兩種不同的理解方式。廣義上的理解與字面上的意思相同,泛指一切不會對數(shù)據(jù)進(jìn)行更新的分析處理。但更多的情況下OLAP被理解為其狹義上的含義,即與多維分析相關(guān),基于立方體(Cube)計(jì)算而進(jìn)行的分析。

商務(wù)智能(BI, Business Intelligence)
BI(Business Intelligence),即商務(wù)智能,指用現(xiàn)代數(shù)據(jù)倉庫技術(shù)、在線分析技術(shù)、數(shù)據(jù)挖掘和數(shù)據(jù)展現(xiàn)技術(shù)進(jìn)行數(shù)據(jù)分析以實(shí)現(xiàn)商業(yè)價值。

大致上來講,BI就是利用各種技術(shù)來輔助于商業(yè)決策,它需要以數(shù)據(jù)倉庫的數(shù)據(jù)為基礎(chǔ),通過Olap系統(tǒng)來做分析,必要時還需要一些數(shù)據(jù)挖掘的方法來挖掘更深層次的價值。

元數(shù)據(jù)(Metadata)
管理元數(shù)據(jù)的系統(tǒng)。網(wǎng)上沒找到定義,個人對它的理解如下:

一個管理元數(shù)據(jù)信息的系統(tǒng)
能夠提供方便的元數(shù)據(jù)的操作和查詢操作

它會有下面這些功能:

?

數(shù)據(jù)分層
其實(shí)數(shù)據(jù)分層的意思就是對數(shù)據(jù)按照一定的層級來存儲,這樣做的好處很多,在下面列了幾個,詳細(xì)的請參考這篇博客:大數(shù)據(jù)環(huán)境下該如何優(yōu)雅地設(shè)計(jì)數(shù)據(jù)分層

清晰數(shù)據(jù)結(jié)構(gòu):每一個數(shù)據(jù)分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。
數(shù)據(jù)血緣追蹤:簡單來講可以這樣理解,我們最終給業(yè)務(wù)誠信的是一能直接使用的張業(yè)務(wù)表,但是它的來源有很多,如果有一張來源表出問題了,我們希望能夠快速準(zhǔn)確地定位到問題,并清楚它的危害范圍。
減少重復(fù)開發(fā):規(guī)范數(shù)據(jù)分層,開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算。
把復(fù)雜問題簡單化。講一個復(fù)雜的任務(wù)分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便于維護(hù)數(shù)據(jù)的準(zhǔn)確性,當(dāng)數(shù)據(jù)出現(xiàn)問題之后,可以不用修復(fù)所有的數(shù)據(jù),只需要從有問題的步驟開始修復(fù)。
屏蔽原始數(shù)據(jù)的異常。
屏蔽業(yè)務(wù)的影響,不必改一次業(yè)務(wù)就需要重新接入數(shù)據(jù)。
維度建模
維度建模是一種數(shù)據(jù)倉庫的建模方法,這樣講吧,它的作用就是幫你更好的組織和使用數(shù)據(jù)。 詳細(xì)的講解請看這篇博客:漫談數(shù)據(jù)倉庫之維度建模

維度模型是數(shù)據(jù)倉庫領(lǐng)域大師Ralph Kimall所倡導(dǎo),他的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling,中文名《數(shù)據(jù)倉庫工具箱》,是數(shù)據(jù)倉庫工程領(lǐng)域最流行的數(shù)倉建模經(jīng)典。維度建模以分析決策的需求出發(fā)構(gòu)建模型,構(gòu)建的數(shù)據(jù)模型為分析需求服務(wù),因此它重點(diǎn)解決用戶如何更快速完成分析需求,同時還有較好的大規(guī)模復(fù)雜查詢的響應(yīng)性能。

典型的代表是我們比較熟知的星形模型,以及在一些特殊場景下適用的雪花模型。

ETL (Extract-Transform-Load)
ETL 在數(shù)據(jù)開發(fā)的工作中主要是數(shù)據(jù)清洗,它包括數(shù)據(jù)的接入,初步的清洗,數(shù)據(jù)導(dǎo)入Hive或者M(jìn)ysql中等一系列操作,目前比較火的大數(shù)據(jù)技術(shù)在很大程度上就是解決了大數(shù)據(jù)量下的數(shù)據(jù)清洗工作。

另外,很多寫sql的任務(wù)也可以理解是數(shù)據(jù)清洗,比如使用sql對原始數(shù)據(jù)做一部分的業(yè)務(wù)處理、過濾掉一些特殊記錄等,因此ETL的范圍相對來講比較廣,很多數(shù)據(jù)開發(fā)的工作都可以歸結(jié)到ETL中。

ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。

ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。

轉(zhuǎn)載于:https://www.cnblogs.com/itboys/p/10582717.html

總結(jié)

以上是生活随笔為你收集整理的数据仓库--基本概念的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。