日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

漫画:什么是数据仓库

發布時間:2023/12/3 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 漫画:什么是数据仓库 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載自?玻璃貓 算法與數據結構


一個故事

在很久很久以前,世界上生活著許多種族,有人類,有矮人,有精靈......他們有著不同的信仰,不同的文化,彼此相安無事。可是,有一個猥瑣男卻偏偏想要統治整個世界。

如何統治這么多不同文化信仰的種族呢?猥瑣男想出一個餿主意,打造出幾枚擁有魔力的戒指,免費送給不同種族的領袖,讓他們可以更好地統治各自的族人。

當各個種族的領袖美滋滋地戴上各自的魔戒,走上人生巔峰的時候,猥瑣男又打造出一枚獨一無二的至尊魔戒。他利用至尊魔戒的力量控制了所有的魔戒,從而控制了各個種族的領袖,繼而控制了整個世界。

這個故事告訴我們:數據庫和數據倉庫之間的關系。

如果說,那個世界的每一個生命個體都是一條數據記錄,那么普通的魔戒的地位就好比是數據庫,而至尊魔戒的地位就好比是數據倉庫。

什么是數據倉庫?

數據倉庫,英文名稱Data Warehouse,簡寫為DW。數據倉庫顧名思義,是一個很大的數據存儲集合,出于企業的分析性報告和決策支持目的而創建,對多樣的業務數據進行篩選與整合。它為企業提供一定的BI(商業智能)能力,指導業務流程改進、監視時間、成本、質量以及控制。

數據倉庫的輸入方是各種各樣的數據源,最終的輸出用于企業的數據分析、數據挖掘、數據報表等方向。

那么,數據倉庫都有什么特點呢?

1.主題性

不同于傳統數據庫對應于某一個或多個項目,數據倉庫根據使用者實際需求,將不同數據源的數據在一個較高的抽象層次上做整合,所有數據都圍繞某一主題來組織。

這里的主題怎么來理解呢?比如對于滴滴出行,“司機行為分析”就是一個主題,對于鏈家網,“成交分析”就是一個主題。

2.集成性

數據倉庫中存儲的數據是來源于多個數據源的集成,原始數據來自不同的數據源,存儲方式各不相同。要整合成為最終的數據集合,需要從數據源經過一系列抽取、清洗、轉換的過程。

3.穩定性

數據倉庫中保存的數據是一系列歷史快照,不允許被修改。用戶只能通過分析工具進行查詢和分析。

4.時變性

數據倉庫會定期接收新的集成數據,反應出最新的數據變化。這和特點并不矛盾。

什么是ETL?

ETL的英文全稱是 Extract-Transform-Load 的縮寫,用來描述將數據從來源遷移到目標的幾個過程:

1.Extract,數據抽取,也就是把數據從數據源讀出來。

2.Transform,數據轉換,把原始數據轉換成期望的格式和維度。如果用在數據倉庫的場景下,Transform也包含數據清洗,清洗掉噪音數據。

3.Load??數據加載,把處理后的數據加載到目標處,比如數據倉庫。



主流的數據倉庫有哪些?

這個Hive又是何方神圣呢?

確切地說,Hive是基于Hadoop的數據倉庫工具,可以對存儲在HDFS上的文件數據集進行查詢和分析處理。Hive對外提供了類似于SQL語言的查詢語言 HiveQL,在做查詢時將HQL語句轉換成MapReduce任務,在Hadoop層進行執行。

這里有幾個名詞需要解釋:

1.HDFS

Hadoop的分布式文件系統,在這里作為數據倉庫的存儲層。圖中的Data Node就是HDFS的眾多工作節點。

2.MapReduce

一種針對海量數據的并行計算模型,可以簡單理解為對多個數據分片的數據轉換和合并。

關于HDFS和MapReduce的具體知識,這一期暫時不做展開,小灰會在后續的漫畫中詳細介紹。




Teradata數據倉庫配備性能最高、最可靠的大規模并行處理 (MPP) 平臺,能夠高速處理海量數據,其性能遠遠高于Hive。

它使得企業可以專注于業務,無需花費大量精力管理技術,因而可以更加快速地做出明智的決策,實現 ROI(投資回報率) 最大化。



幾點補充:

1.對于大數據方向,小灰也僅僅了解皮毛,漫畫中若存在錯誤或是描述不全面的地方,還請大家多多指正補充。

2.關于Teradata,小灰曾經有幸在這里工作過,雖然不是從事數據倉庫領域。Teradata 的確是一款很強大的商業數據倉庫,對此有興趣的同學,可以百度學習一下具體知識。


—————END—————



























一個故事


在很久很久以前,世界上生活著許多種族,有人類,有矮人,有精靈......他們有著不同的信仰,不同的文化,彼此相安無事。可是,有一個猥瑣男卻偏偏想要統治整個世界。




如何統治這么多不同文化信仰的種族呢?猥瑣男想出一個餿主意,打造出幾枚擁有魔力的戒指,免費送給不同種族的領袖,讓他們可以更好地統治各自的族人。




當各個種族的領袖美滋滋地戴上各自的魔戒,走上人生巔峰的時候,猥瑣男又打造出一枚獨一無二的至尊魔戒。他利用至尊魔戒的力量控制了所有的魔戒,從而控制了各個種族的領袖,繼而控制了整個世界。




這個故事告訴我們:數據庫和數據倉庫之間的關系。


如果說,那個世界的每一個生命個體都是一條數據記錄,那么普通的魔戒的地位就好比是數據庫,而至尊魔戒的地位就好比是數據倉庫。







什么是數據倉庫?


數據倉庫,英文名稱Data Warehouse,簡寫為DW。數據倉庫顧名思義,是一個很大的數據存儲集合,出于企業的分析性報告和決策支持目的而創建,對多樣的業務數據進行篩選與整合。它為企業提供一定的BI(商業智能)能力,指導業務流程改進、監視時間、成本、質量以及控制。


數據倉庫的輸入方是各種各樣的數據源,最終的輸出用于企業的數據分析、數據挖掘、數據報表等方向。



?



那么,數據倉庫都有什么特點呢?


1.主題性

不同于傳統數據庫對應于某一個或多個項目,數據倉庫根據使用者實際需求,將不同數據源的數據在一個較高的抽象層次上做整合,所有數據都圍繞某一主題來組織。

這里的主題怎么來理解呢?比如對于滴滴出行,“司機行為分析”就是一個主題,對于鏈家網,“成交分析”就是一個主題。


2.集成性

數據倉庫中存儲的數據是來源于多個數據源的集成,原始數據來自不同的數據源,存儲方式各不相同。要整合成為最終的數據集合,需要從數據源經過一系列抽取、清洗、轉換的過程。


3.穩定性

數據倉庫中保存的數據是一系列歷史快照,不允許被修改。用戶只能通過分析工具進行查詢和分析。


4.時變性

數據倉庫會定期接收新的集成數據,反應出最新的數據變化。這和特點并不矛盾。







什么是ETL?


ETL的英文全稱是 Extract-Transform-Load 的縮寫,用來描述將數據從來源遷移到目標的幾個過程:


1.Extract,數據抽取,也就是把數據從數據源讀出來。


2.Transform,數據轉換,把原始數據轉換成期望的格式和維度。如果用在數據倉庫的場景下,Transform也包含數據清洗,清洗掉噪音數據。


3.Load??數據加載,把處理后的數據加載到目標處,比如數據倉庫。






主流的數據倉庫有哪些?






這個Hive又是何方神圣呢?


確切地說,Hive是基于Hadoop的數據倉庫工具,可以對存儲在HDFS上的文件數據集進行查詢和分析處理。Hive對外提供了類似于SQL語言的查詢語言 HiveQL,在做查詢時將HQL語句轉換成MapReduce任務,在Hadoop層進行執行。





這里有幾個名詞需要解釋:


1.HDFS

Hadoop的分布式文件系統,在這里作為數據倉庫的存儲層。圖中的Data Node就是HDFS的眾多工作節點。


2.MapReduce

一種針對海量數據的并行計算模型,可以簡單理解為對多個數據分片的數據轉換和合并。



關于HDFS和MapReduce的具體知識,這一期暫時不做展開,小灰會在后續的漫畫中詳細介紹。













Teradata數據倉庫配備性能最高、最可靠的大規模并行處理 (MPP) 平臺,能夠高速處理海量數據,其性能遠遠高于Hive。


它使得企業可以專注于業務,無需花費大量精力管理技術,因而可以更加快速地做出明智的決策,實現 ROI(投資回報率) 最大化。









幾點補充:


1.對于大數據方向,小灰也僅僅了解皮毛,漫畫中若存在錯誤或是描述不全面的地方,還請大家多多指正補充。


2.關于Teradata,小灰曾經有幸在這里工作過,雖然不是從事數據倉庫領域。Teradata 的確是一款很強大的商業數據倉庫,對此有興趣的同學,可以百度學習一下具體知識。




—————END—————



總結

以上是生活随笔為你收集整理的漫画:什么是数据仓库的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。