数据仓库基本认知
數據倉庫概念:
數據倉庫,英文名稱Data Warehouse,簡寫為DW。
是一種面向分析的存儲系統。
他是一個很大的數據存儲集合,出于企業的分析性報告和決策支持目的而創建,對多樣的業務數據進行篩選與整合。
它為企業提供一定的BI(商業智能)能力,指導業務流程改進、監視時間、成本、質量以及控制。
數據倉庫的輸入方是各種各樣的數據源,最終的輸出用于企業的數據分析、數據挖掘、數據報表等方向。
數據倉庫作用:
數據可以多維度分析,可以預測,利于做商業決策
數據倉庫特點:
主題性:
所有數據都圍繞著主題來組織。
集成性:
統一編碼,統一單位,統一類型,因為原始數據來自不同數據源,有著不同的存儲方式。
非易失性(也叫穩定性):
一般周期性的從生產庫拉取數據,那么有些狀態可能生產庫已經改變了,但在數據倉庫已經記錄下來了。
隨時間變化:
數據倉庫中,每條數據都會和時間關聯,表達他是什么時間的什么數據。
數據倉庫重要概念:
ETL( Extract-Transform-Load):數據的抽取,轉換,加載。
市場上有專門的工具做這個(Informatica powercenter、Datastage、Oracle OWB(oracle warehouse builder)、ODI、微軟DTS、Beeload、Kettle、Talend 、DataSprider、Spark、等等……)。
常見的數據倉庫:
常見的數據倉庫就是hive(主要是免費),屬于hadoop生態圈的一員,可以查詢HDFS(分布式文件系統)中的數據。
Hive有專門的查詢語言HiveQL,簡稱HQL。
了解Hive,首先要了解Hadoop生態圈,HDFS,mapreduce,以及谷歌三大論文等大數據方向的知識,后面再細說。
總結
- 上一篇: Objective-C消息转发
- 下一篇: [前台]---js中方法的强制返回和ja