日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 运维知识 > windows >内容正文

windows

主流OLAP系统对比总结

發(fā)布時(shí)間:2023/12/31 windows 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 主流OLAP系统对比总结 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

聯(lián)機(jī)分析處理OLAP是一種軟件技術(shù),它使分析人員能夠迅速、一致、交互地從各個(gè)方面觀察信息,以達(dá)到深入理解數(shù)據(jù)的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多維信息的快速分析的特征。

OLTP和OLAP的區(qū)別

參考:

從大數(shù)據(jù)談起1:OLTP和OLAP的設(shè)計(jì)區(qū)別

從大數(shù)據(jù)談起2:分片和分層-GavinGuo-51CTO博客

聯(lián)機(jī)事務(wù)處理OLTP(On-line Transaction Processing)

聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)

?

多維分析中的常用操作:

下面介紹數(shù)據(jù)立方體中最常見(jiàn)的五大操作:切片,切塊,旋轉(zhuǎn),上卷,下鉆。

?

下鉆(Drill-down):在維的不同層次間的變化,從上層降到下一層,或者說(shuō)是將匯總數(shù)據(jù)拆分到更細(xì)節(jié)的數(shù)據(jù),比如通過(guò)對(duì)2010年第二季度的總銷售數(shù)據(jù)進(jìn)行鉆取來(lái)查看2010年第二季度4、5、6每個(gè)月的消費(fèi)數(shù)據(jù),如上圖;當(dāng)然也可以鉆取浙江省來(lái)查看杭州市、寧波市、溫州市……這些城市的銷售數(shù)據(jù)。

上卷(Roll-up):鉆取的逆操作,即從細(xì)粒度數(shù)據(jù)向高層的聚合,如將江蘇省、上海市和浙江省的銷售數(shù)據(jù)進(jìn)行匯總來(lái)查看江浙滬地區(qū)的銷售數(shù)據(jù),如上圖。

切片(Slice):選擇維中特定的值進(jìn)行分析,比如只選擇電子產(chǎn)品的銷售數(shù)據(jù),或者2010年第二季度的數(shù)據(jù)。

切塊(Dice):選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進(jìn)行分析,比如選擇2010年第一季度到2010年第二季度的銷售數(shù)據(jù),或者是電子產(chǎn)品和日用品的銷售數(shù)據(jù)。

旋轉(zhuǎn)(Pivot):即維的位置的互換,就像是二維表的行列轉(zhuǎn)換,如圖中通過(guò)旋轉(zhuǎn)實(shí)現(xiàn)產(chǎn)品維和地域維的互換。

?

在調(diào)研了市面上主流的開(kāi)源OLAP引擎后發(fā)現(xiàn),目前還沒(méi)有一個(gè)系統(tǒng)能夠滿足各種場(chǎng)景的查詢需求。其本質(zhì)原因是,沒(méi)有一個(gè)系統(tǒng)能同時(shí)在數(shù)據(jù)量、性能、和靈活性三個(gè)方面做到完美,每個(gè)系統(tǒng)在設(shè)計(jì)時(shí)都需要在這三者間做出取舍。

例如:

MPP架構(gòu)的系統(tǒng)(Presto/Impala/SparkSQL/Drill等)有很好的數(shù)據(jù)量和靈活性支持,但是對(duì)響應(yīng)時(shí)間是沒(méi)有保證的。當(dāng)數(shù)據(jù)量和計(jì)算復(fù)雜度增加后,響應(yīng)時(shí)間會(huì)變慢,從秒級(jí)到分鐘級(jí),甚至小時(shí)級(jí)都有可能。

MPP即大規(guī)模并行處理(Massively Parallel Processor )。 在數(shù)據(jù)庫(kù)非共享集群中,每個(gè)節(jié)點(diǎn)都有獨(dú)立的磁盤存儲(chǔ)系統(tǒng)和內(nèi)存系統(tǒng),業(yè)務(wù)數(shù)據(jù)根據(jù)數(shù)據(jù)庫(kù)模型和應(yīng)用特點(diǎn)劃分到各個(gè)節(jié)點(diǎn)上,每臺(tái)數(shù)據(jù)節(jié)點(diǎn)通過(guò)專用網(wǎng)絡(luò)或者商業(yè)通用網(wǎng)絡(luò)互相連接,彼此協(xié)同計(jì)算,作為整體提供數(shù)據(jù) 庫(kù)服務(wù)。非共享數(shù)據(jù)庫(kù)集群有完全的可伸縮性、高可用、高性能、優(yōu)秀的性價(jià)比、資源共享等優(yōu)勢(shì)。

缺點(diǎn):性能不穩(wěn)定

搜索引擎架構(gòu)的系統(tǒng)(Elasticsearch等)相對(duì)比MPP系統(tǒng),在入庫(kù)時(shí)將數(shù)據(jù)轉(zhuǎn)換為倒排索引,采用Scatter-Gather計(jì)算模型,犧牲了靈活性換取很好的性能,在搜索類查詢上能做到亞秒級(jí)響應(yīng)。但是對(duì)于掃描聚合為主的查詢,隨著處理數(shù)據(jù)量的增加,響應(yīng)時(shí)間也會(huì)退化到分鐘級(jí)。
缺點(diǎn):性能不穩(wěn)定

預(yù)計(jì)算系統(tǒng)(Druid/Kylin等)則在入庫(kù)時(shí)對(duì)數(shù)據(jù)進(jìn)行預(yù)聚合,進(jìn)一步犧牲靈活性換取性能,以實(shí)現(xiàn)對(duì)超大數(shù)據(jù)集的秒級(jí)響應(yīng)。
缺點(diǎn):不太靈活

MPP和搜索引擎系統(tǒng)無(wú)法滿足超大數(shù)據(jù)集下的性能要求,因此很自然地會(huì)考慮預(yù)計(jì)算系統(tǒng)。而Druid主要面向的是實(shí)時(shí)Timeseries數(shù)據(jù),我們雖然也有類似的場(chǎng)景,但主流的分析還是面向數(shù)倉(cāng)中按天生產(chǎn)的結(jié)構(gòu)化表,因此Kylin的MOLAP Cube方案是最適合作為大數(shù)據(jù)量時(shí)候的引擎。

?

?

下面列舉了三個(gè)olap系統(tǒng)

ImPala

?

Druid

Druid是廣告分析公司Metamarkets開(kāi)發(fā)的一個(gè)用于大數(shù)據(jù)實(shí)時(shí)查詢和分析的分布式實(shí)時(shí)處理系統(tǒng),主要用于廣告分析,互聯(lián)網(wǎng)廣告系統(tǒng)監(jiān)控、度量和網(wǎng)絡(luò)監(jiān)控。

特點(diǎn):

1. 快速的交互式查詢——Druid的低延遲數(shù)據(jù)攝取架構(gòu)允許事件在它們創(chuàng)建后毫秒內(nèi)可被查詢到。

2. 高可用性——Druid的數(shù)據(jù)在系統(tǒng)更新時(shí)依然可用,規(guī)模的擴(kuò)大和縮小都不會(huì)造成數(shù)據(jù)丟失;

3. 可擴(kuò)展——Druid已實(shí)現(xiàn)每天能夠處理數(shù)十億事件和TB級(jí)數(shù)據(jù)。

4. 為分析而設(shè)計(jì)——Druid是為OLAP工作流的探索性分析而構(gòu)建,它支持各種過(guò)濾、聚合和查詢。

應(yīng)用場(chǎng)景:

1. 需要實(shí)時(shí)查詢分析時(shí);

2. 具有大量數(shù)據(jù)時(shí),如每天數(shù)億事件的新增、每天數(shù)10T數(shù)據(jù)的增加;

3. 需要一個(gè)高可用、高容錯(cuò)、高性能數(shù)據(jù)庫(kù)時(shí)。

4. 需要交互式聚合和快速探究大量數(shù)據(jù)時(shí)

架構(gòu)圖:

Druid官網(wǎng)?Druid | About Druid

Druid:一個(gè)用于大數(shù)據(jù)實(shí)時(shí)處理的開(kāi)源分布式系統(tǒng)

?

Presto

Presto是Facebook開(kāi)發(fā)的分布式大數(shù)據(jù)SQL查詢引擎,專門進(jìn)行快速數(shù)據(jù)分析。

特點(diǎn):

1. 可以將多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行合并,可以跨越整個(gè)組織進(jìn)行分析。

2. 直接從HDFS讀取數(shù)據(jù),在使用前不需要大量的ETL操作。

查詢?cè)?#xff1a;

1. 完全基于內(nèi)存的并行計(jì)算

2. 流水線

3. 本地化計(jì)算

4. 動(dòng)態(tài)編譯執(zhí)行計(jì)劃

5. 小心使用內(nèi)存和數(shù)據(jù)結(jié)構(gòu)

6. 類BlinkDB的近似查詢

7. GC控制

?

?

Kylin

?

?

Apache Kylin最初由eBay開(kāi)發(fā)并貢獻(xiàn)至開(kāi)源社區(qū)的分布式分析引擎,提供

Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規(guī)模數(shù)據(jù)。

特點(diǎn):

1. 用戶為百億以上數(shù)據(jù)集定義數(shù)據(jù)模型并構(gòu)建立方體

2. 亞秒級(jí)的查詢速度,同時(shí)支持高并發(fā)

3. 為Hadoop提供標(biāo)準(zhǔn)SQL支持大部分查詢功能

4. 提供與BI工具,如Tableau的整合能力

5. 友好的web界面以管理,監(jiān)控和使用立方體

6. 項(xiàng)目及立方體級(jí)別的訪問(wèn)控制安全

總結(jié)

以上是生活随笔為你收集整理的主流OLAP系统对比总结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。