基于mondrian的多维分析系统
?
0 術語與約束
1) ?Extraction-Transformation-Loading 是對OLTP數據進行抽取,轉換,裝載的過程(以下皆簡稱ETL)
2) 文檔的說明均按照ETL→DW→CUBE→presentation
1 ETL相關
1.1維度表
1.1.1時間維度
1) 說明:該維度記錄了每天的時間,粒度最高精確到日,并可分周,月,年等粒度.
2) 對應表:tbl_dimdate
3) 對應過程: pro_supportdw_dimdate
4) 是否公用:是
5) 說明:此維度可建Hierarchy(層),見下圖:
1.1.2設備維度
1) 說明:該維度記錄了的設備信息. 并可分品牌,機型等粒度.
2) 對應表: tbl_dimdevice
3) 對應過程: pro_supportdw_dimdevice
4) 是否公用:否
5) 說明:此維度可建Hierarchy(層),見下圖:
?
?
1.1.3地域維度
1) 說明:該維度記錄了的地域信息. 并可分國家,省,區等粒度.
2) 對應表: tbl_dimgeography
3) 對應過程: 無,必要時手動加入地區數據
4) 是否公用:否
5) 說明:此維度無Hierarchy(層) ,見下圖:
?
1.1.4分辨率維度
1) 說明:該維度記錄了分辨率的信息.
2) 對應表: tbl_dimresolution
3) 對應過程: pro_supportdw_dimresolution
4) 是否公用:否
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.5操作系統維度
1) 說明:該維度記錄了的操作系統的信息.
2) 對應表: tbl_dimos
3) 對應過程: pro_supportdw_dimos
4) 是否公用:否
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.6網絡類型維度
1) 說明:該維度記錄了網絡類型的信息.
2) 對應表: tbl_dimnetworktype
3) 對應過程: 無,手動維護數據
4) 是否公用:否
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.7運營商維度
1) 說明:該維度記錄了運營商類型的信息.
2) 對應表: tbl_dimoperator
3) 對應過程: 無,手動維護數據
4) 是否公用:否
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.8系統維度
1) 說明:該維度記錄了的系統(類似項目 market[市場],桌面[LAU])信息)的信息.
2) 對應表: tbl_dimsystem
3) 對應過程: 無,手動維護數據
4) 是否公用:是
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.9包維度
1) 說明:該維度記錄了包的信息.
2) 對應表: tbl_cms_apk_package_ref
3) 對應過程: 無,手動維護數據,來源于tbl_cms_apk_package(需做數據同步)
4) 是否公用:是
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.10廠商維度
1) 說明:該維度記錄了廠商的信息.
2) 對應表: tbl_user
3) 對應過程: 無
4) 是否公用:是
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.11系統版本維度
1) 說明:該維度記錄了系統的版本信息.
2) 對應表: tbl_dimappversion
3) 對應過程: pro_supportdw_dimappversion
4) 是否公用:是
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.12廣告資源維度
1) 說明:該維度記錄了資源或則廣告的信息.
2) 對應表: tbl_dimresource
3) 對應過程: 無,手動維護數據,來源于tbl_resource (需做數據同步)
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.13廣告資源區分維度
1) 說明:該維度記錄了資源或廣告區分的信息.
2) 對應表: tbl_dimadres_type
3) 對應過程: 無,手動維護數據
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.14廣告資源新舊區分維度
1) 說明:該維度記錄了資源或廣告區分的信息.
2) 對應表: tbl_dimnewold
3) 對應過程: 無,手動維護數據
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.15系統類型維度
1) 說明:該維度記錄了系統子類型(類似airpush類型,uubao類型)的信息
2) 對應表: tbl_dimsystemtype
3) 對應過程: 無,手動維護數據
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.16系統來源維度
1) 說明:該維度記錄了系統的來源類型(來源類似廣告資源,人工采編)的信息
2) 對應表: tbl_dimresourcetype
3) 對應過程: 無,手動維護數據
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
?
1.2事實表與measure(度量)
1.2.1 Market事實表與measure(度量)
1.2.1.1 market事實表
1) ?TBL_FACTMARKET 該表為market事實表,含有的指標有新增,獨立用戶,啟動次數,留存等.維度精確到IMEI
2) ?TBL_FACTMARKET_FIN該表為維度精確到APK_ID
1.2.1.2 market measure(度量)
1) 新增: Market新增用戶數量統計
2) 獨立: Market獨立用戶數量統計
3) 啟動: Market啟動量統計
4) 隔1天market用戶留存,此為postUpdate
5) 隔7天market用戶留存,此為postUpdate
6) 隔15天market用戶留存,此為postUpdate
7) 隔21天market用戶留存,此為postUpdate
8) 隔30天market用戶留存,此為postUpdate
9) 周留存率
10) 月留存率
1.2.2 廣告資源事實表與measure(度量)
1.2.2.1 廣告資源事實表
1) ?TBL_FACTADRES該表為廣告資源事實表,含有的指標有接收,閱讀,下載,下載完成,安裝等.維度精確到IMEI
2) ?TBL_FACTADRES_FIN該表為廣告資源事實表,含有的指標有,閱讀,點擊,下載,下載完成,安裝等.維度精確到APK_ID
1.2.2.2 廣告資源measure(度量)
1) 接收: 廣告資源的接收量統計
2) 閱讀量: 廣告資源的閱讀量統計
3) 下載量: 廣告資源的下載量統計
4) 下載完成量: 廣告資源的下載完成量統計
5) 安裝量: 廣告資源的安裝量統計
1.3 ETL
1.3.1 Market模型
1) pro_supportdw_factmarketmarket2.0以上事實表抽取
2) pro_support_oldfactmarketmarket1.2版本事實表抽取(含airpush)
3) pro_supportdw_loadfactmarketmarket事實表抽取匯總(聚合至apk_id維度)
4) pro_supportdw_preservemarket2.0留存抽取 (此為PostUpdate)
1.3.2 廣告資源模型
1) pro_supportdw_factadres 廣告資源事實表抽取
1.3.3 廠商模型
1)? pro_supportdw_loadaggrmarket 此為market模型和廣告資源模型的匯集,維度到apk_id
1.4 ETL調度
1.4.1 維度表job
1) ?Job對應過程:pro_supportDW_Dim_jobs
2)? 包含維度表過程如下:
pro_supportdw_dimdevice(sysdate);--設備維度(設計品牌機型)
pro_supportdw_dimos(sysdate); ?--操作系統維度
pro_supportdw_dimresolution(SYSDATE);--分辨率維度
pro_new_user_install(SYSDATE); --新用戶信息,AdRes對照新舊用戶時用
pro_supportdw_dimresource;? ---- 新加廣告維度數據更新
1.4.2 事實表job
1.4.2.1 market job
1) ?market Job對應過程: PRO_Support_Market_JOBs
2)? 包含事實表表過程如下:
pro_supportdw_factmarket
pro_support_oldfactmarket
pro_supportdw_loadfactmarket
1.4.2.2 廣告資源 job
1) 此job包含在廠商job中
1.4.2.3 廠商job
1) 廠商Job對應過程: pro_support_adres_agg_jobs
2) 包含事實表表過程如下:
pro_supportdw_factadres
pro_supportdw_loadaggrmarket
?
2 Cube相關
2.1 Cube介紹
2.1.1 cube說明
An?OLAPcube?is an?array?of data understood in termsof its 0 or more dimensions.
Cube是一個多維數據模型的簡稱.
2.1.1 cube相關術語
1)多維數據集: 多維數據集是聯機分析處理 (OLAP) 中的主要對象,是一項可對數據倉庫中的數據進行快速訪問的技術.多維數據集是一個數據集合,通常從數據倉庫的子集構造,并組織和匯總成一個由一組維度和度量值定義的多維結構.
2)維度: 是多維數據集的結構性特性.它們是事實數據表中用來描述數據的分類的有組織層次結構(級別).這些分類和級別描述了一些相似的成員集合,用戶將基于這些成員集合進行分析.
3.度量值: 在多維數據集中,度量值是一組值,這些值基于多維數據集的事實數據表中的一列,而且通常為數字.此外,度量值是所分析的多維數據集的中心值.即,度量值是最終用戶瀏覽多維數據集時重點查看的數字數據.您所選擇的度量值取決于最終用戶所請求的信息類型.一些常見的度量值有 sales、cost、expenditures 和 production count 等.
4)元數據: 不同 OLAP 組件中的數據和應用程序的結構模型.元數據描述 OLTP 數據庫中的表、數據倉庫和數據集市中的多維數據集這類對象,還記錄哪些應用程序引用不同的記錄塊.
5)級別: 級別是維度層次結構的一個元素.級別描述了數據的層次結構,從數據的最高(匯總程度最大)級別直到最低(最詳細)級別.
6)數據挖掘: 數據挖掘使您得以定義包含分組和預測規則的模型,以便應用于關系數據庫或多維 OLAP 數據集中的數據.之后,這些預測模型便可用于自動執行復雜的數據分析,以找出幫助識別新機會并選擇有獲勝把握的機會的趨勢.
7)多維: ?OLAP (MOLAP): MOLAP 存儲模式使得分區的聚合和其源數據的復本以多維結構存儲在分析服務器計算機上.根據分區聚合的百分比和設計,MOLAP 存儲模式為達到最快查詢響應時間提供了潛在可能性.總而言之,MOLAP 更加適合于頻繁使用的多維數據集中的分區和對快速查詢響應的需要.
8)關系: OLAP (ROLAP): ROLAP 存儲模式使得分區的聚合存儲在關系數據庫的表(在分區數據源中指定)中.但是,可為分區數據使用 ROLAP 存儲模式,而不在關系數據庫中創建聚合.
9)混合: ?OLAP (HOLAP): HOLAP 存儲模式結合了 MOLAP 和 ROLAP 二者的特性.
10)粒度: 數據匯總的層次或深度.
11)聚合|聚集: 聚合是預先計算好的數據匯總,由于在問題提出之前已經準備了答案,聚合可以改進查詢響應時間.
12)切塊: 由多個維的多個成員限定的分區數據,稱為一個切塊.
13)切片: 由一個維的一個成員限定的分區數據,稱為一個切片.
14)數據鉆取: 最終用戶從常規多維數據集、虛擬多維數據集或鏈接多維數據集中選擇單個單元,并從該單元的源數據中檢索結果集以獲得更詳細的信息,這個操作過程就是數據鉆取.
備注: Mondrian 是基于ROLAP的
2.2 Pentaho工具說明
2.2.1 mondrian
Mondrianis an OLAP (online analytical processing) engine written in Java.
Java寫的OLAP引擎.
2.2.2 schema workbench
TheMondrian Schema Workbench is a designer interface that allows you to create andtest Mondrian OLAP cube schemas visually.
SchemaWorkbench是一個圖形化工具,可以定義MondrianOLAP cube的模式..
2.2.3 biserver
PentahoBI Server?which functions as a web based report management system,application integration server and lightweight workflow engine (actionsequences.) It is designed to be easily integrated into any business processes.
PentahoBI服務器,提供Cube的展示和訪問.
2.2.4 schema
多維分析模式xml代碼,見如下截圖:
2.3 Pentaho部署
2.3.1 數據源配置
2.2.2 administration-console
1) 雙擊 D:\ProgramFiles\biserver-ce-4.5.0-stable\biserver-ce\start-pentaho.bat
2) 雙擊 D:\ProgramFiles\biserver-ce-4.5.0-stable\administration-console\start-pac.bat
3) 輸入localhost:8099(或則IP地址) 配置數據源
2.3.2 schema workbench
點擊schemaworkbench里的connection選項
2.3.2 發布
1) schema workbench里打開cube對應的xml文件.點擊發布至biserver里.
、
2.3.2 訪問
1) 輸入http://localhost:8080/pentaho/Home
2) 點擊New Analysis → Cube名稱(如AdRes)
3) 進入如下Cube展示頁面.
?
總結
以上是生活随笔為你收集整理的基于mondrian的多维分析系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: xp图标怎么调小 如何缩小Windows
- 下一篇: java信息管理系统总结_java实现科