當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Apache Kylin从入门到精通

發(fā)布時間：2024/8/23 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 Apache Kylin从入门到精通小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Kylin

文章目錄

Kylin
- 一、概述
- - 1.1 Kylin定義
  - 1.2 Kylin架構
  - 1.3 Kylin特點
  - 1.4 Apache Kylin4 概述
  - - 為什么選擇 Parquet 替換 HBase?
    - 預計算結果在 Kylin4.0 中如何存儲?
    - Kylin 4.0 的構建引擎
    - Kylin 4.0 的查詢引擎
    - Kylin 4.0 與 Kylin 3.1 功能對比
    - Kylin 4.0 性能表現
    - 如何升級
    - Kylin 4.0 查詢和構建調優(yōu)
    - Kylin 4.0 用戶案例
- 二、Kylin環(huán)境搭建（4.x）
- - 軟件要求
  - 硬件要求
  - Hadoop 環(huán)境
  - Kylin 安裝
  - 提前準備
  - Web頁面介紹
  - - 支持的瀏覽器
    - 登錄系統
    - 創(chuàng)建工程
    - 選擇數據源
    - 創(chuàng)建Model
    - 創(chuàng)建Cube
    - Cube構建與監(jiān)控
    - WEB UI查詢SQL
- 三、SSB數據實際測試
- - - 生成SBB基準測試數據
    - Mysql查詢、Hive查詢、Kylin查詢對比
- 四、Kylin使用注意事項
- - - 只能按照構建Model的連接條件寫SQL查詢
    - 只能按照構建 Cube 時選擇的維度字段分組統計
    - 只能統計構建Cube 時選擇的度量值字段
- 五、Kylin每日自動構建Cube
- 六、BI工具集成
- - JDBC
  - Zepplin
  - - 安裝與啟動
    - 訪問
    - 配置Kylin
    - 使用Zepplin查詢Kylin

一、概述

1.1 Kylin定義

? Apache Kylin?是一個開源的、分布式的分析型數據倉庫，提供Hadoop/Spark 之上的 SQL 查詢接口及多維分析（OLAP）能力以支持超大規(guī)模數據，最初由 eBay 開發(fā)并貢獻至開源社區(qū)。它能在亞秒內查詢巨大的表。

1.2 Kylin架構

REST Service

? REST Server 是一套面向應用程序開發(fā)的入口點，旨在實現針對 Kylin 平臺的應用開發(fā)

工作。此類應用程序可以提供查詢、獲取結果、觸發(fā) cube 構建任務、獲取元數據以及獲取

用戶權限等等。另外可以通過 Restful 接口實現 SQL 查詢。

查詢引擎（Query Engine）

? 當 cube 準備就緒后，查詢引擎就能夠獲取并解析用戶查詢。它隨后會與系統中的其它

組件進行交互，從而向用戶返回對應的結果。

路由器（Routing）

? 在最初設計時曾考慮過將 Kylin 不能執(zhí)行的查詢引導去 Hive 中繼續(xù)執(zhí)行，但在實踐后

發(fā)現 Hive 與 Kylin 的速度差異過大，導致用戶無法對查詢的速度有一致的期望，很可能大

多數查詢幾秒內就返回結果了，而有些查詢則要等幾分鐘到幾十分鐘，因此體驗非常糟糕。

最后這個路由功能在發(fā)行版中默認關閉。

元數據管理工具（Metadata）

? Kylin 是一款元數據驅動型應用程序。元數據管理工具是一大關鍵性組件，用于對保存

在 Kylin 當中的所有元數據進行管理，其中包括最為重要的 cube 元數據。其它全部組件的

正常運作都需以元數據管理工具為基礎。 Kylin 的元數據存儲在 hbase （3.x版本）中。

任務引擎（Cube Build Engine）

? 這套引擎的設計目的在于處理所有離線任務，其中包括 shell 腳本、Java API 以及 Map

Reduce 任務等等。任務引擎對 Kylin 當中的全部任務加以管理與協調，從而確保每一項任務

都能得到切實執(zhí)行并解決其間出現的故障。

1.3 Kylin特點

? Kylin 的主要特點包括支持 SQL 接口、支持超大規(guī)模數據集、亞秒級響應、可伸縮性、

高吞吐率、BI 工具集成等。

標準 SQL 接口：Kylin 是以標準的 SQL 作為對外服務的接口。

支持超大數據集：Kylin 對于大數據的支撐能力可能是目前所有技術中最為領先的。

早在 2015 年 eBay 的生產環(huán)境中就能支持百億記錄的秒級查詢，之后在移動的應用場景中

又有了千億記錄秒級查詢的案例。

亞秒級響應：Kylin 擁有優(yōu)異的查詢相應速度，這點得益于預計算，很多復雜的計算，

比如連接、聚合，在離線的預計算過程中就已經完成，這大大降低了查詢時刻所需的計算量，

提高了響應速度。

可伸縮性和高吞吐率：單節(jié)點 Kylin 可實現每秒 70 個查詢，還可以搭建 Kylin 的集

群。

BI 工具集成:

Kylin 可以與現有的 BI 工具集成，具體包括如下內容。

ODBC：與 Tableau、Excel、PowerBI 等工具集成

JDBC：與 Saiku、BIRT 等 Java 工具集成

RestAPI：與 JavaScript、Web 網頁集成

Kylin 開發(fā)團隊還貢獻了 Zepplin 的插件，也可以使用 Zepplin 來訪問 Kylin 服務。

1.4 Apache Kylin4 概述

? Apache Kylin?是一個開源的、分布式的分析型數據倉庫，提供 Hadoop 之上的 SQL 查詢接口及多維分析（OLAP）能力以支持超大規(guī)模數據，最初由eBay Inc.開發(fā)并貢獻至開源社區(qū)。

? Apache Kylin4.0 是 Apache Kylin3.x 之后一次重大的版本更新，它采用了全新的 Spark 構建引擎和 Parquet 作為存儲，同時使用 Spark 作為查詢引擎。

為了方便用戶對 Kylin4.x 有更全面更深層的了解，本篇文檔會著重從 Kylin4.x 與之前版本有何異同的角度對 Kylin4.x 做全面概述。文章分為以下幾個部分：

為什么選擇 Parquet 替換 HBase
預計算結果在 Kylin4.0 中如何存儲
Kylin 4.0 的構建引擎
Kylin 4.0 的查詢引擎
Kylin4.0 與 Kylin3.1 功能對比
Kylin 4.0 性能表現
Kylin 4.0 查詢和構建調優(yōu)
Kylin 4.0 用戶案例

為什么選擇 Parquet 替換 HBase?

? 在 3.x 以及之前的版本中，kylin 一直使用 HBase 作為存儲引擎來保存 cube 構建后產生的預計算結果。HBase 作為 HDFS 之上面向列族的數據庫，查詢表現已經算是比較優(yōu)秀，但是它仍然存在以下幾個缺點：

HBase 不是真正的列式存儲；

HBase表數據模型比較特別，也可以簡單理解為有行和列的二維表，只是它的列稱為“列族”，列族下面又可以在數據寫入時指定很多的子列。另外，HBase物理存儲上是將整個列族數據存儲在一起的。所以，如果HBase中的一張表只有一個列族的話，等于是這個列族包含了這張表的所有列，也就是將表正行的數據連續(xù)存儲在了一起，就等于是行式存儲了。再比如，一張表有多個列族，并且每個列族下僅有一列（雖然HBase不建議這么做），也就是將表的列數據連續(xù)存儲在了一起，就等于是列式存儲了。

HBase 沒有二級索引，Rowkey 是它唯一的索引；

HBase 沒有對存儲的數據進行編碼，kylin 必須自己進行對數據編碼的過程；

HBase 不適合云上部署和自動伸縮；

HBase 不同版本之間的 API 版本不同，存在兼容性問題（比如，0.98，1.0，1.1，2.0）；

HBase 存在不同的供應商版本，他們之間有兼容性問題。

針對以上問題，社區(qū)提出了對使用 Apache Parquet + Spark 來代替 HBase 的提議，理由如下：

Parquet 是一種開源并且已經成熟穩(wěn)定的列式存儲格式；

Parquet 對云更加友好，可以兼容各種文件系統，包括 HDFS、S3、Azure Blob store、Ali OSS 等

Parquet 可以很好地與 Hadoop、Hive、Spark、Impala 等集成；

Parquet 支持自定義索引。

預計算結果在 Kylin4.0 中如何存儲?

? 在 Kylin4.x 中，預計算結果以 Parquet 格式存儲在文件系統中，文件存儲結構對于 I/O 優(yōu)化很重要，提前對存儲目錄結構進行設計，就能夠在查詢時通過目錄或者文件名過濾數據文件，避免不必要的掃描。

Kylin4 對 cube 進行構建得到的預計算結果的 Parquet 文件在文件系統中存儲的目錄結構如下：

- cube_name - SegmentA - Cuboid-111 - part-0000-XXX.snappy.parquet - part-0001-XXX.snappy.parquet - … - Cuboid-222 - part-0000-XXX.snappy.parquet - part-0001-XXX.snappy.parquet - … - SegmentB - Cuboid-111 - part-0000-XXX.snappy.parquet - part-0001-XXX.snappy.parquet - … - Cuboid-222 - part-0000-XXX.snappy.parquet - part-0001-XXX.snappy.parquet - …

可以看出，與 HBase 相比，采用 Parquet 存儲可以很方便地增刪 cuboid 而不影響其他數據。利用這種特點，Kylin4 中實現了支持用戶手動增刪 cuboid 的功能，請參考：How to update cuboid list for a cube

Kylin 4.0 的構建引擎

在 Kylin4 中，Spark Engine 是唯一的構建引擎，與之前版本中的構建引擎相比，存在如下特點：

Kylin4 的構建簡化了很多步驟。比如在 Cube Build Job 中， kylin4 只需要資源探測和 cubing 兩個步驟，就可以完成構建；

由于 Parquet 會對存儲的數據進行編碼，所以在 kylin4 中不再需要維度字典和對維度列編碼的過程；

Kylin4 對全局字典做了全新的實現，更多細節(jié)請參考：Kylin4 全局字典；

Kylin4 會根據集群資源、構建任務情況等對 Spark 進行自動調參；

Kylin4 提高了構建速度。

用戶可以通過 kylin.build.spark-conf 開頭的配置項手動修改構建相關的 Spark 配置，經過用戶手動修改的 Spark 配置項不會再參與自動調參。

Kylin 4.0 的查詢引擎

Kylin4 的查詢引擎 Sparder(SparderContext) 是由 spark application 后端實現的新型分布式查詢引擎，相比于原來的查詢引擎，Sparder 的優(yōu)勢體現在以下幾點：
- 分布式的查詢引擎，有效避免單點故障；
- 與構建所使用的計算引擎統一為 Spark；
- 對于復雜查詢的性能有很大提高；
- 可以從 Spark 的新功能及其生態(tài)中獲益。

在 Kylin4 中，Sparder 是作為一個 long-running 的 spark application 存在的。 Sparder 會根據 kylin.query.spark-conf 開頭的配置項中配置的 Spark 參數來獲取 Yarn 資源，如果配置的資源參數過大，可能會影響構建任務甚至無法成功啟動 Sparder，如果 Sparder 沒有成功啟動，則所有查詢任務都會失敗，用戶可以在 kylin WebUI 的 System 頁面中檢查 Sparder 狀態(tài)。

默認情況下，用于查詢的 spark 參數會設置的比較小，在生產環(huán)境中，大家可以適當把這些參數調大一些，以提升查詢性能。
kylin.query.auto-sparder-context 參數用于控制是否在啟動 kylin 的同時啟動 Sparder，默認值為 false，即默認情況下會在執(zhí)行第一條 SQL 的時候才啟動 Sparder，由于這個原因，執(zhí)行第一條 SQL 的時候的會花費較長時間。
如果你不希望第一條 SQL 的查詢速度低于預期，可以設置 kylin.query.auto-sparder-context 為 true，此時 Sparder 會隨 Kylin 一起啟動。

Kylin 4.0 與 Kylin 3.1 功能對比

FeatureKylin 3.1.0Kylin 4.0

Storage	HBase	Parquet
BuildEngine	MapReduce/Spark/Flink	New Spark Engine
Metastore	HBase(Default)/Mysql	Mysql(Default)
DataSource	Kafka/Hive/JDBC	Hive/CSV
Global Dictionary	Two implementation	New implementation
Cube Optimization Tool	Cube Planner	Cube Planner phase1 and Optimize cube manually
Self-monitoring	System cube and Dashboard	System cube and Dashboard
PushDown Engine	Hive/JDBC	Spark SQL
Hadoop platform	HDP2/HDP3/CDH5/CDH6/EMR5	HDP2/CDH5/CDH6/EMR5/EMR6/HDI
Deployment mode	Single node/Cluster/Read and write separation	Single node/Cluster/Read and write separation

Kylin 4.0 性能表現

為了測試 Kylin4.0 的性能，我們分別在 SSB 數據集和 TPC-H 數據集上做了 benchmark，與 Kylin3.1.0 進行對比。測試環(huán)境為 4 個節(jié)點的 CDH 集群，所使用的 yarn 隊列分配了 400G 內存和 128 cpu cores。

SSB（Star Schema Benchmark）是麻省州立大學波士頓校區(qū)的研究人員定義的基于現實商業(yè)應用的數據模型，用來評價決策支持技術方面應用的性能。

TPC-H是由TPC(Transaction Processing Performance Council)事務處理性能委員會公布的一套針對數據庫決策支持能力的測試基準，通過模擬數據庫中與業(yè)務相關的復雜查詢考察數據庫的綜合處理能力，獲取數據庫操作的響應時間。

TPCH基準模型中定義了一個數據庫模型，容量可以在1GB~10000GB的8個級別中進行選擇。數據庫模型包括CUSTOMER、LINEITEM、NATION、ORDERS、PART、PARTSUPP、REGION和SUPPLIER 共8張數據表，以及22條SQL查詢語句，涉及內容廣泛豐富，可以較完整地測試數據庫的運算性能。

TPCH的SQL中不乏一些多層嵌套的復雜查詢，執(zhí)行性能較差。對于這些查詢，如果能采用更合理的存儲方案，設計低復雜度算法并配合并行等手段，將獲得更優(yōu)的性能。但遺憾的是，由于理論體系的限制，很多想法無法用SQL實現，而SQL程序員也因此不關注這些性能優(yōu)化方法，經常只能忍受數據庫的低速運算。

TPC-H 下載：https://github.com/gregrahn/

性能測試對比結果如下：
Comparison of build duration and result size（SSB）

測試結果可以體現以下兩點：

kylin4 的構建速度與 kylin3.1.0 的 Spark Engine 相比有明顯提升；
Kylin4 構建后得到的預計算結果 Parquet 文件大小與 HBase 相比有明顯減小；

Comparison of query response(SSB and TPC-H)

? 從查詢結果對比中可以看出，對于簡單查詢，kylin3 與 Kylin4 不相上下，kylin4 略有不足；而對于復雜查詢，kylin4 則體現出了明顯的優(yōu)勢，查詢速度比 kylin3 快很多。
? 并且，Kylin4 中的簡單查詢的性能還存在很大的優(yōu)化空間。在有贊使用 Kylin4 的實踐中，對于簡單查詢的性能可以優(yōu)化到 1 秒以內。

如何升級

請參考文檔：How to migrate metadata to Kylin4

Kylin 4.0 查詢和構建調優(yōu)

對于 Kylin4 的調優(yōu)，請參考：How to improve cube building and query performance

Kylin 4.0 用戶案例

Why did Youzan choose Kylin4

參考鏈接：
Kylin Improvement Proposal 1: Parquet Storage

二、Kylin環(huán)境搭建（4.x）

軟件要求

Hadoop: cdh5.x, cdh6.x, hdp2.x, EMR5.x, EMR6.x, HDI4.x
Hive: 0.13 - 1.2.1+
Spark: 2.4.7/3.1.1
Mysql: 5.1.17 及以上
JDK: 1.8+
OS: Linux only, CentOS 6.5+ or Ubuntu 16.0.4+

在 Hortonworks HDP2.4, Cloudera CDH 5.7 and 6.3.2, AWS EMR 5.31 and 6.0, Azure HDInsight 4.0 上測試通過。

我們建議您使用集成的 sandbox 來試用 Kylin 或進行開發(fā)，比如 HDP sandbox，且要保證其有至少 10 GB 內存。在配置沙箱時，我們推薦您使用 Bridged Adapter 模型替代 NAT 模型。

硬件要求

? 運行 Kylin 的服務器的最低配置為 4 core CPU，16 GB 內存和 100 GB 磁盤。對于高負載的場景，建議使用 24 core CPU，64 GB 內存或更高的配置。

Hadoop 環(huán)境

? Kylin 依賴于 Hadoop 集群處理大量的數據集。您需要準備一個配置好 HDFS, YARN, Hive, Zookeeper, Spark以及你可能需要的其他服務的 Hadoop 集群供 Kylin 運行。

? Kylin 可以在 Hadoop 集群的任意節(jié)點上啟動。方便起見，您可以在 master 節(jié)點上運行 Kylin。但為了更好的穩(wěn)定性，我們建議您將 Kylin 部署在一個干凈的 Hadoop client 節(jié)點上，該節(jié)點上 Hive，HDFS 等命令行已安裝好且 client 配置（如 core-site.xml，hive-site.xml及其他）也已經合理的配置且其可以自動和其它節(jié)點同步。

? 運行 Kylin 的 Linux 賬戶要有訪問 Hadoop 集群的權限，包括創(chuàng)建/寫入 HDFS 文件夾，Hive 表的權限。

Kylin 安裝

安裝 Kylin 前需先部署好 Hadoop、Hive、Zookeeper、Hbase、Spark，并且需要在/etc/profile

中配置以下環(huán)境變量 HADOOP_HOME，HIVE_HOME，HBASE_HOME，SPARK_HOME 記

得 source 使其生效。

在我們需要安裝的服務器執(zhí)行以下操作：

從 Apache Kylin下載網站下載一個 Apache Kylin 4.0 的二進制文件。可通過如下命令行下載得到：

cd /usr/local/ wget --no-check-certificate https://dlcdn.apache.org/kylin/apache-kylin-4.0.1/apache-kylin-4.0.1-bin-spark2.tar.gz

解壓 tar 包，配置環(huán)境變量 $KYLIN_HOME 指向 Kylin 文件夾。

tar -zxvf apache-kylin-4.0.1-bin-spark2.tar.gz mv apache-kylin-4.0.1-bin-spark2 kylin cd kylin export KYLIN_HOME=`pwd`

使用腳本下載spark

$KYLIN_HOME/bin/download-spark.sh

download-spark.sh 腳本只能下載 spark2.4.7, 如果您使用的 kylin 二進制包以 spark3 為后綴，您需要從Spark 官方網站下載 spark3.1.1 的二進制包。

建議將 spark 二進制包解壓后放置在 ${KYLIN_HOME} 目錄下，并重命名為 spark，以避免兼容性問題。詳情請查看：Refactor hive and hadoop dependency

如果您自定義配置了 ${SPARK_HOME} 指向環(huán)境中的 spark2.4.7/spark3.1.1，請保證環(huán)境中的 spark 是可以正常提交以及執(zhí)行任務的。

配置 Mysql 元數據

創(chuàng)建數據庫：kylin

Kylin 4.0 使用 Mysql 作為元數據存儲，需要在 kylin.properties 中做如下配置：

kylin.metadata.url=kylin_metadata@jdbc,driverClassName=com.mysql.jdbc.Driver,url=jdbc:mysql://192.168.60.10:3306/kylin,username=root,password=123456 kylin.env.zookeeper-connect-string=192.168.60.13

你需要修改其中的 Mysql 用戶名和密碼，以及存儲元數據的 database 和 table。并將 mysql jdbc connector mysql-connector-java-5.1.49.jar放在 $KYLIN_HOME/ext 目錄下，沒有該目錄時請自行創(chuàng)建。
請參考配置 Mysql 為 Metastore 了解 Mysql 作為 Metastore 的詳細配置。

CDH6.x環(huán)境配置

# 下載需要的jar包 wget https://cwiki.apache.org/confluence/download/attachments/173081375/hive-exec-1.21.2.3.1.0.0-78.jar?api=v2 wget https://repo1.maven.org/maven2/org/codehaus/woodstox/stax2-api/3.1.4/stax2-api-3.1.4.jar wget https://repo1.maven.org/maven2/commons-configuration/commons-configuration/1.10/commons-configuration-1.10.jar# 進入Kylin目錄 cd $KYLIN_HOME# 將準備的jar包放進目錄bin/hadoop3_jars/cdh6下 mkdir -p bin/hadoop3_jars/cdh6 mv hive-exec-1.21.2.3.1.0.0-78.jar stax2-api-3.1.4.jar commons-configuration-1.10.jar kylin/bin/hadoop3_jars/cdh6/# 將Mysql JDBC 驅動放入指定目錄 ext 下 mkdir $KYLIN_HOME/ext mv mysql-connector-java-5.7.33.jar $KYLIN_HOME/ext

檢查運行環(huán)境

Kylin 運行在 Hadoop 集群上，對各個組件的版本、訪問權限及 CLASSPATH 等都有一定的要求，為了避免遇到各種環(huán)境問題，您可以運行 $KYLIN_HOME/bin/check-env.sh 腳本來進行環(huán)境檢測，如果您的環(huán)境存在任何的問題，腳本將打印出詳細報錯信息。如果沒有報錯信息，代表您的環(huán)境適合 Kylin 運行。

# 切換到HDFS用戶執(zhí)行檢查 [hdfs@r-wb-15 bin]$ ./check-env.sh Retrieving hadoop conf dir... ...................................................[PASS] KYLIN_HOME is set to /home/kylin Checking hive ...................................................[PASS] Checking hadoop shell ...................................................[PASS] Checking hdfs working dir WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. ...................................................[PASS] WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. Checking environment finished successfully. To check again, run 'bin/check-env.sh' manually.

啟動Kylin

運行 $KYLIN_HOME/bin/kylin.sh start 腳本來啟動 Kylin，界面輸出如下：

[hdfs@r-wb-15 kylin]$ bin/kylin.sh start Retrieving hadoop conf dir... ...................................................[PASS] KYLIN_HOME is set to /home/kylin Checking hive ...................................................[PASS] Checking hadoop shell ...................................................[PASS] Checking hdfs working dir WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. ...................................................[PASS] WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete.Checking environment finished successfully. To check again, run 'bin/check-env.sh' manually. Retrieving hadoop conf dir... Retrieving Spark dependency... Start replace hadoop jars under /home/kylin/spark/jars. Find platform specific jars:/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/client/hadoop-annotations-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/client/hadoop-auth-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/client/hadoop-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/hadoop-annotations-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/hadoop-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/hadoop-auth-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-client.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-httpfs.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-native-client.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-native-client-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-httpfs-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-client-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-app-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-core-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-shuffle-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-api-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-server-web-proxy-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-client-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-server-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/htrace-core4-4.2.0-incubating.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/htrace-core4-4.1.0-incubating.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/woodstox-core-5.0.3.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/woodstox-core-5.1.0.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/commons-configuration2-2.1.1.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/woodstox-core-asl-4.4.1.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/re2j-1.1.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/commons-configuration2-2.1.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/stax2-api-3.1.4.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/re2j-1.0.jar , will replace with these jars under /home/kylin/spark/jars. Copy jars from /home/kylin/bin/hadoop3_jars/cdh6 Done hadoop jars replacement under /home/kylin/spark/jars. (Not all processes could be identified, non-owned process infowill not be shown, you would have to be root to see it all.) Start to check whether we need to migrate acl tables Not HBase metadata. Skip check.A new Kylin instance is started by hdfs. To stop it, run 'kylin.sh stop' Check the log at /home/kylin/logs/kylin.log Web UI is at http://r-wb-15:7070/kylin

啟動成功可以訪問頁面：http://r-wb-15:7070/kylin

默認賬號密碼（注意大小寫區(qū)分）：ADMIN/KYLIN

訪問頁面提示以下頁面，說明啟動成功。

Kylin目錄結構·

bin: shell 腳本，用于啟動／停止 Kylin，備份／恢復 Kylin 元數據，以及一些檢查端口、獲取 Hive/HBase 依賴的方法等；
conf: Hadoop 任務的 XML 配置文件，這些文件的作用可參考配置頁面
lib: 供外面應用使用的 jar 文件，例如 Hadoop 任務 jar.
meta_backups: 執(zhí)行 bin/metastore.sh backup 后的默認的備份目錄;
sample_cube 用于創(chuàng)建樣例 Cube 和表的文件。
spark: 使用kylin腳本下載得到的 spark。
tomcat: 自帶的 tomcat，用于啟動 Kylin 服務。
tool: 用于執(zhí)行一些命令行的jar文件。

使用 Kylin

Kylin 啟動后您可以通過瀏覽器 http://<hostname>:7070/kylin 進行訪問。
其中 <hostname> 為具體的機器名、IP 地址或域名，默認端口為 7070。
初始用戶名和密碼是 ADMIN/KYLIN。
服務器啟動后，您可以通過查看 $KYLIN_HOME/logs/kylin.log 獲得運行時日志。

停止 Kylin

運行 $KYLIN_HOME/bin/kylin.sh stop 腳本來停止 Kylin，界面輸出如下：

Retrieving hadoop conf dir... KYLIN_HOME is set to /usr/local/apache-kylin-4.0.0-bin Stopping Kylin: 25964 Stopping in progress. Will check after 2 secs again... Kylin with pid 25964 has been stopped.

您可以運行 ps -ef | grep kylin 來查看 Kylin 進程是否已停止。

HDFS 目錄結構

? Kylin 會在 HDFS 上生成文件，默認根目錄是 “/kylin/”, 然后會使用 Kylin 集群的元數據表名作為第二層目錄名，默認為 “kylin_metadata” (可以在conf/kylin.properties中定制).

通常, /kylin/kylin_metadata 目錄下按照不同的 project 存放數據，比如 learn_kylin 項目的數據目錄為 /kylin/kylin_metadata/learn_kylin, 該目錄下通常包括以下子目錄：
1.job_tmp: 存放執(zhí)行任務過程中生成的臨時文件。
2.parquet: 存放各個 cube 的 cuboid 文件。
3.table_snapshot: 存放維度表快照。

## 三、使用教程

提前準備

將數據寫入Hive表中，供測試使用

創(chuàng)建hive表

create EXTERNAL TABLE site_base_hive (id string,site_code string,site_name string,audit_code string,culture_code string,licence_code string,webopen_date string,licence_date string,fire_code string,business_status int,stop_business_date string,licence_status int,install_status int,area_code string,police_station string,address string,class_level string,access_operator string,legal_person string,legal_phone string,principal string,principal_phone string,webmaster string,webmaster_phone string,audit_vendor string,charge_system string,charge_sys_version string,longitude float,latitude float,altitude float,safety_num string,ba_terminal_num int,area_size float,is_chain int,del_flag string,creator_by string,create_time string,updator_by string,update_time string,site_name_qp string,site_name_jp string,legal_person_qp string,legal_person_jp string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY'); create EXTERNAL TABLE offline_hive ( id string,checkin_code string,checkin_type int,site_code string,culture_code string,site_name string,area_code string,area string,credential_type string,certificate_code string,nation string,name string,sexcode string,birthday string,issuing_authority string,certificate_valid string,often_address string,face_status string,face_audit_result int,session_id string,terminalid string,terminalip string,terminalname string,onlinetime bigint,offlinetime bigint,mac_address string,scene_photo string,similarity DECIMAL,head_photo string,is_upload int,card_type int,card_no string,illegal_group_id string,insert_time string,update_time string,data_source string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');

從mysql導入數據到Hive

sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table site_base \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table site_base_hive \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ # parquet模式下當mysql字段類型與hive字段類型不相同時，需要手動指定導入的類型，否則會報錯 --map-column-java webopen_date=String,licence_date=String,stop_business_date=String,create_time=String,update_time=String \ --map-column-hive webopen_date=String,licence_date=String,stop_business_date=String,create_time=String,update_time=String \ -m 1 sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table offline \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table offline_hive \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ --map-column-java insert_time=String,update_time=String \ --map-column-hive insert_time=String,update_time=String \ -m 1

Web頁面介紹

支持的瀏覽器

Windows: Google Chrome, FireFox

Mac: Google Chrome, FireFox, Safari

登錄系統

創(chuàng)建工程

點擊加號

輸入項目名稱、項目描述，點擊Submit提交

創(chuàng)建成功

選擇數據源

? 雖然 Kylin 使用 SQL 作為查詢接口并利用 Hive 元數據，Kylin 不會讓用戶查詢所有的 hive 表，因為到目前為止它是一個預構建 OLAP(MOLAP) 系統。為了使表在 Kylin 中可用，使用 “Sync” 方法能夠方便地從 Hive 中同步表。

選擇加載數據源方式

選擇需要加載的表，點擊Sync

查看同步的數據源

創(chuàng)建Model

? 創(chuàng)建 cube 前，需定義一個數據模型。數據模型定義了一個星型（star schema）或雪花（snowflake schema）模型。一個模型可以被多個 cube 使用。

點擊頂部的 Model ，然后點擊 Models 標簽。點擊 +New 按鈕，在下拉框中選擇 New Model。

輸入 model 的名字和可選的描述，點擊Next

在 Fact Table 中，為模型選擇事實表。

【可選】點擊 Add Lookup Table 按鈕添加一個 lookup 表。選擇表名和關聯類型（內連接或左連接）

點擊 New Join Condition 按鈕，左邊選擇事實表的外鍵，右邊選擇 lookup 表的主鍵。如果有多于一個 join 列重復執(zhí)行。

點擊 “OK”，重復2，3步來添加更多的 lookup 表。完成后，點擊 “Next”。

Dimensions 頁面允許選擇在子 cube 中用作維度的列(統計分析溫度字段)，然后點擊 Columns 列，在下拉框中選擇需要的列。

點擊 “Next” 到達 “Measures” 頁面，選擇作為 measure 的列，其只能從事實表中選擇。

這里我沒有選擇，我只想統計數量，沒有求和等其他操作

點擊 “Next” 到達 “Settings” 頁面，如果事實表中的數據每日增長，選擇 Partition Date Column 中相應的日期列以及日期格式，否則就將其留白。

【可選】選擇是否需要 “time of the day” 列，默認情況下為 No。如果選擇 Yes, 選擇 Partition Time Column 中相應的 time 列以及 time 格式

【可選】如果在從 hive 抽取數據時候想做一些篩選，可以在 Filter 中輸入篩選條件。

點擊 Save 然后選擇 Yes 來保存 data model。創(chuàng)建完成，data model 就會列在左邊 Models 列表中。

創(chuàng)建完成可以看到Models

創(chuàng)建Cube

創(chuàng)建完 data model，可以開始創(chuàng)建 cube。

點擊頂部 Model，然后點擊 Models 標簽。點擊 +New 按鈕，在下拉框中選擇 New Cube。

填寫Cube 信息，選擇 data model，輸入 cube 名字；點擊 Next 進行下一步

cube 名字可以使用字母，數字和下劃線（空格不允許）。Notification Email List 是運用來通知job執(zhí)行成功或失敗情況的郵箱列表。Notification Events 是觸發(fā)事件的狀態(tài)。

添加維度

1.添加真正的維度字段(將來會影響 Cuboid 的個數,并且只能從 model 維度字段里面選擇)

2.后續(xù)統計條件字段只能從維度設置字段進行查詢

點擊Add Dimension

在彈窗中顯示的事實表和 lookup 表里勾選輸入需要的列。Lookup 表的列有2個選項：“Normal” 和 “Derived”（默認）。“Normal” 添加一個普通獨立的維度列，“Derived” 添加一個 derived 維度，derived 維度不會計算入 cube，將由事實表的外鍵推算出。（推薦使用Normal）

添加度量值

點擊 +Measure 按鈕添加一個新的度量。

根據它的表達式共有7種不同類型的度量：SUM、MAX、MIN、COUNT、COUNT_DISTINCT TOP_N 和 PERCENTILE。請合理選擇 COUNT_DISTINCT 和 TOP_N 返回類型，它與 cube 的大小相關。

這里度量值默認有一個count(*)，其他的可自行選擇。注意：這里的度量值只能從創(chuàng)建模型選擇的字段中進行選擇。

更新配置

這一步驟是為增量構建 cube 而設計的。

Auto Merge Thresholds: 自動合并小的 segments 到中等甚至更大的 segment。如果不想自動合并，刪除默認2個選項。

Volatile Range: 默認為0，會自動合并所有可能的 cube segments，或者用 ‘Auto Merge’ 將不會合并最新的 [Volatile Range] 天的 cube segments。

Retention Threshold: 只會保存 cube 過去幾天的 segment，舊的 segment 將會自動從頭部刪除；0表示不啟用這個功能。

Partition Start Date: cube 的開始日期.

高級設置

Aggregation Groups: Cube 中的維度可以劃分到多個聚合組中。默認 kylin 會把所有維度放在一個聚合組，當維度較多時，產生的組合數可能是巨大的，會造成 Cube 爆炸；如果你很好的了解你的查詢模式，那么你可以創(chuàng)建多個聚合組。在每個聚合組內，使用 “Mandatory Dimensions”, “Hierarchy Dimensions” 和 “Joint Dimensions” 來進一步優(yōu)化維度組合。

Mandatory Dimensions: 必要維度，用于總是出現的維度。例如，如果你的查詢中總是會帶有 “ORDER_DATE” 做為 group by 或過濾條件, 那么它可以被聲明為必要維度。這樣一來，所有不含此維度的 cuboid 就可以被跳過計算。

Hierarchy Dimensions: 層級維度，例如 “國家” -> “省” -> “市” 是一個層級；不符合此層級關系的 cuboid 可以被跳過計算，例如 [“省”], [“市”]. 定義層級維度時，將父級別維度放在子維度的左邊。

Joint Dimensions:聯合維度，有些維度往往一起出現，或者它們的基數非常接近（有1:1映射關系）。例如 “user_id” 和 “email”。把多個維度定義為組合關系后，所有不符合此關系的 cuboids 會被跳過計算。

關于更多維度優(yōu)化，請閱讀這個博客: 新的聚合組

Rowkeys: 是由維度編碼值組成。

你可以拖拽維度列去調整其在 rowkey 中位置; 位于rowkey前面的列，將可以用來大幅縮小查詢的范圍。通常建議將 mandantory 維度放在開頭, 然后是在過濾 ( where 條件)中起到很大作用的維度；如果多個列都會被用于過濾，將高基數的維度（如 user_id）放在低基數的維度（如 age）的前面。

此外，你還可以在這里指定使用某一列作為 shardBy 列，kylin4.0 會根據 shardBy 列對存儲文件進行分片，分片能夠使查詢引擎跳過不必要的文件，提高查詢性能，最好選擇高基列并且會在多個 cuboid 中出現的列作為 shardBy 列。

Mandatory Cuboids: 維度組合白名單。確保你想要構建的 cuboid 能被構建。

Cube Engine: cube 構建引擎。Spark構建。

這里我們使用默認。

重寫配置

? Kylin 允許在 Cube 級別覆蓋部分 kylin.properties 中的配置，你可以在這里定義覆蓋的屬性。如果你沒有要配置的，點擊 Next 按鈕。

概覽 & 保存

你可以概覽你的 cube 并返回之前的步驟進行修改。點擊 Save 按鈕完成 cube 創(chuàng)建。

可以返回查看Cube信息

Cube構建與監(jiān)控

在 Models 頁面中，點擊 cube 欄右側的 Action 下拉按鈕并選擇 Build 操作。

選擇后會出現一個彈出窗口，點擊 Start Date 或者 End Date 輸入框選擇這個增量 cube 構建的起始日期。

上面如果沒有選擇分區(qū)表的話，這里不會提示選擇日期

點擊 Submit 提交請求。成功之后，你將會在 Monitor 頁面看到新建的 job和進度。

新建的 job 是 “pending” 狀態(tài)；一會兒，它就會開始運行并且你可以通過刷新 web 頁面或者點擊刷新按鈕來查看進度。

等待 job 完成。期間如要放棄這個 job ，點擊 Actions -> Discard 按鈕。

查看Build進度

計算中查看日志，點擊Job

彈出Spark UI新頁面，可以看到計算步驟

等到 job 100%完成，cube 的狀態(tài)就會變?yōu)?“Ready”, 意味著它已經準備好進行 SQL 查詢。在 Model 頁，找到 cube，然后點擊 cube 名展開消息，在 “Storage” 標簽下，列出 cube segments。每一個 segment 都有 start/end 時間；Parquet 文件相關的信息也會列出。

WEB UI查詢SQL

進入Insight輸入需要執(zhí)行的統計SQL，進行查詢。

這里查詢用的字段就是我們之前設置的維度字段，如果使用不設置在維度中的字段，會提示報錯，找不到該字段

三、SSB數據實際測試

生成SBB基準測試數據

SSB基準測試包括

1個事實表：lineorder
4個維度表：customer，part，dwdate，supplier
13條標準SQL查詢測試語句：統計查詢、多表關聯、sum、復雜條件、group by、order by等組合方式。

下載SSB數據生成工具：http://www.itpub.net/forum.php?mod=attachment&aid=NzA1NTM0fDFiOGIzOWZifDE0NDc0ODQ2MzZ8MHww

環(huán)境需要gcc

yum install -y gcc

將工具上傳到Linux服務器并解壓

[root@r-wb-15 ~]# ll -rw-r--r--. 1 root root 102995 3月 6 14:17 dbgen.zip [root@r-wb-15 ~]# unzip dbgen.zip [root@r-wb-15 ~]# cd dbgen [root@r-wb-15 dbgen]# make

查看生成的dbgen是否可用

[root@r-wb-15 dbgen]# ./dbgen -h SSBM (Star Schema Benchmark) Population Generator (Version 1.0.0) Copyright Transaction Processing Performance Council 1994 - 2000 USAGE: dbgen [-{vfFD}] [-O {fhmsv}][-T {pcsdla}][-s <scale>][-C <procs>][-S <step>] dbgen [-v] [-O {dfhmr}] [-s <scale>] [-U <updates>] [-r <percent>]

生成數據文件

# 利用dbgen生成示例數據，-T指定表，-s指定數據放大系數 ./dbgen -s 8 -T c # CUSTOMER表 ./dbgen -s 24 -T p # PART表 ./dbgen -s 8 -T s # SUPPLIER表 ./dbgen -s 1 -T d # DATE_DIM表 ./dbgen -s 2 -T l # LINEORDER表

創(chuàng)建表結構

CREATE TABLE CUSTOMER ( C_CUSTKEY INTEGER,C_NAME VARCHAR(25) NOT NULL,C_ADDRESS VARCHAR(40) NOT NULL,C_CITY VARCHAR(10) NOT NULL,C_NATION VARCHAR(15) NOT NULL,C_REGION VARCHAR(12) NOT NULL,C_PHONE VARCHAR(15) NOT NULL,C_MKTSEGMENT VARCHAR(10) NOT NULL);CREATE TABLE DATES ( D_DATEKEY INTEGER,D_DATE VARCHAR(18) NOT NULL,D_DAYOFWEEK VARCHAR(18) NOT NULL,D_MONTH VARCHAR(9) NOT NULL,D_YEAR INTEGER NOT NULL,D_YEARMONTHNUM INTEGER,D_YEARMONTH VARCHAR(7) NOT NULL,D_DAYNUMINWEEK INTEGER,D_DAYNUMINMONTH INTEGER,D_DAYNUMINYEAR INTEGER,D_MONTHNUMINYEAR INTEGER,D_WEEKNUMINYEAR INTEGER,D_SELLINGSEASON VARCHAR(12) NOT NULL,D_LASTDAYINWEEKFL INTEGER,D_LASTDAYINMONTHFL INTEGER,D_HOLIDAYFL INTEGER,D_WEEKDAYFL INTEGER);CREATE TABLE PART ( P_PARTKEY INTEGER,P_NAME VARCHAR(22) NOT NULL,P_MFGR VARCHAR(6) NOT NULL,P_CATEGORY VARCHAR(7) NOT NULL,P_BRAND VARCHAR(9) NOT NULL,P_COLOR VARCHAR(11) NOT NULL,P_TYPE VARCHAR(25) NOT NULL,P_SIZE INTEGER NOT NULL,P_CONTAINER VARCHAR(10) NOT NULL);CREATE TABLE SUPPLIER ( S_SUPPKEY INTEGER,S_NAME VARCHAR(25) NOT NULL,S_ADDRESS VARCHAR(25) NOT NULL,S_CITY VARCHAR(10) NOT NULL,S_NATION VARCHAR(15) NOT NULL,S_REGION VARCHAR(12) NOT NULL,S_PHONE VARCHAR(15) NOT NULL);CREATE TABLE LINEORDER ( LO_ORDERKEY BIGINT,LO_LINENUMBER BIGINT,LO_CUSTKEY INTEGER NOT NULL,LO_PARTKEY INTEGER NOT NULL,LO_SUPPKEY INTEGER NOT NULL,LO_ORDERDATE INTEGER NOT NULL,LO_ORDERPRIOTITY VARCHAR(15) NOT NULL,LO_SHIPPRIOTITY INTEGER,LO_QUANTITY BIGINT,LO_EXTENDEDPRICE BIGINT,LO_ORDTOTALPRICE BIGINT,LO_DISCOUNT BIGINT,LO_REVENUE BIGINT,LO_SUPPLYCOST BIGINT,LO_TAX BIGINT,LO_COMMITDATE INTEGER NOT NULL,LO_SHIPMODE VARCHAR(10) NOT NULL);

導入數據

導入之前生成的數據

set autocommit=off; load data infile '/opt/customer.tbl' into table CUSTOMER fields terminated by '|' lines terminated by '| '; commit;load data infile '/opt/lineorder.tbl' into table LINEORDER fields terminated by '|' lines terminated by '| '; commit;load data infile '/opt/supplier.tbl' into table SUPPLIER fields terminated by '|' lines terminated by '| '; commit;load data infile '/opt/part.tbl' into table PART fields terminated by '|' lines terminated by '| '; commit;load data infile '/opt/date.tbl' into table DATES fields terminated by '|' lines terminated by '| '; commit;

Hive創(chuàng)建相對應的表

create EXTERNAL TABLE CUSTOMER (C_CUSTKEY int,C_NAME string,C_ADDRESS string,C_CITY string,C_NATION string,C_REGION string,C_PHONE string,C_MKTSEGMENT string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');create EXTERNAL TABLE DATES (D_DATEKEY int,D_DATE string,D_DAYOFWEEK string,D_MONTH string,D_YEAR int,D_YEARMONTHNUM int,D_YEARMONTH string,D_DAYNUMINWEEK int,D_DAYNUMINMONTH int,D_DAYNUMINYEAR int,D_MONTHNUMINYEAR int,D_WEEKNUMINYEAR int,D_SELLINGSEASON string,D_LASTDAYINWEEKFL int,D_LASTDAYINMONTHFL int,D_HOLIDAYFL int,D_WEEKDAYFL int ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');create EXTERNAL TABLE LINEORDER (LO_ORDERKEY bigint,LO_LINENUMBER bigint,LO_CUSTKEY int,LO_PARTKEY int,LO_SUPPKEY int,LO_ORDERDATE int,LO_ORDERPRIOTITY string,LO_SHIPPRIOTITY int,LO_QUANTITY bigint,LO_EXTENDEDPRICE bigint,LO_ORDTOTALPRICE bigint,LO_DISCOUNT bigint,LO_REVENUE bigint,LO_SUPPLYCOST bigint,LO_TAX bigint,LO_COMMITDATE int,LO_SHIPMODE string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');create EXTERNAL TABLE PART (P_PARTKEY int,P_NAME string,P_MFGR string,P_CATEGORY string,P_BRAND string,P_COLOR string,P_TYPE string,P_SIZE int,P_CONTAINER string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');create EXTERNAL TABLE SUPPLIER (S_SUPPKEY int,S_NAME string,S_ADDRESS string,S_CITY string,S_NATION string,S_REGION string,S_PHONE string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');

Sqoop 同步 Mysql數據到Hive

sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table SUPPLIER \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table SUPPLIER \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table CUSTOMER \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table CUSTOMER \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table DATES \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table DATES \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table LINEORDER \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table LINEORDER \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table PART \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table PART \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1

標準測試SQL

PROMPT Q1.1 SELECT SUM(LO_EXTENDEDPRICE*LO_DISCOUNT) AS REVENUE FROM LINEORDER, DATES WHERE LO_ORDERDATE = D_DATEKEY AND D_YEAR = 1993 AND LO_DISCOUNT BETWEEN 1 AND 3 AND LO_QUANTITY < 25;PROMPT Q1.2 SELECT SUM(LO_EXTENDEDPRICE*LO_DISCOUNT) AS REVENUE FROM LINEORDER, DATES WHERE LO_ORDERDATE = D_DATEKEY AND D_YEARMONTH = 'Jan1994' AND LO_DISCOUNT BETWEEN 4 AND 6 AND LO_QUANTITY BETWEEN 26 AND 35;PROMPT Q1.3 SELECT SUM(LO_EXTENDEDPRICE*LO_DISCOUNT) AS REVENUE FROM LINEORDER, DATES WHERE LO_ORDERDATE = D_DATEKEY AND D_WEEKNUMINYEAR = 6 AND D_YEAR = 1994 AND LO_DISCOUNT BETWEEN 5 AND 7 AND LO_QUANTITY BETWEEN 26 AND 35;PROMPT Q2.1 SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;PROMPT Q2.2 SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_BRAND BETWEEN 'MFGR#2221' AND 'MFGR#2228' AND S_REGION = 'ASIA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;PROMPT Q2.3 SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_BRAND= 'MFGR#2239' AND S_REGION = 'EUROPE' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;PROMPT Q3.1 SELECT C_NATION, S_NATION, D_YEAR, SUM(LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATES WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND C_REGION = 'ASIA' AND S_REGION = 'ASIA' AND D_YEAR >= 1992 AND D_YEAR <= 1997 GROUP BY C_NATION, S_NATION, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC;PROMPT Q3.2 SELECT C_CITY, S_CITY, D_YEAR, SUM(LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATES WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND C_NATION = 'UNITED STATES' AND S_NATION = 'UNITED STATES' AND D_YEAR >= 1992 AND D_YEAR <= 1997 GROUP BY C_CITY, S_CITY, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC;PROMPT Q3.3 SELECT C_CITY, S_CITY, D_YEAR, SUM(LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATES WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND (C_CITY='UNITED KI1' OR C_CITY='UNITED KI5') AND (S_CITY='UNITED KI1' OR S_CITY='UNITED KI5') AND D_YEAR >= 1992 AND D_YEAR <= 1997 GROUP BY C_CITY, S_CITY, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC;PROMPT Q3.4 SELECT C_CITY, S_CITY, D_YEAR, SUM(LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATES WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND (C_CITY='UNITED KI1' OR C_CITY='UNITED KI5') AND (S_CITY='UNITED KI1' OR S_CITY='UNITED KI5') AND D_YEARMONTH = 'Dec1997' GROUP BY C_CITY, S_CITY, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC;PROMPT Q4.1 SELECT D_YEAR, C_NATION, SUM(LO_REVENUE - LO_SUPPLYCOST) AS PROFIT FROM DATES, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY AND C_REGION = 'AMERICA' AND S_REGION = 'AMERICA' AND (P_MFGR = 'MFGR#1' OR P_MFGR = 'MFGR#2') GROUP BY D_YEAR, C_NATION ORDER BY D_YEAR, C_NATION;PROMPT Q4.2 SELECT D_YEAR, S_NATION, P_CATEGORY, SUM(LO_REVENUE - LO_SUPPLYCOST) AS PROFIT FROM DATES, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY AND C_REGION = 'AMERICA' AND S_REGION = 'AMERICA' AND (D_YEAR = 1997 OR D_YEAR = 1998) AND (P_MFGR = 'MFGR#1' OR P_MFGR = 'MFGR#2') GROUP BY D_YEAR, S_NATION, P_CATEGORY ORDER BY D_YEAR, S_NATION, P_CATEGORY;PROMPT Q4.3 SELECT D_YEAR, S_CITY, P_BRAND, SUM(LO_REVENUE - LO_SUPPLYCOST) AS PROFIT FROM DATES, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY AND S_NATION = 'UNITED STATES' AND (D_YEAR = 1997 OR D_YEAR = 1998) AND P_CATEGORY = 'MFGR#14' GROUP BY D_YEAR, S_CITY, P_BRAND ORDER BY D_YEAR, S_CITY, P_BRAND;

這里我們先用這個sql做測試

SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;Kylin不支持笛卡爾積查詢，我們轉換為JOIN查詢 SELECT SUM(LO_REVENUE) AS SUM1, D_YEAR, P_BRAND FROM LINEORDER JOIN DATES ON LO_ORDERDATE = D_DATEKEY JOIN PART ON LO_PARTKEY = P_PARTKEY JOIN SUPPLIER ON LO_SUPPKEY = S_SUPPKEY WHERE P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;

Kylin不支持笛卡爾積查詢，查詢報錯如下

Cartesian Join is not supported. while executing SQL: "select * from (SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND) limit 50000"

Kylin創(chuàng)建Model

創(chuàng)建CUBE

一直Next直至完成

build CUBE

Build 完成

Build 構建共花了156分鐘

數據圖表展示及導出

Mysql查詢、Hive查詢、Kylin查詢對比

查詢類型耗時

Mysql	超時
Kylin	1秒以內
Hive	74.237秒

Mysql查詢超時
Kylin查詢秒級響應
Hive查詢74秒

四、Kylin使用注意事項

只能按照構建Model的連接條件寫SQL查詢

? 在創(chuàng)建Model時候我們會指定表之間的關聯關系，這個時候指定的關系，在后面查詢SQL也只能查詢這種關系的SQL。

如果不按照設定的join類型，會提示錯誤

示例：改成LEFT JOIN去查詢，無法返回結果

只能按照構建 Cube 時選擇的維度字段分組統計

分組統計、查詢字段必須在創(chuàng)建Cube時選擇上維度，否則無法當做條件查詢。

示例：我們使用未在維度中字段查詢，提示報錯

只能統計構建Cube 時選擇的度量值字段

在統計時候只能統計添加度量值字段（默認會有一個count(*)來統計數量。）

示例：統計不在度量值的字段會提示報錯

五、Kylin每日自動構建Cube

? Kylin 提供了 Restful API，因次我們可以將構建 cube 的命令寫到腳本中，將腳本交給
azkaban 或者 oozie 這樣的調度工具，以實現定時調度的功能。

認證密碼加密方式：

${Authorization}計算方式: Base64($username:$password)Authorization: Basic ${Authorization} Authorization: Basic QURNSU46S1lMSU4=

kylin_cube_build.sh 腳本如下:

#!/bin/bash #從第 1 個參數獲取 cube_name cube_name=$1 #從第 2 個參數獲取構建 cube 時間 if [ -n "$2" ] then do_date=$2 else do_date=`date -d '-1 day' +%F` fi #獲取執(zhí)行時間的 00:00:00 時間戳(0 時區(qū)) start_date_unix=`date -d "$do_date 08:00:00" +%s` #秒級時間戳變毫秒級 start_date=$(($start_date_unix*1000)) #獲取執(zhí)行時間的 24:00 的時間戳 stop_date=$(($start_date+86400000)) curl -X PUT -H "Authorization: Basic QURNSU46S1lMSU4=" -H 'Content-Type: application/json' -d '{"startTime":'$start_date',"endTime":'$stop_date', "buildType":"BUILD"}' http://192.168.60.15:7070/kylin/api/cubes/$cube_name/build

注：我們沒有修改 kylin 的時區(qū)，因此 kylin 內部只識別 0 時區(qū)的時間，0 時區(qū)的 0 點是

東 8 區(qū)的早上 8 點，因此我們在腳本里要寫$do_date 08:00:00 來彌補時差問題。

六、BI工具集成

可以與 Kylin 結合使用的可視化工具很多，例如：

ODBC：與 Tableau、Excel、PowerBI 等工具集成

JDBC：與 Saiku、BIRT 等 Java 工具集成

RestAPI：與 JavaScript、Web 網頁集成

Kylin 開發(fā)團隊還貢獻了 Zepplin的插件，也可以使用 Zepplin 來訪問 Kylin 服務。

JDBC

新建項目并導入依賴

<dependency><groupId>org.apache.kylin</groupId><artifactId>kylin-jdbc</artifactId><version>4.0.1</version> </dependency>

Java代碼

import java.sql.*;/*** @author Jast* @description* @date 2022-03-07 11:22*/ public class KylinTest {public static void main(String[] args) throws Exception {//Kylin_JDBC 驅動String KYLIN_DRIVER = "org.apache.kylin.jdbc.Driver";//Kylin_URLString KYLIN_URL ="jdbc:kylin://192.168.60.15:7070/FirstProject";//Kylin 的用戶名String KYLIN_USER = "ADMIN";//Kylin 的密碼String KYLIN_PASSWD = "KYLIN";//添加驅動信息Class.forName(KYLIN_DRIVER);//獲取連接Connection connection =DriverManager.getConnection(KYLIN_URL, KYLIN_USER, KYLIN_PASSWD);//預編譯 SQLPreparedStatement ps = connection.prepareStatement("SELECT SUM(LO_REVENUE) AS SUM1, D_YEAR, P_BRAND FROM LINEORDER JOIN DATES ON LO_ORDERDATE = D_DATEKEY JOIN PART ON LO_PARTKEY = P_PARTKEY JOIN SUPPLIER ON LO_SUPPKEY = S_SUPPKEY WHERE P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;");//執(zhí)行查詢ResultSet resultSet = ps.executeQuery();//遍歷打印while (resultSet.next()) {System.out.println(resultSet.getString(1) + ":" + resultSet.getDouble(2));}} }

Zepplin

下載地址：https://zeppelin.apache.org/download.html

安裝與啟動

下載

這個安裝包較大，下載的這個版本1.6G

wget https://dlcdn.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz --no-check-certificate

將zeppelin-0.10.1.tar.gz上傳到Linux服務器

解壓、重命名

tar -zxvf zeppelin-0.10.1-bin-all.tgz mv zeppelin-0.10.1-bin-all zeppelin

修改啟動參數

修改文件zeppelin-site.xml

mv zeppelin-site.xml.template zeppelin-site.xml

修改前：

<property><name>zeppelin.server.addr</name><value>127.0.0.1</value><description>Server binding address</description> </property><property><name>zeppelin.server.port</name><value>8080</value><description>Server port.</description> </property>

修改后

<property><name>zeppelin.server.addr</name><value>0.0.0.0</value><description>Server binding address</description> </property><property><name>zeppelin.server.port</name><value>17890</value><description>Server port.</description> </property>

啟動

functions.sh stop-interpreter.sh zeppelin.sh [root@r-wb-15 zeppelin]# bin/zeppelin-daemon.sh start Please specify HADOOP_CONF_DIR if USE_HADOOP is true Log dir doesn't exist, create /root/zeppelin/logs Pid dir doesn't exist, create /root/zeppelin/run Zeppelin start [ OK ]

訪問

訪問地址http://192.168.60.15:17890/

配置Kylin

點擊右上角 anonymous 選擇 Interpreter

搜索Kylin并配置基本信息

使用Zepplin查詢Kylin

點擊Notebook->Create new note

填寫Note Name和Default Interpreter

如果上面Default Interpreter沒有選擇默認的為Kylin，每次輸入指定的SQL需要在前面加上%kylin

查詢Kylin

總結

以上是生活随笔為你收集整理的Apache Kylin从入门到精通的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： HugeGraphServer 部署安装
下一篇： Vim winmanager文件浏览自动