Docker快速部署Apache Kylin和体验

疫情在家，就疯狂撸起来吧~

参考URL：
https://zhuanlan.zhihu.com/p/201020536

1. Kylin是什么

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

Apache Kylin™ 令使用者仅需三步，即可实现超大数据集上的亚秒级查询。

1、定义数据集上的一个星形或雪花形模型
2、在定义的数据表上构建cube
3、使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询，仅需亚秒级响应时间即可获得查询结果

Kylin 提供与多种数据可视化工具的整合能力，如 Tableau，PowerBI 等，令用户可以使用 BI 工具对 Hadoop 数据进行分析。

2. Kylin的特性

1、Kylin 是为减少在 Hadoop/Spark 上百亿规模数据查询延迟而设计

2、作为一个分析型数据仓库(也是 OLAP 引擎)，Kylin 为 Hadoop 提供标准 SQL 支持大部分查询功能

3、通过 Kylin，用户可以与 Hadoop 数据进行亚秒级交互，在同样的数据集上提供比 Hive 更好的性能

4、用户能够在 Kylin 里为百亿以上数据集定义数据模型并构建立方体

5、Kylin 可以在数据产生时进行实时处理，用户可以在秒级延迟下进行实时数据的多维分析。

6、Kylin 提供与 BI 工具的整合能力，如Tableau，PowerBI/Excel，MSTR，QlikSense，Hue 和 SuperSet

7、其他特性：Job管理与监控、压缩与编码、增量更新、利用HBase Coprocessor、基于HyperLogLog的Dinstinc Count近似算法、友好的web界面以管理，监控和使用立方体、项目及表级别的访问控制安全、支持LDAP、SSO

3. Kylin的架构

v2-eb44a339f41c6d3a4b9f639499db9730_r.jpg

4. 从docker镜像安装使用kylin（不需要提前准备hadoop环境）

为了让用户方便的试用 Kylin，官方提供了 Kylin 的 docker 镜像。该镜像中，Kylin 依赖的各个服务均已正确的安装及部署，包括：

JDK 1.8
Hadoop 2.7.0
Hive 1.2.1
Hbase 1.1.2 (with Zookeeper)
Spark 2.3.1
Kafka 1.1.1
MySQL 5.1.73

官方已将面向用户的 Kylin 镜像上传至 docker 仓库，用户无需在本地构建镜像，只需要安装docker，就可以体验kylin的一键安装。

step1、首先执行以下命令从 docker 仓库 pull 镜像：

docker pull apachekylin/apache-kylin-standalone:3.1.0

此处的镜像包含的是kylin最新Release版本kylin 3.1.0。由于该镜像中包含了所有kylin依赖的大数据组件，所以拉取镜像需要的时间较长，请耐心等待。

step2、执行以下命令来启动容器：

docker run -d \
-m 8G \
-p 7070:7070 \
-p 8088:8088 \
-p 50070:50070 \
-p 8032:8032 \
-p 8042:8042 \
-p 16010:16010 \
apachekylin/apache-kylin-standalone:3.1.0

容器会很快启动，由于容器内指定端口已经映射到本机端口，可以直接在本机浏览器中打开各个服务的页面，如：

Kylin 页面：http://127.0.0.1:7070/kylin/
Hdfs NameNode 页面：http://127.0.0.1:50070
Yarn ResourceManager 页面：http://127.0.0.1:8088
HBase 页面：http://127.0.0.1:60010

容器启动时，会自动启动以下服务：
NameNode, DataNode
ResourceManager, NodeManager
HBase
Kafka
Kylin
并自动运行 $KYLIN_HOME/bin/sample.sh及在 Kafka 中创建 kylin_streaming_topic topic 并持续向该 topic 中发送数据。这是为了让用户启动容器后，就能体验以批和流的方式的方式构建 Cube 并进行查询。

用户可以通过docker exec命令进入容器，容器内相关环境变量如下：
JAVA_HOME=/home/admin/jdk1.8.0_141
HADOOP_HOME=/home/admin/hadoop-2.7.0
KAFKA_HOME=/home/admin/kafka_2.11-1.1.1
SPARK_HOME=/home/admin/spark-2.3.1-bin-hadoop2.6
HBASE_HOME=/home/admin/hbase-1.1.2
HIVE_HOME=/home/admin/apache-hive-1.2.1-bin
KYLIN_HOME=/home/admin/apache-kylin-3.1.0-bin-hbase1x

使用ADMIN/KYLIN的用户名和密码组合登陆Kylin后，用户可以使用sample cube来体验cube的构建和查询.

2022-03-22 20_05_44-MessageCenterUI.png

Docker快速部署Apache Kylin和体验

你可能感兴趣的:(Docker快速部署Apache Kylin和体验)