Docker快速部署Apache Kylin和体验

疫情在家,就疯狂撸起来吧~

参考URL:
https://zhuanlan.zhihu.com/p/201020536

1. Kylin是什么

Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

Apache Kylin™ 令使用者仅需三步,即可实现超大数据集上的亚秒级查询。

1、定义数据集上的一个星形或雪花形模型
2、在定义的数据表上构建cube
3、使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询,仅需亚秒级响应时间即可获得查询结果

Kylin 提供与多种数据可视化工具的整合能力,如 Tableau,PowerBI 等,令用户可以使用 BI 工具对 Hadoop 数据进行分析。

2. Kylin的特性

1、Kylin 是为减少在 Hadoop/Spark 上百亿规模数据查询延迟而设计

2、作为一个分析型数据仓库(也是 OLAP 引擎),Kylin 为 Hadoop 提供标准 SQL 支持大部分查询功能

3、通过 Kylin,用户可以与 Hadoop 数据进行亚秒级交互,在同样的数据集上提供比 Hive 更好的性能

4、用户能够在 Kylin 里为百亿以上数据集定义数据模型并构建立方体

5、Kylin 可以在数据产生时进行实时处理,用户可以在秒级延迟下进行实时数据的多维分析。

6、Kylin 提供与 BI 工具的整合能力,如Tableau,PowerBI/Excel,MSTR,QlikSense,Hue 和 SuperSet

7、其他特性:Job管理与监控、压缩与编码、增量更新、利用HBase Coprocessor、基于HyperLogLog的Dinstinc Count近似算法、友好的web界面以管理,监控和使用立方体、项目及表级别的访问控制安全、支持LDAP、SSO

3. Kylin的架构

v2-eb44a339f41c6d3a4b9f639499db9730_r.jpg

4. 从docker镜像安装使用kylin(不需要提前准备hadoop环境)

为了让用户方便的试用 Kylin,官方提供了 Kylin 的 docker 镜像。该镜像中,Kylin 依赖的各个服务均已正确的安装及部署,包括:

JDK 1.8
Hadoop 2.7.0
Hive 1.2.1
Hbase 1.1.2 (with Zookeeper)
Spark 2.3.1
Kafka 1.1.1
MySQL 5.1.73

官方已将面向用户的 Kylin 镜像上传至 docker 仓库,用户无需在本地构建镜像,只需要安装docker,就可以体验kylin的一键安装。

step1、首先执行以下命令从 docker 仓库 pull 镜像:

docker pull apachekylin/apache-kylin-standalone:3.1.0

此处的镜像包含的是kylin最新Release版本kylin 3.1.0。由于该镜像中包含了所有kylin依赖的大数据组件,所以拉取镜像需要的时间较长,请耐心等待。

step2、执行以下命令来启动容器:

docker run -d \
-m 8G \
-p 7070:7070 \
-p 8088:8088 \
-p 50070:50070 \
-p 8032:8032 \
-p 8042:8042 \
-p 16010:16010 \
apachekylin/apache-kylin-standalone:3.1.0

容器会很快启动,由于容器内指定端口已经映射到本机端口,可以直接在本机浏览器中打开各个服务的页面,如:

Kylin 页面:http://127.0.0.1:7070/kylin/
Hdfs NameNode 页面:http://127.0.0.1:50070
Yarn ResourceManager 页面:http://127.0.0.1:8088
HBase 页面:http://127.0.0.1:60010

容器启动时,会自动启动以下服务:
NameNode, DataNode
ResourceManager, NodeManager
HBase
Kafka
Kylin
并自动运行 $KYLIN_HOME/bin/sample.sh及在 Kafka 中创建 kylin_streaming_topic topic 并持续向该 topic 中发送数据。这是为了让用户启动容器后,就能体验以批和流的方式的方式构建 Cube 并进行查询。

用户可以通过docker exec命令进入容器,容器内相关环境变量如下:
JAVA_HOME=/home/admin/jdk1.8.0_141
HADOOP_HOME=/home/admin/hadoop-2.7.0
KAFKA_HOME=/home/admin/kafka_2.11-1.1.1
SPARK_HOME=/home/admin/spark-2.3.1-bin-hadoop2.6
HBASE_HOME=/home/admin/hbase-1.1.2
HIVE_HOME=/home/admin/apache-hive-1.2.1-bin
KYLIN_HOME=/home/admin/apache-kylin-3.1.0-bin-hbase1x

使用ADMIN/KYLIN的用户名和密码组合登陆Kylin后,用户可以使用sample cube来体验cube的构建和查询.


2022-03-22 20_05_44-MessageCenterUI.png

你可能感兴趣的:(Docker快速部署Apache Kylin和体验)