Apache Kylin安装部署

Apache Kylin依赖于Hadoop、HBase和Hive。如果要安装Kylin,那么系统中必须正确安装了这三个组件,这样Kylin才可以通过它们的配置文件和命令行工具等来执行计算。本文以Kylin 2.0.0为例,简单介绍一下Kylin单服务器和集群部署。请注意,官网给出的兼容Kylin 2.0.0的Hadoop环境为:

  • Hadoop: 2.7+
  • Hive: 0.13 - 1.2.1
  • HBase: 0.98 - 0.99, 1.1+
  • JDK: 1.7+

单节点部署

Kylin的安装部署非常简单,要安装Kylin,需要执行以下步骤:

  1. 系统中可以正常运行Hadoop(包括HDFS和YARN,注意还:有jobhistoryserver,启动命令为sbin/mr-jobhistory-daemon.sh start historyserver),并且正确设置了$HADOOP_HOME变量。
  2. 系统中可以正常运行Hive和hive命令行工具,并且正确设置了$HIVE_HOME变量。
  3. 系统中可以正常运行HBase和hbase shell,并且正确设置了$HBASE_HOME变量。
  4. 下载最新版的Kylin,并解压。
  5. 可以运行 bin/check-evn.sh 脚本来确保以上组件可以正常运行并且HOME目录设置正确。
  6. 运行 bin/kylin.sh start 命令来启动Kylin服务,服务启动后,从 log/kylin.log 文件中可以看到Kylin的运行日志。
  7. 如果需要停止Kylin,运行 bin/kylin.sh stop

当Kylin启动后,可以在 http://hostname:7070/kylin 目录下查看Kylin的Web页面(hostname即为Kylin服务所在的主机名)。登录页面如下:

Apache Kylin安装部署_第1张图片
Kylin登录界面

输入用户名密码即可登录,初始用户名为ADMIN,密码为KYLIN。注意,这里的Hadoop等集群不要使用Standalone模式,要不然可能会出现问题。

集群部署

Apache Kylin同样可以使用集群部署,但使用集群部署并不能增加计算速度(因为计算过程使用MapReduce引擎,与Kylin自身无关),而是主要为查询提供负载均衡。

Kylin的每个服务都有三种身份可以选择:

  1. Job:只作为作业执行引擎,执行Kylin的构建计划。
  2. Query:只作为查询服务。
  3. All:同时提供作业执行引擎和查询服务。

需要注意的是,不论我们的Kylin集群中有多少个节点,都只有一个节点可以作为作业执行引擎,不论这个执行引擎是在“job”节点还是“all”节点。也就是说,如果集群中存在一个“job”节点,就不能存在“all”节点,反之亦然。单节点部署时,单个节点就是一个“all”节点。Kylin集群部署的典型场景如下:

Apache Kylin安装部署_第2张图片
图片来源于官网

如果使用集群方式部署Kylin,我们需要修改一些配置项。这些配置项在 ${KYLIN_HOME}/conf/kylin.properties 文件中,请确保每个节点都正确配置了这些配置项:

  1. kylin.rest.servers
    提供web服务的列表,用逗号分隔,比如:host1:7070,host2:7070,host3:7070。
  2. kylin.server.mode
    每个节点分别配置自己的身份,注意只有一个节点可以配置成"all”(或“job”),其余节点都必须为“query”。

如果遇到问题

如果在安装过程或后续使用中遇到了问题,请详细阅读Kylin官方文档。也可以去Kylin的社区寻求帮助:

  • Community
  • Mailing List Archives

你可能感兴趣的:(Apache Kylin安装部署)