Kylin(一)-kylin的介绍及安装

一、kylin的简单介绍

kylin是apache的社区的一员,官网地址http://kylin.apache.org/
最初由ebay开发并贡献至开源社区。
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据。
它能在亚秒内查询巨大的表。

Apache Kylin™ 令使用者仅需三步,即可实现超大数据集上的亚秒级查询。

  1. 定义数据集上的一个星形或雪花形模型 2在定义的数据表上构建cube 3使用标准
  2. SQL 通过 ODBC、JDBC 或 RESTFUL
  3. API 进行查询,仅需亚秒级响应时间即可获得查询结果

Kylin(一)-kylin的介绍及安装_第1张图片

由以上可以看出

  1. kylin是采用提前将计算结果计算好并存储到hbase中这种”空间换时间“的方式
  2. 所以kylin可以在秒级查询出多维度、多表关联、大数据量的聚合计算结果
  3. 由于使用”空间换时间“,kylin数据的膨胀率会很大

二、部署

部署的kylin版本为2.6.6

2.1 软件环境

jdk 1.8+
hadoop 2.7+
hive 0.12+
hbase 1.1+
os centos7

2.2 下载

kylin的安装包可以从官网下载 http://kylin.apache.org/cn/download/
或者自己下载git代码编译
安装获取到后,解压到文件夹

2.3 部署

kylin依赖hive、hbase、hadoop(hdfs和yarn),kylin启动的时候会检测这些组件是否有安装,以上组件的安装可以在我博客的分类里面查找。

2.4 单机部署

kylin解压之后,默认不用调整任何参数,执行启动命令即可启动
shell bin/kylin.sh start
启动过程中如果报错,大部分错误应该和以上依赖组件没有安装有关系

2.5 集群部署

kylin的节点分为
query:查询节点,只负责处理用户的查询请求
job:任务节点,用于执行kylin构建cube的任务
all:以上两个功能皆有

两种节点的分配,可跟实际情况来调整,或者你都设置成all也可以。
在实际生产环境中,job build过程中由于会消耗大量cpu和内存会影响查询,所以job和query节点一般都是分开

配置节点类型和集群节点
打开conf/kyin.properties

# 配置节点类型
kylin.server.mode=all
kylin.server.cluster-servers=node1:7070,node2:7070

如果有多个节点记得一定要配置kylin.server.cluster-servers,这个配置kylin用来同步节点间的元数据信息。

启动
shell bin/kylin.sh start

2.6 问题故障

启动时kylin会检测依赖的组件,可根据报错来看哪个依赖组件没有安装,或者没有启动。

你可能感兴趣的:(大数据OLAP引擎)