Apache Kylin 2.3.1 安装,基于CDH5

前言:心血来潮了,如果有不对的,大家指出来哈!相互学习! 

环境信息:

Linux系统 Redhat7
CDH CDH5.14.3
jdk 1.8
apache kylin 2.3.1

下载地址:

apache kylin地址:  for cdh 5 apache kylin 2.3.1

官网地址:http://kylin.apache.org/download/  

官方文档:http://kylin.apache.org/cn/docs/  (备注: 20181128 补充)

kylin需要依赖的组件和kylin的特性,这里就不详细写了哦!大家可以网上搜索到。

安装步骤:

1、操作用户root。将下载好的gz包放入服务器上。 apache-kylin-2.3.1-bin-cdh57.tar.gz (索性就放 /opt 目录吧)

 

2、操作用户root。解压gz

 cd /opt  ##进入目录,执行解压就会在这个目录下. 当然你可以指定解压目录.

 tar -zxvf /opt/apache-kylin-2.3.1-cdh57-bin.tar.gz  ##解压

注:解压后,会有看到 /opt/apache-kylin-2.3.1-bin 目录。

 

3、操作用户root。如果不习惯  apache-kylin-2.3.1-bin 目录名称太长呢?

mkdir -p /opt/kylin-2.3.1 ##创建一个空目录.
mv /opt/apache-kylin-2.3.1-bin/* /opt/kylin-2.3.1 ##将apache-kylin-2.3.1-bin 移至kylin-2.3.1 目录下。

注:步骤3 是个人习惯问题,如果觉得没必要,可以忽略。(可忽略)

 

4、操作用户root。创建kylin 用户。将/opt/kylin-2.3.1 属主给 kylin 用户。

adduser kylin  ##创建kylin用户

passwd kylin ##修改密码

chown -R kylin:kylin /opt/kylin-2.3.1 ##将目录属主变更为kylin用户和组

 

注:步骤4 觉得root用户来管理这个应用也是ok的,那就忽略步骤4吧。(可忽略)

 

 

5、修改 kylin.properties 配置。

文件位置: /opt/kylin-2.3.1/conf/kylin.properties

vi kylin.properties ##进入修改 (vim kylin.properties 亦可,前提安装了vim) 

(普及下:1、 vi 进入文件预览 2、按 i 进入编辑  3、 完成 按 esc键退出编辑 4、shift+zz 快捷键保存)

修改配置项如下:

##1---kylin 在hdfs中的工作目录(如果hdfs没有这个目录,创建下。1、指令su hdfs  2、指令 hdfs dfs -mkdir /kylin)

kylin.env.hdfs-working-dir=/kylin

##2---kylin 服务ip和端口

kylin.server.cluster-servers=ip:7070

##3---kylin 连接hive的模式

kylin.source.hive.client=beeline

##4---beeline 连接串(标红kylin是hive连接用户,标红ip是hiveserver2 的ip哦 )
kylin.source.hive.beeline-params=-n kylin --hiveconf hive.security.authorization.sqlstd.confwhitelist.append='mapreduce.job.*|dfs.*' -u jdbc:hive2://ip:10000

##5--kylin展平表,用到的hive库。

kylin.source.hive.database-for-flat-table=tmp

##6---看着改吧,涉及到kylin跑任务的。如:同时运行任务数、生成hbase file的大小和个数,此处是优化点、压缩方式、任务监控、连接spark等等。

 

6、检测环境

sh /opt/kylin-2.3.1/bin/check-env.sh

提示如下表示ok。

[kylin@wg-bigdata-001 ~]$ sh /opt/kylin-2.3.1/bin/check-env.sh
Retrieving hadoop conf dir...
KYLIN_HOME is set to /opt/kylin-2.3.1
[kylin@wg-bigdata-001 ~]$ 

7、启动kylin

sh /opt/kylin-2.3.1/bin/kylin.sh start

 

8、web访问

http://wg-bigdata-001:7070/kylin

用户/密码:ADMIN/KYLIN

 

遇到的问题:

1、因为集群使用sentry 做的权限管理。所以刷cube会遇到 kylin 创建外部表失败。(权限问题)

##kylin使用beeline 会有外部表问题
##---解决方法如下

##指令如下:
##===1
su hdfs 
hdfs dfs -mkdir /kylin && hdfs dfs -chown -R hive:hive /kylin && hdfs dfs -setfacl -R -m group:kylin:rwx /kylin
hdfs dfs -mkdir /user/kylin && hdfs dfs -chown -R kylin:kylin /user/kylin
##===2
##使用hive用户,beeline进入 执行下面的语句
grant all on URI '/kylin' to role r_tmp_all;
grant role r_tmp_all to group kylin;

2、刷cube 执行到 任务的步骤8 :kylin : killed by admin 报错(是kylin job任务的步骤8)

解决方式:内存问题

修改 /opt/kylin-2.3.1/conf/kylin_job_conf_inmem.xml

改前:

   mapreduce.map.memory.mb
   3072
   



    mapreduce.map.Java.opts
   -Xmx2700m
   

改后:

   mapreduce.map.memory.mb
   1024
   


    mapreduce.map.Java.opts
   -Xmx600m
   


   mapreduce.map.memory.mb
   3072
   



    mapreduce.map.Java.opts
   -Xmx2700m
   

改后:

   mapreduce.map.memory.mb
   1024
   


    mapreduce.map.Java.opts
   -Xmx600m
   

3、安装 kylin2.5.1 (CDH6) 启动kylin 报错。(20181128 补充)

错误信息:

Retrieving hbase dependency...
错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty

解决方法一:

修改 ${KYLIN_HOME}/bin/find-hbase-dependency.sh

添加( export HADOOP_CLASSPATH=${HBASE_HOME}/lib/*:classpath ) 在 ( hbase_classpath=`hbase classpath` ) 前面一行。

即:

export HADOOP_CLASSPATH=${HBASE_HOME}/lib/*:classpath
hbase_classpath=`hbase classpath`

最后:启动kylin,错误信息依旧会提示,但是可以正常启动和使用。(本人验证通过)

好吧, 是CDH6自身的问题。

解决方法二:(本人验证 通过)

因为在cdh的HBASE中漏了对自身包的加载。。。桑心

修改
vim /opt/cloudera/parcels/CDH/lib/hbase/bin/hbase

将(改前)
# CLASSPATH initially contains $HBASE_CONF_DIR
CLASSPATH="${HBASE_CONF_DIR}"
CLASSPATH=${CLASSPATH}:$JAVA_HOME/lib/tools.jar

改为:(改后)
# CLASSPATH initially contains $HBASE_CONF_DIR
CLASSPATH="${HBASE_CONF_DIR}"
CLASSPATH=${CLASSPATH}:$JAVA_HOME/lib/tools.jar:/opt/cloudera/parcels/CDH/lib/hbase/lib/*

参考地址:

http://92072234.wiz03.com/share/s/2i1O8Q1L1k042IDoOy3h7BgH2K4G6J2SoQv42Xc4b01xpCrj

 

 

个人见解:

1、apache kylin 安装还是比较简便的,重点应该多了解下 kylin中cube的优化问题。

2、个人知道的优化:

cube 的聚合组(cube剪枝:强制组合,层级组合,关联组合)

rowkey 字段的排列和字段值的存储类型,基数 等。

配置文件中:对hbase并行粒度的设置。既对存入hbase中的文件大小和个数做控制 达到并行优化。

 

结束语:

希望这篇总结对大家有所帮助!如果有总结不到之处,请大家纠正!感谢!

很希望可以加入 kyligence。跟大神们去学习学习!哈哈,见笑了,见笑了。

 

 

 

kylin 各个版本安装步骤都是类似的,从1.5 到目前的版本。官网也完善了很多安装步骤 和配置的讲解,很赞哦~!

 

小编:belialxing

 

 

 

你可能感兴趣的:(学习博客)