开源BI工具Pentaho 连接hive进行大数据分析

pentaho是世界上最流行的开源商务智能软件,以工作流为核心的、强调面向解决方案而非工具组件的BI套件,整合了多个开源项目,目标是和商业BI相抗衡。它是一个基于java平台的商业智能(Business Intelligence,BI)套件,之所以说是套件是因为它包括一个web server平台和几个工具软件:报表,分析,图表,数据集成,数据挖掘等,可以说包括了商务智能的方方面面。

pentaho连接hive进行数据分析的步骤

1. 下载the Kettle Client

The Kettle client package contains the Spoon UI for building, testing and running Kettle Jobs and Transforms

Kettle Client 有windows版本与linux MAC版本,我用的是windows版本,下载地址为

http://downloads.sourceforge.net/project/pentaho/Data%20Integration/4.3.0-stable/pdi-ce-4.3.0-stable.zip?r=&ts=1343291347&use_mirror=cdnetworks-kr-2

下载后解压缩文件,在运行Spoon之前需要先确认已经安装jdk,然后进行配置

我用的hadoop版本是cloudera cdh3u3所以需要先配置下

(1)  删除$PDI_HOME/libext/bigdata/hadoop-0.20.2-core.jar,然后拷贝 $HADOOP_HOME/hadoop-core-0.20.2-cdh3u3.jar 到 $PDI_HOME/libext/bigdata

(2) 拷贝$HADOOP_HOME/lib/guava-r09-jarjar.jar 到 $PDI_HOME/libext/bigdata

配置好后打开运行文件夹data-integration中的Spoon.bat

打开工具如图


然后右击主对象树种的 jobs ,选择新建,然后右击 job 1中的DB连接,选择新建数据库连接向导,在数据库连接名称中填写hiveconn,数据库连接类型选择Hadoop Hive,数据库访问类型Native(JDBC),点击下一步,填写服务器主机名称、TCI/IP端口、数据库名称,(注:需要先运行Hive thrift server打开端口10000),进入下一步测试数据库连接,如果成功点击完成,失败的话先检测hive thrift server端口是否打开。

设置后,在DB连接中会出现hiveconn,右击hiveconn选择SQL Editor,输入hive sql查询语句select * from default.weblogs limit 10;

然后执行即可看到hive的返回结果。


你可能感兴趣的:(开源BI工具Pentaho 连接hive进行大数据分析)