kettle案例八连接hive--抽取hive的数据保存excel

我们在上篇文章已经学习了如何把数据放入hive中。

kettle案例七连接hive–抽取mongodb的数据保存到hive

本章学习如何把数据从hive中导出来。

官网参考连接
https://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS

在hive中启动hiveserver2

我们在之前的文章中已经了解了hiveserver2。
hadoop组件—数据仓库(五)—通过JDBC连接hive的thrift或者hiveserver2

在使用JDBC方式连接hive之前需要启动hiveserver2。
使用命令

hive --service hiveserver2

下载对应的hive jar包

在kettle的安装目录中找到hadoop-configurations文件夹,如下:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations
kettle案例八连接hive--抽取hive的数据保存excel_第1张图片

在服务器上找到所有hive的相关jar包,下载下来放入hadoop-configurations目录下的hdp25的lib文件夹中。
如何找到服务器上找到所有hive的相关jar包,如果是自己安装的原生hive,那么在hive的安装目录中查找。
如果是通过CDH来安装的,可以参考文章:
hadoop基础—-hadoop实战(十一)—–hadoop管理工具—CDH的目录结构了解
通过CDH安装的hive jar包一般保存在/opt/cloudera/parcels/CDH/lib/hive中。
使用命令
cd /opt/cloudera/parcels/CDH/lib/hive
ls
如下图:
kettle案例八连接hive--抽取hive的数据保存excel_第2张图片

下载的包如下,都是hive开头的jar包:
kettle案例八连接hive--抽取hive的数据保存excel_第3张图片

放入D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib路径中如下图:
kettle案例八连接hive--抽取hive的数据保存excel_第4张图片

修改plugin.properties文件

找到kettle安装目录下的plugins/pentaho-big-data-plugin/plugin.properties文件,我的路径是:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin。
如下图:
kettle案例八连接hive--抽取hive的数据保存excel_第5张图片

内容如下:
kettle案例八连接hive--抽取hive的数据保存excel_第6张图片

这里hdp25与path参数hadoop-configurations需要与自己的安装目录路径对应如下:
kettle案例八连接hive--抽取hive的数据保存excel_第7张图片

重启kettle新建DB连接

修改配置后以及新增jar包后需要重启kettle才生效。
重启后尝试建立DB连接如下:
主对象树–》DB连接右键新建—》填写相关参数(参数与自己的hivesever2的ip端口数据库名以及可登陆linux系统访问hiveserver2的用户名对应)
如图:
kettle案例八连接hive--抽取hive的数据保存excel_第8张图片

新建流程

新建流程如下:
表输入—》Excel输出

表输入选择数据库连接输入SQL。
kettle案例八连接hive--抽取hive的数据保存excel_第9张图片

Excel输出
Excel输出浏览保存文件的路径,获取字段即可
如图:
kettle案例八连接hive--抽取hive的数据保存excel_第10张图片
kettle案例八连接hive--抽取hive的数据保存excel_第11张图片

执行测试

点击kettle运行。
执行情况如下:
kettle案例八连接hive--抽取hive的数据保存excel_第12张图片

查看输出的路径已经有file.xls生成了,打开查看如图:
可以看到已经有数据写入了:
kettle案例八连接hive--抽取hive的数据保存excel_第13张图片

你可能感兴趣的:(kettle,hive,导出,excel,数据仓库)