pentaho集成hbase

最近在上hbase,数据是通过pentaho的数据集成工具spoon进入hbase的,这里还真是的感谢pentaho这家公司,他们这个工具真是神奇,就相当于spring,把所有的输出都整和进来了,包裹大数据这块,hadoop,hbase,hive等,周边系统。

 
我们就是要用spoon把数据从淘宝open平台拉下来写到hbase,然后通过MR做分析。但是pentaho最新的社区开源版本是4.4,
他集成的hadoop,hbase的版本都是偏低的。hadoop是。0.2.几的版本,hbase更是0.90.几的版本,所有跟我们搭建的集群就落后了。我们都是最新的版本,问题就来了,我们把zookeeper的集群地址做为参数是,spoon根本连不上,报什么
not a pair host:port,错误,后来发现连我自己的集群既然可,终于发现问题是zookeeper连上了。只是hbase在解析zookeeper上hbase注册的地址解析不对,导致的。所以你只要把pentaho集成的hbase版本替换回你所用的版本即可。
 
hbase在pentaho的插件目录下,路径为:E:\ETL\pdi-ce-4.4.0-stable\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations,这个目录下有4个文件,分别为cdh3,cdh4,这两个不用管,下面两个hadoop-20.,mapr,这两个目录下以及子目录,你会找到pentaho所集成的hbase的版本,你替换即可。就能通过pentaho写数据到hbase了。

你可能感兴趣的:(pentaho)