Kettle 7.1 链接Hadoop集群配置

背景

公司想把已有的老数据,放入数据仓库,进行数据分析,需要对数据进行抽取,转换处理,正好接触到了Kettle(ETL),正好记录一下Hadoop如何配置。

Kettle下载地址:

社区版下载地址
下拉到download,然后点击下载即可。

Kettle官网文档地址:

kettle 链接hadoop集群配置文档地址

每个版本有对应的Hadoop版本。
因为Hadoop集群同事已经搭建好了,这里我只直接创建链接配置,这里我采用的HDP 2.5的链接方式。

Step 1:

  • 拷贝Hadoop集群如下配置文件备用
    1. core-site.xml
    2. hdfs-site.xml
    3. mapred-site.xml
    4. yarn-site.xml
  • 把上列文件拷贝到plugin/pentaho-big-data-plugin/hadoop-configurations/hadoop/hdp25中。
    Kettle 7.1 链接Hadoop集群配置_第1张图片

Step 2:

  1. 启动Kettle
  2. 从菜单工具中选择Hadoop Distribution,这里我选择的hdp链接方式
    Kettle 7.1 链接Hadoop集群配置_第2张图片
  3. 点击OK
  4. 重启Kettle

Step 3

  1. 创建Hadoop cluster


    Kettle 7.1 链接Hadoop集群配置_第3张图片
  2. 写入相关配置,这里我使用的是HDFS,并且已经配置了相关hosts,所以直接填入了域名,如果没有配置hosts,需要采用ip方式


    Kettle 7.1 链接Hadoop集群配置_第4张图片
  3. 点击测试,查看是否连接成功,这里主要关注前三个选项。表示Hadoop连接成功。
    Kettle 7.1 链接Hadoop集群配置_第5张图片

遇到的坑:

  1. 在使用Hadoop output控件,向HDFS写入时,遇到无法写入错误。
Couldn't open file hdfs://[email protected]:8020/user/qqq/1.txt
Could not create file "hdfs://[email protected]:8020/user/qqq/1_20171201.txt".

最后查明,是因为Kettle在写入时,对应的HDFS目录没有写入权限,需要开放整个目录权限。

你可能感兴趣的:(Kettle 7.1 链接Hadoop集群配置)