win10下kettle7.1连接hive1,mysql完整实例

最近想要在windows10上使用kettle做数据ETL,首先安装配置作为新手也是踩坑无数,主要环境版本目前不是本人能够修改的,而kettle这东西对版本对应要求又比较严格,虽然只是连接就已经踩坑无数,主要问题集中在连接hive的时候,下面看图说话:
测试环境版本:
hadoop-2.6.4
apache-hive-0.13.0


启动之后先连个MySQL

  1. kettle7.1下载地址
  2. 下载好软件之后直接进去\pdi-ce-7.1.0.0-12\pdi-ce-7.1.0.0-12\data-integration双击运行Spoon.bat启动,新建转换返回主对象树视图之后界面如下:
    win10下kettle7.1连接hive1,mysql完整实例_第1张图片

  3. 建立数据库连接:首先你需要放一个mysql-connector-java-5.1.6-bin.jar\pdi-ce-7.1.0.0-12\pdi-ce-7.1.0.0-12\data-integration\lib文件夹下否则会报驱动错误,然后回到界面在右击DB连接,选择数据库mysql,其他照图填win10下kettle7.1连接hive1,mysql完整实例_第2张图片 win10下kettle7.1连接hive1,mysql完整实例_第3张图片
    然后是连接hive1
    这个过程相对麻烦些,不过也只是对于新手,下面上图举例:

  4. 如图连接
    win10下kettle7.1连接hive1,mysql完整实例_第4张图片
  5. 这样直接连接绝对死翘翘,会一直提示找不到合适hive-jdbc驱动,需要修改这么几个地方:首先将以下包
    win10下kettle7.1连接hive1,mysql完整实例_第5张图片
    一个不少的添加到下面这个目录
    pdi-ce-7.1.0.0-12\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh510\lib\client
    这里虽然简单但我可是试了三个地方才确认起作用的是这个文件夹下的jar包呢。

    其次将下面这个文件改变一下参数
    pdi-ce-7.1.0.0-12\data-integration\plugins\pentaho-big-data-plugin\plugin.properties
    我用的是CDH510所以改为active.hadoop.configuration=cdh510
    然后你还需要将开发环境下面的文件夹yarn-site.xml,mapred-site.xml,hive-site .xml,core-site.xml替换掉当前pdi-ce-7.1.0.0-12\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh510下面的四个原始文件。

至此大功告成,放图:
win10下kettle7.1连接hive1,mysql完整实例_第6张图片
最后的最后当然是怎么使用了,这里放个链接:
kettle中文网

你可能感兴趣的:(大数据/云计算)