使用kettle采集excel表格中的数据

使用kettle采集excel表格中的数据

  • 一、任务描述
  • 二、任务目标
  • 三、任务环境
  • 四、任务分析
  • 五、 任务实施
    • 步骤1、环境准备
    • 步骤2、创建Transformmations

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址
全文共计2977字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle采集excel表格中的数据的工作。通过完成本实验任务,要求学生熟练掌握使用kettle采集excel表格中的数据的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。

二、任务目标

1、掌握使用kettle采集excel表格中的数据

三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1

四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
  Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
  Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

五、 任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面,从弹出菜单中选择【Open Terminal Here】命令 打开终端。
  启动kettle。

使用kettle采集excel表格中的数据_第1张图片

图1 启动kettle

步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”Get File Names”、”Microsoft Excel Input”以及”Output”栏下的”Table output”三个图标拖进工作区。按住Shift键,鼠标拖拽”Get File Names”图标到”Microsoft Excel Input”图标上,产生连线。同理”Table output”的线也连上。注意箭头方向。如图2所示

使用kettle采集excel表格中的数据_第2张图片

图2 创建Transformmations
  设置”Get File Names”相关内容(双击图表即可)。如图3所示。

使用kettle采集excel表格中的数据_第3张图片

图3 设置”Get File Names”相关内容
  显示查看能否显示出文件名列表,点击”Show filename(s)”按钮,能显示出来即可,查看完关闭即可,最后点击”OK。如图4所示。

使用kettle采集excel表格中的数据_第4张图片

图4 查看文件
  设置”Microsoft Excel Input”相关内容(双击即可)。如图5所示。

使用kettle采集excel表格中的数据_第5张图片

图5 设置”Microsoft Excel Input”
  选择文件类型及文件夹中任意一个表的路径(增加之后列表中就出现了新增的路径)。如图6-8所示。

使用kettle采集excel表格中的数据_第6张图片

图6 指定Sheet页

使用kettle采集excel表格中的数据_第7张图片

图7 选中Sheet

使用kettle采集excel表格中的数据_第8张图片

图8 查看字段
  获取字段名,设置完成后点击”OK”就可以了。如图9所示。

使用kettle采集excel表格中的数据_第9张图片

图9 获取字段名
  开启mysql服务。如图10所示。

在这里插入图片描述

图10 开启mysql
  设置”Table output”相关参数,双击”Table output”即可,mysql数据库密码为”root”。如图11所示。

使用kettle采集excel表格中的数据_第10张图片

图11 设置”Table output”
  设置目标表。如图12所示。

使用kettle采集excel表格中的数据_第11张图片

图12 设置目标表
  设置字段映射,最后点击”OK”完成整个设置。如图13所示。

使用kettle采集excel表格中的数据_第12张图片

图13 设置字段映射
步骤3、运行任务
  运行,将文件夹中Excel表格,批量导入到数据库。如图14-15所示。

使用kettle采集excel表格中的数据_第13张图片

图14 运行任务

使用kettle采集excel表格中的数据_第14张图片

图15 保存任务
  查看运行结果。如图16所示。

使用kettle采集excel表格中的数据_第15张图片

图16 查看运行结果
  重新打开一个终端,进入mysql,切换到kettle数据库,检验记录是否导入。如图17-18所示。

使用kettle采集excel表格中的数据_第16张图片

图17 查看表

使用kettle采集excel表格中的数据_第17张图片

图18 查看表数据

♥ 知识链接
kettle简介
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。

♥ 温馨提示
Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义。

你可能感兴趣的:(数据处理)