本实验任务主要完成基于ubuntu环境的使用kettle采集excel表格中的数据的工作。通过完成本实验任务,要求学生熟练掌握使用kettle采集excel表格中的数据的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。
1、掌握使用kettle采集excel表格中的数据
Ubuntu16.04、Java1.8、Kettle7.1
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
右击Ubuntu操作系统桌面,从弹出菜单中选择【Open Terminal Here
】命令 打开终端。
启动kettle。
图1 启动kettle
新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”Get File Names”、”Microsoft Excel Input”以及”Output”栏下的”Table output”三个图标拖进工作区。按住Shift键,鼠标拖拽”Get File Names”图标到”Microsoft Excel Input”图标上,产生连线。同理”Table output”的线也连上。注意箭头方向。如图2所示
图2 创建Transformmations
设置”Get File Names”相关内容(双击图表即可)。如图3所示。
图3 设置”Get File Names”相关内容
显示查看能否显示出文件名列表,点击”Show filename(s)”按钮,能显示出来即可,查看完关闭即可,最后点击”OK。如图4所示。
图4 查看文件
设置”Microsoft Excel Input”相关内容(双击即可)。如图5所示。
图5 设置”Microsoft Excel Input”
选择文件类型及文件夹中任意一个表的路径(增加之后列表中就出现了新增的路径)。如图6-8所示。
图6 指定Sheet页
图7 选中Sheet
图8 查看字段
获取字段名,设置完成后点击”OK”就可以了。如图9所示。
图9 获取字段名
开启mysql服务。如图10所示。
图10 开启mysql
设置”Table output”相关参数,双击”Table output”即可,mysql数据库密码为”root”。如图11所示。
图11 设置”Table output”
设置目标表。如图12所示。
图12 设置目标表
设置字段映射,最后点击”OK”完成整个设置。如图13所示。
图13 设置字段映射
步骤3、运行任务
运行,将文件夹中Excel表格,批量导入到数据库。如图14-15所示。
图14 运行任务
图15 保存任务
查看运行结果。如图16所示。
图16 查看运行结果
重新打开一个终端,进入mysql,切换到kettle数据库,检验记录是否导入。如图17-18所示。
图17 查看表
图18 查看表数据
♥ 知识链接
kettle简介
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
♥ 温馨提示
Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义。