大数据预处理工具的综合使用

大数据预处理工具的综合使用

  • 一、任务描述
  • 二、任务目标
  • 三、任务环境
  • 四、任务分析
  • 五、 任务实施
    • 步骤1、环境准备
    • 步骤2、创建Transformmations
    • 步骤3、运行任务

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址
全文共计1708字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的大数据预处理工具的综合使用的工作。通过完成本实验任务,要求学生熟练掌握使用大数据预处理工具的综合使用的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。

二、任务目标

1、掌握大数据预处理工具的综合使用

三、任务环境

Ubuntu(三台节点:mater,slave1,slave2)、Java1.8、Kettle7.1

四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
  Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
  Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

五、 任务实施

步骤1、环境准备

在节点master上执行命令【start-all.sh】。如图1所示。

大数据预处理工具的综合使用_第1张图片

图1 启动Hadoop
  启动成功后,节点出现以下进程信息。如图2所示。

大数据预处理工具的综合使用_第2张图片

图2 master节点进程
  启动kettle。如图3所示

大数据预处理工具的综合使用_第3张图片

图3 启动kettle
  修改语言,Tools-&Options-&Look&Feel设置,设置完重启即可。如图4所示

大数据预处理工具的综合使用_第4张图片

图4 修改语言

步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations也可)。如图5所示

大数据预处理工具的综合使用_第5张图片

图5 创建Transformmations
  配置hadoop集群连接并测试。如图6-7所示。

大数据预处理工具的综合使用_第6张图片

图6 创建集群配置

大数据预处理工具的综合使用_第7张图片

图7 集群配置及测试
  创建一个文本文件输入步骤,并编辑(双击图表即可)。如图8-11所示。

大数据预处理工具的综合使用_第8张图片

图8 创建步骤

大数据预处理工具的综合使用_第9张图片

图9 设置相关内容

大数据预处理工具的综合使用_第10张图片

图10 设置相关内容

大数据预处理工具的综合使用_第11张图片

图11 设置相关内容
  创建一个字段选择步骤,按住Shift键,鼠标拖拽“文本文件输入“图标到“字段选择“图标上,产生连线,注意箭头方向。,并编辑(双击图表即可)。如图12所示。

大数据预处理工具的综合使用_第12张图片

图12 创建步骤并设置
  创建一个剪切字符串步骤,按住Shift键,鼠标拖拽“字段选择“图标到“剪切字符串“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图13所示。

大数据预处理工具的综合使用_第13张图片

图13 创建步骤并设置相关内容
  创建一个JavaScript代码步骤,按住Shift键,鼠标拖拽“剪切字符串“图标到“JavaScript代码“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图14所示。

大数据预处理工具的综合使用_第14张图片

图14 创建步骤并设置相关内容
  创建一个过滤记录步骤,按住Shift键,鼠标拖拽“JavaScript代码“图标到“过滤记录“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图15所示。

大数据预处理工具的综合使用_第15张图片

图15 创建步骤并设置相关内容
  创建一个Hadoop File Output步骤,按住Shift键,鼠标拖拽“过滤记录“图标到“Hadoop File Output“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图16-19所示。

大数据预处理工具的综合使用_第16张图片

图16 创建步骤

大数据预处理工具的综合使用_第17张图片

图17 设置相关内容

大数据预处理工具的综合使用_第18张图片

图18 设置相关内容

大数据预处理工具的综合使用_第19张图片

图19 设置相关内容
  创建一个文本文件输出步骤,按住Shift键,鼠标拖拽“过滤记录“图标到“文本文件输出“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图20-23所示。

大数据预处理工具的综合使用_第20张图片

图20 创建步骤

大数据预处理工具的综合使用_第21张图片

图21 设置相关内容

大数据预处理工具的综合使用_第22张图片

图22 设置相关内容

大数据预处理工具的综合使用_第23张图片

图23 设置相关内容

步骤3、运行任务

运行,清洗好的数据,批量导入到HDFS系统。如图24-25所示。

大数据预处理工具的综合使用_第24张图片

图24 运行任务

大数据预处理工具的综合使用_第25张图片

图25 保存任务
  查看运行结果。如图26所示。

大数据预处理工具的综合使用_第26张图片

图26 查看运行结果
  重新打开一个终端,检验记录是否导入。如图27-28所示。

大数据预处理工具的综合使用_第27张图片

图27 查看数据

大数据预处理工具的综合使用_第28张图片

图28 查看数据

♥ 知识链接
Hop
一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着一个步骤的输出流和一个步骤的输入流。

♥ 温馨提示
输入类步骤用来从外部获取数据,可以获取数据的数据源包括,文本文件(txt,csv,xml,json)数据库、 Excel 文件等桌面文件,自定义的数据等。对特殊数据源和应用需求可以自定义输入插件。

你可能感兴趣的:(数据处理,大数据,kettle,ETL,数据预处理)