第五章——数据清洗与校验

一、对文件merge.csv进行完全去重

1.源数据预览

第五章——数据清洗与校验_第1张图片

2.打开kettle新建一个转换并添加下述步骤然后用跳连接 

第五章——数据清洗与校验_第2张图片

 3.双击CSV文件输入进行配置

点击浏览导入文件,然后点击获取字段

第五章——数据清洗与校验_第3张图片

 最后点击预览看数据是否抽取进来

第五章——数据清洗与校验_第4张图片

 4.双击唯一行(哈希值)进行配置

在用来比较的字段处,添加要去重的字段,这里可以单击获取按钮,获取要去重的字段

第五章——数据清洗与校验_第5张图片

 5.保存运行,成功后截图如下

第五章——数据清洗与校验_第6张图片

 6.查看去重之后的数据

选中唯一行(哈希值)控件,单击执行结果窗口的Preview data选项卡,查看是否消除CSV文件merge.csv中完全重复的数据

第五章——数据清洗与校验_第7张图片

 二、对文件people_survey.txt中的缺失值进行填充

1.数据预览

第五章——数据清洗与校验_第8张图片

 2.新建一个转换并按照下述新建好步骤然后用跳连接

第五章——数据清洗与校验_第9张图片

 3.双击文本文件输入进行配置

点击浏览导入数据,之后点击增加,效果图如下

 单击内容选项卡;在清除分隔符处的默认分隔符;单击Insert TAB按钮,在分隔符处插入一个制表符;取消勾选头部

第五章——数据清洗与校验_第10张图片

 单击字段选项卡;根据文件people_survey.txt文件的内容添加对应的字段名称,并指定数据类型

 点击预览查看数据是否抽取成功

第五章——数据清洗与校验_第11张图片

 4.双击过滤记录进行配置

将过滤字段设置为workclass、过滤值设置为Private作为过滤条件;在发送true数据给步骤:下拉框中选择空操作;在发送false数据给步骤:下拉框中选择空操作(什么也不做)2

第五章——数据清洗与校验_第12张图片

 5.双击替换NULL进行配置

勾选选择字段处的复选框,并在字段框添加字段为hours_per_week,值替换为44

第五章——数据清洗与校验_第13张图片

 6.双击合并记录进行配置

在旧数据源:下拉框选择替换NULL值,新数据源:下拉框选择空操作(什么也不做)2;在匹配的关键字:部分,添加关键字段,即userid。

第五章——数据清洗与校验_第14张图片

 7.双击替换NULL值 2进行配置

勾选选择字段处的复选框,并在字段框添加字段为workclass,值替换为Private

第五章——数据清洗与校验_第15张图片

 8.双击字段选择进行配置

在移除选项卡处添加要移除的字段名称,这里移除的是字段flagfield。

第五章——数据清洗与校验_第16张图片

 9.保存并运行,成功后截图如下

第五章——数据清洗与校验_第17张图片

 10.查看缺失值是否已填充

单击字段选择控件,再单击执行结果窗口的Preview data选项卡,查看是否填充了文件people_survey.txt中的缺失值。

第五章——数据清洗与校验_第18张图片

 三、总结

        完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据,去重也是数据清洗的一个重要步骤。在数据挖掘中,面对的通常都是大型的数据库,它的属性有几十个甚至几百个,因为其中某个属性值的缺失而放弃大量其他的属性值,这种删除是对信息的极大浪费,所以产生了插补缺失值的思想与方法。

你可能感兴趣的:(数据分析)