kettle案例——数据清洗与校验(完全去重)

1.源数据预览

kettle案例——数据清洗与校验(完全去重)_第1张图片

  2.打开kettle新建一个转换并添加下述步骤然后用跳连接 

kettle案例——数据清洗与校验(完全去重)_第2张图片

 3.双击CSV文件输入进行配置

点击浏览导入文件,然后点击获取字段

kettle案例——数据清洗与校验(完全去重)_第3张图片

最后点击预览看数据是否抽取进来

kettle案例——数据清洗与校验(完全去重)_第4张图片

 4.双击唯一行(哈希值)进行配置 

在用来比较的字段处,添加要去重的字段,这里可以单击获取按钮,获取要去重的字段

kettle案例——数据清洗与校验(完全去重)_第5张图片

5.保存运行,成功后截图如下 

kettle案例——数据清洗与校验(完全去重)_第6张图片

 6.查看去重之后的数据

选中唯一行(哈希值)控件,单击执行结果窗口的Preview data选项卡,查看是否消除CSV文件merge.csv中完全重复的数据 

kettle案例——数据清洗与校验(完全去重)_第7张图片

你可能感兴趣的:(数据清洗,大数据)