OpenRefine数据清洗实战

一、下载安装

1、下载OpenRefine

官网:http://OpenRefine.org
OpenRefine数据清洗实战_第1张图片

2、安装OpenRefine

解压后双击运行 openrefine.exe。如果电脑上没有Java环境,会自动跳转到浏览器下载Java界面
OpenRefine数据清洗实战_第2张图片
点击 同意并开始免费下载,然后安装Java
OpenRefine数据清洗实战_第3张图片
到这儿环境配置好了,重新双击 openrefine.exe 运行,会启动程序并自动跳转到浏览器OpenRefine主页面
OpenRefine数据清洗实战_第4张图片
OpenRefine数据清洗实战_第5张图片

二、运行OpenRefine对数据查看、清洗、导出

选择本地存储文件,以水利局输沙率文件作为今天的测试数据吧,内容如图所示
OpenRefine数据清洗实战_第6张图片

  1. 启动OpenRefine,在浏览器中打开运行界面
    OpenRefine数据清洗实战_第7张图片

  2. 单击 Create Project 中的 选择文件按钮,然后选择桌面上的“实测悬移质输沙率成果表_利津(三)40108400_2019_9.csv”文件,然后点击 next 按钮,可以查看已经导入的文件内容了OpenRefine数据清洗实战_第8张图片

3.点击右上角的 Create Project,进入到数据记录的显示界面,如图所示
OpenRefine数据清洗实战_第9张图片OpenRefine数据清洗实战_第10张图片

4.选择菜单栏中的下拉箭头,可以对每一列数据进行清洗和转换,如图所示
OpenRefine数据清洗实战_第11张图片

5.如果要对数据进行过滤,可以选择 Facet 下的 Text facet 命令,如图所示
OpenRefine数据清洗实战_第12张图片

6.在左边区域 Facet/Filter 下可以看到内容分组的结果,有助于用户对数据进行分析
OpenRefine数据清洗实战_第13张图片

7.如果要对显示的数据继续查询,例如,想要查看2020年的某一条数据,可以选择这一组,就过滤了整个数据表,在屏幕上只显示这一条数据
OpenRefine数据清洗实战_第14张图片
8.如果要对数据进行编辑,可以单击每一行右侧的Edit按钮,对数据进行修改,如下图
OpenRefine数据清洗实战_第15张图片
将日期12改成9,修改完成后单击Apply按钮进行保存,如下图
OpenRefine数据清洗实战_第16张图片
OpenRefine数据清洗实战_第17张图片
9.导出数据,选择Export菜单中的Templating选项,如下图所示:
OpenRefine数据清洗实战_第18张图片
10.在网页中查看生成的数据,如下图
OpenRefine数据清洗实战_第19张图片

11.单击Export按钮,即可输出数据保存成.txt格式的文件,如下图
OpenRefine数据清洗实战_第20张图片

三、Excel有效性分析

1.打开Excel,将txt中的内容,复制粘贴到Excel第一列中,如下图
OpenRefine数据清洗实战_第21张图片
2.选中第一列数据,选择“数据”菜单,找到“数据验证”选项,在弹出的“数据验证”对话框中分别设置“验证条件”和“最大值”和“最小值”
OpenRefine数据清洗实战_第22张图片
3.设置完成后,选择“数据验证”下拉列表中的“圈释无效数据”选项,会看到表格中的无效数据用椭圆圈注,如下图所示

OpenRefine数据清洗实战_第23张图片

四、Excel数据分析并清除无效数据

1.打开Excel,输入原始数据
2.选中所有数据单元格区域,单击“数据”选项卡中的“删除重复值”按钮,如下图所示
OpenRefine数据清洗实战_第24张图片
3.在弹出的“删除重复项”对话框中选择“全选”按钮,如下图
OpenRefine数据清洗实战_第25张图片4.执行完删除重复项操作后,如下图所示
OpenRefine数据清洗实战_第26张图片

你可能感兴趣的:(大数据实战,#,数据分析与清洗,数据清洗,OpenRefine)