数据导入与预处理-第7章-数据清理工具OpenRefine

文章目录

  • 数据清理工具OpenRefine
    • OpenRefine简介
    • 下载与安装
    • 配置
    • 创建项目
    • 操作列
      • 收起列
      • 移动列和重排列
      • 移除该列与移除列
      • 重新定义列标题
      • 撤销与重做
      • 导出数据
    • 进阶操作
      • 数据排序
      • 数据归类
      • 重复检测
      • 数据填充
      • 文本过滤
      • 数据转换
  • 总结

数据清理工具OpenRefine

OpenRefine简介

OpenRefine是一款免费开源、清理数据的强大工具,它可以帮助用户在使用数据之前完成清理工作,并通过浏览器运行的界面直观地展现对数据的相关操作,对于编程能力薄弱的用户而言是一个不错选择。
数据导入与预处理-第7章-数据清理工具OpenRefine_第1张图片

OpenRefine是一款由Java开发的可视化工具,用户可以在操作界面上直接对数据进行数据清理和格式转换,它支持Windows、Linux和macOS系统,并且提供英文、中文和日文等多种语言,可以在用户缺乏专业编程技术的背景下快速地清理数据。
数据导入与预处理-第7章-数据清理工具OpenRefine_第2张图片

下载与安装

下载安装包
openrefine-3.7.2.zip

解压后如下:
数据导入与预处理-第7章-数据清理工具OpenRefine_第3张图片

单击“openrefine.exe”启动OpenRefine工具,若当前计算机中没有配置Java环境,则会在默认浏览器中打开“下载适用于Windows的Java”页面,如果已经安装,会弹出如下图所示界面。
数据导入与预处理-第7章-数据清理工具OpenRefine_第4张图片

配置

为保证读者后续能顺畅且便捷地使用OpenRefine工具,在使用OpenRefine工具操作之前,需要对其进行一些基本配置:语言设定和增加内存,其中增加内存可以避免后续操作时出现因数据集庞大而无法导入的问题。

语言设定
数据导入与预处理-第7章-数据清理工具OpenRefine_第5张图片

增加内存
OpenRefine在Windows系统中默认分配1G内存空间,若处理的数据需要使用更大的内存空间,则可以通过配置文件增加OpenRefine所使用的内存空间。
通过修改openrefine.l4j.ini文件的配置项可以给OpenRefine工具增加内存空间。
数据导入与预处理-第7章-数据清理工具OpenRefine_第6张图片

若使用2GB或更高的内存,需要将当前配置的Java环境版本升级至64位版本,否则会在编辑openrefine.l4j.ini文件后无法启动OpenRefine工具

创建项目

数据导入与预处理-第7章-数据清理工具OpenRefine_第7张图片

在这里插入图片描述

数据导入与预处理-第7章-数据清理工具OpenRefine_第8张图片

值得一提的是,OpenRefine工具默认显示前10行数据,大家可通过单击页面上方“显示”选项后面的数字(5、10、25、50),来指定显示的行数。
数据导入与预处理-第7章-数据清理工具OpenRefine_第9张图片

操作列

常见的操作包括
收起列、
移动列和重排列、
移除该列和移除列、
重命名列

收起列

数据导入与预处理-第7章-数据清理工具OpenRefine_第10张图片

收起该列后,会出现一个空白列,单击空白列即可恢复name2列
数据导入与预处理-第7章-数据清理工具OpenRefine_第11张图片

移动列和重排列

OpenRefine工具既支持一次移动单个列,也支持一次移动多个列,以达到重排数据列的目的。 OpenRefine工具支持4种移动列的方式,分别为“列移至开始”“列移至末尾”“左移列”和“右移列”。
数据导入与预处理-第7章-数据清理工具OpenRefine_第12张图片

右移后
数据导入与预处理-第7章-数据清理工具OpenRefine_第13张图片

重排/移动列
数据导入与预处理-第7章-数据清理工具OpenRefine_第14张图片

选择重拍/移除列后如下
数据导入与预处理-第7章-数据清理工具OpenRefine_第15张图片

窗口左侧按顺序显示了所有列的标题,大家可通过拖曳列标题至相应的位置来重排列。

数据导入与预处理-第7章-数据清理工具OpenRefine_第16张图片

选择确定后,如下(如果没有出现,可能是name2列处于收起状态)
数据导入与预处理-第7章-数据清理工具OpenRefine_第17张图片

移除该列与移除列

OpenRefine工具中

移除该列是对当前指定的单个列进行移除;
移除列是对不需要的列进行批量移除。

数据导入与预处理-第7章-数据清理工具OpenRefine_第18张图片

当前项目中不存在标题为“gender”的列。
数据导入与预处理-第7章-数据清理工具OpenRefine_第19张图片

移除列
数据导入与预处理-第7章-数据清理工具OpenRefine_第20张图片

选择移除的列
数据导入与预处理-第7章-数据清理工具OpenRefine_第21张图片

点击确定,如下
数据导入与预处理-第7章-数据清理工具OpenRefine_第22张图片

当前项目中不存在标题为“name2”和“nation”的列。

重新定义列标题

如果列标题不能清晰明了地传递该列数据所代表的含义,可通过重命名列来重新定义列标题。
数据导入与预处理-第7章-数据清理工具OpenRefine_第23张图片

撤销与重做

数据导入与预处理-第7章-数据清理工具OpenRefine_第24张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第25张图片

导出数据

虽然OpenRefine项目支持移动、移除和重命名列操作,但是这些操作不会修改原始数据,之所以出现这种情况是因为OpenRefine会拷贝原始数据,若希望列操作在原始数据中生效,则需要将修改后的数据执行导出操作。

数据导入与预处理-第7章-数据清理工具OpenRefine_第26张图片

OpenRefine工具支持将数据导出为项目、 HTML表格、Excel文件、ODF电子表格等。需要说明的是,“导出项目”选项会将项目导出为openrefine.tar.gz格式的压缩包。

数据导入与预处理-第7章-数据清理工具OpenRefine_第27张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第28张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第29张图片

需要说明的是,后续章节仍会以Athletes_info项目为例演示操作步骤,为保证该项目中数据的完整性,这里将撤销对Athletes_info项目所有的操作。

数据导入与预处理-第7章-数据清理工具OpenRefine_第30张图片

进阶操作

数据排序

数据排序是一种常见的数据清理操作,它主要是按照指定方式排列数据,这样不仅可以对数据进行检查和纠错,还可以通过浏览排序后的数据查看数据的特征或趋势,从而找到解决问题的线索。
数据导入与预处理-第7章-数据清理工具OpenRefine_第31张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第32张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第33张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第34张图片

数据归类

数据归类是OpenRefine工具中常见的功能之一,它主要用于从数据中获得一个变化的子集,方便用户从多个角度查看数据,并且不会改变数据本身。OpenRefine工具支持多种归类操作,包括文本归类、数值归类、时间线归类、散点图归类以及自定义归类。

文本归类用于将特定文本值进行分类归组。打开Athletes_info项目中event列的下拉菜单,在下拉菜单中选择【归类】→【文本归类】,页面左侧会打开显示归类后结果的“归类/过滤器” 。
数据导入与预处理-第7章-数据清理工具OpenRefine_第35张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第36张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第37张图片

数值归类
数据导入与预处理-第7章-数据清理工具OpenRefine_第38张图片

自定义归类
数据导入与预处理-第7章-数据清理工具OpenRefine_第39张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第40张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第41张图片

重复检测

数据导入与预处理-第7章-数据清理工具OpenRefine_第42张图片

如果希望删除name列的重复值,那么需要先对包含重复值的数据进行排序,再删除按复数归类后值为true的结果。

数据导入与预处理-第7章-数据清理工具OpenRefine_第43张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第44张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第45张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第46张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第47张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第48张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第49张图片

OpenRefine工具中的重复检测功能只适用于文本类型的数据。

数据填充

数据填充是使用指定的字符或数字对空缺位置进行填充,其目的是保证数据的完整性。

数据导入与预处理-第7章-数据清理工具OpenRefine_第50张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第51张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第52张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第53张图片

文本过滤

文本过滤用于快速匹配某个特定的字符串。
数据导入与预处理-第7章-数据清理工具OpenRefine_第54张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第55张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第56张图片

数据转换

数据转换功能,能够根据需求将一列数据转换为指定的类型

数据导入与预处理-第7章-数据清理工具OpenRefine_第57张图片

常用转换包括移除首尾空白、收起连续空白、首字母大写、全大写、全小写、文本化等功能。

数据导入与预处理-第7章-数据清理工具OpenRefine_第58张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第59张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第60张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第61张图片

数据导入与预处理-第7章-数据清理工具OpenRefine_第62张图片

需要说明的是,在编写Python语言的表达式时,需要保证表达式中必须有return语句。

总结

本文主要介绍了数据清理工具OpenRefine的简介,安装,创建项目等基本操作,并提供了操作列和进阶操作等步骤。

你可能感兴趣的:(数据导入与预处理,openrefine)