第二章 数据(1) --《数据挖掘导论》


layout: post
title: 第二章 数据(1) --《数据挖掘导论》
categories: Course
description: 数据类型、数据质量
keywords: 数据、类型、质量


参考书:Pang-Ning Tan《数据挖掘导论》 --人民邮电出版社


目录

  • 数据类型
  • 数据质量

数据类型

  数据集可以看成是数据对象的集合,数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或者实体,其实怎么叫它并不重要,你需要知道数据对象用一组刻画对象基本特性的属性描述的,属性有时候也叫做变量、特性、字段、特征、或者维。在数据挖掘中我们比较习惯叫它特征。

一、属性与度量
属性是对象的性质或特性,因对象而异,随时间变化。注意:属性并非数字或者符号,而是为了精分对象特性,我们为它赋予了数字和符号。

测量标度:是将数值和符号值与对象的属性相关联的规则,简而言之就是给属性值赋值。


二、 属性类型
属性类型分为四类:标称(nominal)、序数(ordinal)、区间(interval)、比率(radio),常常用相异性(=,≠)、序(<,≤,>,≥,)、加法(+、-)、乘法(*、/),标称和序数属性统称为分类的或是定性的属性,区间和比率属性统称为定量的或者数值的。


属性类型 描述 例子 操作 变换
标称 分类定性(=,≠) 性别、id、眼球颜色 众数、熵、列联相关、卡方检验 一对一变换
序数 分类定性(<>) 【好、较好、最好】、矿石硬度 中值、百分位、轶相关、游程检验、符号检验 保序变换new=f(old),f是单调的
区间 数值定量(+—) 温度、 均值、标准差、皮尔逊相关、t和F检验 new=a*old+b(a,b为常数)
比率 数值定量(*/) 质量,长度、计数 几何平均、算术平均、百分比变差 new=a*old

注:事实上最常用的属性分类是:离散的或者是连续的


三、数据集的类型
数据集的类型主要分为三类:记录数据、基于图形的数据、有序的数据。数据集的一般特性:维度(dimension)、稀疏性(sparsity)、分辨率(resolution)。

首先解释数据的三个一般特性

  1. 维度:不同维度的数据往往具有不同的特征,高维数据的分析往往会陷入维度灾难,所以在数据预处理中有时会进行降维处理,简称维归约,常用的方法:PCA、LDA、矩阵分解
  2. 稀疏性:在文本表征时,bag-of-words是一个常用的方法,但是这个方法会造成数据稀疏,表征效果不好。但是有时候稀疏性也是一个有点,尤其是对于只用存储和处理非零值而言,也有一些数据挖掘的算法仅适合处理稀疏数据。
  3. 分辨率:不同的分辨率下数据的性质不同,数据的模式也依赖于分辨率。比如图片,但是我目前接触到的机器学习任务还没有涉及到分辨率的。

介绍三类数据

> 记录数据

在数据挖掘中比较常见的是记录数据,每个记录包含了固定的数据字段集(属性集),除了最基本的记录数据还有很多基于记录数据的变种,比如数据矩阵、文档-词矩阵(稀疏的数据矩阵)

> 基于图形的数据

有时候图形可以有效地表示数据,两种特殊的情况:图形捕获数据对象之间的联系;数据对象本身用图形表示。基于图形的数据一般是将数据对象表示为图的结点,对象之间的关系用链接或者方向、权值等表示出来,比如网页之间的链接可以用图形表示出来,化合物的分子结构以及社交网络朋友之间的关系等等等等,然而,很多时间,我们将数据用图形表示出来,而真正在数据挖掘中很多时候将数据以及数据之间的关系用邻接矩阵的给表示出来,再利用矩阵理论相关知识进行操作。

> 有序数据

有序数据,顾名思义数据是数据之间可以排序的,往往有序数据会涉及到时间或者空间,比如顾客在一年的购买记录,温度变化等等

总结
大部分数据挖掘算法都是为记录数据或者其变体设计的,通过从数据中抽取特征,并用这些特征创建对应于每个对象的记录,而针对于记录数据的技术也可以用于非记录数据,而无论是记录数据或者非记录数据的处理都是需要从数据中抽取有效特征,所以挖掘效果好不好,特征工程非常重要


数据质量

数据挖掘使用的数据往往是根据其他用途收集的,或者在收集时未明确目标的,因此数据挖掘着眼于两个方面:(1)数据质量问题的检测和纠正-->被称为数据清理(2)使用可以容忍低质量数据的算法

在讨论数据质量,我们往往关注数据测量和收集方面的数据质量问题,先定义测量误差和数据收集错误,然后考虑涉及测量误差的各种问题:噪声、伪像、偏倚、精度和准确率,最后讨论可能同时涉及测量和数据收集的数据质量问题:离群点、遗漏和不一致的值、重复的值。接下来按上面的逻辑依次介绍:

-> 1. 测量误差和数据收集错误

测量误差:是指测量过程中导致记录值和实际值不同;数据收集错误是指诸如遗漏数据对象或者属性值,或不当地包含了其他数据对象等错误。在某些特定领域,常常有很好的技术来检测和纠正这些错误,eg 人工输入数据时键盘录入错误非常常见,因此许多数据输入程序具有检测技术,并且通过人工干预纠正这类错误。

-> 2. 噪声和伪像

噪声是测量误差的随机部分,比如figure-1 在时间序列上加入噪声,形状就会消失,术语“噪声”通常用于包含时间或者空间的数据,在这种情况下可以使用信号或者图像处理的方式降低噪声。事实上,除噪通常比较困难,所以数据挖掘比较关注鲁棒算法,即在噪声干扰的情况下,也能产生可以接受的结果。

figure-1

伪像:比如一组照片在同一地方出现条纹,数据这种确定性失真就叫伪像。

-> 3. 精度、偏倚和准确率

在统计学和实验科学中,测量过程和结果数据的质量用精度和偏倚度量。
精度 (同一个两的)重复测量值之间的接近程度
偏倚测量值和被测量值之间的系统的变差
准确率被测量的测量值与实际值之间的接近度
Note:这是对数据集衡量的指标,与我们在分类过程中的指标(精度和准确率)不同

-> 4. 离群点

离群点也被称为异常,数据挖掘很多方法可以用于异常检测,这里需要明白的是噪声与离群点不同,离群点本身是合法的数据对象或者值。

-> 5. 遗漏值

数据集出现遗漏值很常见。而更加重要的是我们如何处理遗漏值,这里提出了一些策略:(1)删除遗漏的数据对象或者属性(2)估计遗漏值(eg 用临近值、平均值、最常见值等等)(3)忽略遗漏值

-> 6. 不一致的值

数据可能包含不一致的值,比如邮编与城市名之间不一致等等,需要检测并纠正这种错误。

-> 7. 重复数据

在数据预处理时,需要检测并删除重复(deduplication)的数据,而去重过程也可以在数据爬取阶段完成。

你可能感兴趣的:(第二章 数据(1) --《数据挖掘导论》)