《数据挖掘导论》笔记:Chapter 2-- Data

第二章讨论的主要内容:

  • 数据类型(the type of data)
  • 数据质量(the quality of data)
  • 数据预处理(prepocessing steps to make the data suitable for data mining)
  • 分析数据间关系(anlayzing data in terms of its relationship)

=============================================================================

2.1 数据类型(the type of data)

数据集(data set):一系列数据对象的集合,并且是被一系列属性描述的数据对象(data object)
2.1.1 属性与度量(Attributes and Measurement)

属性定义:

  • 属性定义1:一个描述对象的特征,这个特征可以随着对象不同而不同或者随着时间变化而不同
  • 属性定义2:度量标度(a measurement scale):将数值型或者标志型数据(numerical or symbolic value)和数据对象的属性关联起来
    属性类型
    属性的值往往有如下几种性质:
  • 相异性 Distinctness = and ≠
  • Order < ≤ > ≥
  • 加法 Addition + -
  • 乘法 Multiplication * /
    具体分为四类:定类(nominal)、定序(ordinal)、定距(interval)、定比(ratio)变量
属性类型 描述 例子 统计应用
定类 只是用来区别不同对象的 邮政编码、学号 众数(mode) 、熵(entropy)、列联相关(contingency correlation)、χ2检验(χ2 test)
定序 可以确定对象的顺序 治疗效果、矿石硬度 中值、百分位数、秩相关(rank correlation)、连检检验(run test)、等级检验(sign test)
定距 区间属性之间的差有意义,即有测量单位 日历日期、摄氏度等 均值、标准差、皮尔逊相关、t和F检验
定比 比率属性的差与比值都有意义 绝对温度、质量、长度 几何平均(geometric mean)、调和平均(harmonic mean)、百分比变差

其中:定类和定序属于分类属性或者定性属性;定距和定比属于数值型属性或定量属性

属性类型可以通过不改变属性的变换来描述,即允许的变换(permissible transformation)

属性类型 描述 例子
定类 任何一对一的变换
定序 值的保序变换,NewValue = f(OldValue),其中f为单调函数 如用{1,2,3}来表示好中坏
定距 NewValue = a∗OldValue+b,a,b为常数 比如温度测量的变换
定比 NewValue = a∗OldValue

上面的变化,最终的统计应用的结果都是一致的
用数值数据来描述属性

  • 离散型:包含特殊的:二值型属性(Binary attributes)
  • 连续型
  • 非对称性属性非零值才重要,比如学生是否选定某些课程,选定了则为1,否则是0,一般情况下出现0会更多,如果研究0,则所有学生会出现相似特征,研究1才更有意义;非对称性的离散和连续型属性也是同样的

2.1.2 Types of Data Sets
主要包含三类:

  • 记录数据(record data)
  • 基于图形数据(graph-based data)
  • 有序数据 (ordered data)
  • 非记录数据 (non-record data):用 Record-oriented techniques,提取出特征,组成一系列数据对象

数据集的一般特征

  • 维度(dimensionality):属性数量—注意维度灾难—会进行降维处理
  • 稀疏性 (sparsity):跟非对称性属性有关
  • 分辨率 (resolution)

**记录数据(record data):
包括四种:
(a):一般性的记录数据
(b):交易数据或市场购物篮数据–可看做一系列有
非对称性属性
的记录
(c):数据矩阵—可被说是m by n matrix ,其中有m行,n列属性
(d):稀疏数据矩阵—属性是一个类型的而且是非对称性属性,经常是Document-term matrix

《数据挖掘导论》笔记:Chapter 2-- Data_第1张图片
基于图形的数据
有两种:
(a):带有对象之间联系的数据(类似图论)(data with relationships among objects)
(b):具有图形对象的数据 (data with objects that are graphs)
《数据挖掘导论》笔记:Chapter 2-- Data_第2张图片
***有序数据(ordered data)***:

  • 时序数据 (sequential data)
  • 序列数据 (sequence data)—没有时间
  • 时间序列数据 (time series data)—注意时间自相关
  • 空间数据 (spatial data)–注意空间自相关
    《数据挖掘导论》笔记:Chapter 2-- Data_第3张图片

2.2 数据质量(Data Quality)

数据挖掘重点在:数据质量的检测和使用可以容忍低数据质量问题的算法
质量的检测和使用的第一步是数据清洗
2.2.1 数据测量和收集问题
主要有:]
测量误差:噪声(noise)、伪像(artifacts)、偏差(bias)、精度(precision)、准确率(accuracy)
测量和数据收集的数据质量问题:离群点(outliers)、遗漏(missing)、inconsistent values(不一致值)、duplicate data(重复值)
数据收集和测量错误:
测量错误:数据测量过程中出现的错误
收集错误:指数据对象和属性值的遗失
这两种错误都可以是系统性或随机性的
噪声和伪像(noise and artifacts)
噪声:
测量错误的随机性成分,包含数值的扭曲或者多了虚假的数据对象
注意:有些噪声点会夹杂在非噪声点中
通常用于包含时间或空间分量的数据
一般来说,噪声消除是很难的,一般采用robust algorithms(鲁棒算法),能够在噪声点存在的 情况下,产生可接受的结果
伪像(artifacts): 是来自一个更确定的现象,不可逆的数据扭曲

精度、偏差和准确率(precision,bias,accuracy)
精度(precision): 样本的集中度,即两个独立样本间差距,相当于标准差
偏差(bias): 相当于 u-E(x),真实均值和期望均值之差
准确率(accuracy): 是偏差和精度的结合,被测量值和实际值的差异

离群点(outliers):

  • 在数据集中,跟其他数据对象的特征差别很大
  • 属性值不正常
    很重要:区分噪声和离群点的区别
    离群点是有用的数据对象和值,是需要考虑到数据分析中,而噪声点则不是

遗漏值(missing values):
处理遗漏值的策略:

  • 去掉数据对象或者属性
  • 预估遗漏值 :可以用其他值来预估(插值)、最近邻的平均属性值、最近邻中最常出现的属性值等
  • 在分析中忽略遗漏值

不一致值(inconsistent values):
检测到不一致值时,可以对数据进行纠正

重复值(duplicate data):

  • 两个数据对象实际上代表一个对象,并且相关的属性值不同
  • 要小心避免把相似的但并不是重复数据结合在一起,比如两个有相同名字的不同人

2.2.2 关于应用的问题

- 时效性
- 相关性
**- 关于数据的知识:**理想情况下,数据集附有描述数据的文件,数据质量的好坏决定分析的好坏。例如文档说明很多属性值是强相关的,我们只保留其中一个属性值用于分析。

你可能感兴趣的:(数据挖掘)