数据集
数据对象的集合,数据对象用一组刻画对象基本特征的属性描述。
通常,数据集是一个文件,其中对象是文件的记录(Record)(或行),每一个段或列对应一个属性。
属性
是对象的性质或特性,它因对象而异,或随时间而变化。
测量标度
是将数值或符号值与对象的属性相关联的规则(函数)。形式上,测量过程是使用一个测量标度将一个值与一个特定对象的特定属性相关联。
属性的性质不必与用来度量它的值的性质相同,用来代表属性的值可能具有不同于属性本身的性质。
属性的类型告诉我们,属性的哪些性质反映在用于测量它的值中,通常将属性的类型称作测量标度的类型。
数值的性质
可以根据数值性质来判断属性类型。
属性类型
属性类型 | 描述 | 例子 | 操作 | 性质 |
---|---|---|---|---|
标称(nominal) | 以不同名字或数值区分对象 | 邮政编码、雇员ID、眼球颜色、性别 | 众数、熵、列联相关 | 相异 |
序数(ordinal) | 确定对象的序 | 成绩、街道号码 | 中值、百分位、秩相关 | 相异、序 |
区间(interval) | 存在测量单位 | 日期、摄氏度 | 均值、标准差 | 相异、序、加法 |
比率(ratio) | 差和比率都是有意义的 | 绝对温度、货币量、计数、年龄、质量、长度 | 几何平均、调和平均 | 相异、序、加法、乘法 |
保持意义的变换
标称(nominal) | 任何一对一变换,如值的排列 |
序数(ordinal) | 值的保序变换,即**新值=f(旧值)**其中f是单调函数 |
区间(interval) | 新值=a*旧值+b |
比率(ratio) | 新值=a*旧值 |
出现非零属性值才是重要的。只有非零值才重要的二元属性是非对称的二元属性。
维度(dimensionality) 数据集的维度是数据集中的对象具有的属性数。
稀疏(sparsity)性 数据集中一个对象的大部分属性值都为0。
分辨率(resolution) 测量精度,不同分辨率下数据的性质不同。
大小 分析类型取决于数据集大小
记录之间或数据字段之间没有明显的联系,并且每个记录(对象)具有相同的属性集。
记录数据通常存放在平展文件或关系数据库中。
事物数据 事物数据(transaction data)中每一个记录涉及一系列的项,或称为购物篮数据,因为记录中的项就是顾客购物篮中的商品。事物数据是项的集合的集族,也能将它视为记录的集合,其中记录的字段是非对称的属性。
数据矩阵
如果一个数据对象具有相同的数值属性集,那么数据对象可以看做多维空间中的点(向量),其中每个维代表对象的一个不同属性。这样的数据对象可以用一个m×n的矩阵表示,行代表对象,列代表属性。这种矩阵称为数据矩阵或者模式矩阵。
带有对象之间联系的数据 这种情况下数据尝尝用图形表示。一般把数据对象映射到图的结点,而对象之间的联系用对象之间的链和方向、权重等链性质表示。
具有图形对象的数据 如果对象具有结构,即对象包含具有联系的子对象,则这样的对象常常用图形表示。
时序数据 也称时间数据,可以看做记录的扩充,其中每个记录包含一个与之相关联的时间。
序列数据 与时序数据相似但没有时间戳,只是有序序列,考虑项的位置。如上图基因基因序列。
时间序列数据 特殊的时序数据,每个记录都是一个时间序列,即一段时间以来的测量序列。分析时需要考虑时间自相关,即如果两个测量的时间很近,则这些测量的值通常很相似。
空间数据 特点是空间自相关性,即物理上靠近的对象趋向于在其他方面也相似。
测量误差 测量过程中导致的问题。对于连续属性,测量值与实际值的差称为误差。
数据收集错误 诸如遗漏数据对象或属性值,或不当地包含了其他数据对象等错误。
噪声 测量误差的随机部分,通常用于包含时间或空间分量的数据。常常可以使用信号或图像处理技术降低噪声。数据错误可能是更确定性现象的结果,数据的这种确定性失真常称作伪像(artifact)。
测量过程和结果数据的质量用精度和偏倚度量。
精度 同一个量的重复测量值之间的接近程度。通常用值集合的标准差度量。
偏倚 测量值好被测量值之间的系统的偏差。通常用值集合的均值和测出的已知值之间的差度量。只有那些通过外部手段能够得到测量值的对象,偏倚才是可确定的。
准确率 被测量的测量值和实际值之间的接近度。
离群点
在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值,也成为异常对象或异常值。离群点可以是合法的数据对象或值。
离群点不一定是噪声、噪声也不一定是离群点。
处理遗漏值的策略
某些情况下,两个或多个对象在数据库的属性度量上是相同的,但是仍代表不同的对象。
聚集
将两个或多个对象合并成单个对象。可把数据看作多维数组,则聚集是删除属性的过程,或是压缩特定属性不同值个数的过程。
有效抽样原理如下:如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样,而样本是由代表性的,前提是它近似地具有与元数据集相同的性质。
简单随机抽样
分层抽样
从预先指定的组开始抽样。
抽样与信息损失
较大的样本容量增大了样本具有代表性的概率,但也抵消了抽样带来的许多好处。
较小的容量可能丢失模式,或检测出错误的模式。
维规约
通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。通过选择旧属性的子集得到新属性,这种维规约称为特征子集选择或特征选择。
维规约的目的
维灾难
随着数据维度的增加,许多数据分析变得非常困难。对于分类,没有足够的数据对象来创建模型,将所有可能的对象可靠地指派到一个类。对于聚类,点之间的密度和距离的定义失去了意义。分类准确率降低,聚类质量下降。
将数据由高维空间投影到低维空间。
主成分分析 用于连续属性的线性代数技术,它找出新的属性(主成分),这些属性是原属性的线性组合,是相互正交的,并且捕获了数据的最大变差。
冗余特征 重复了包含在一个或多个其他属性中的许多或所有信息。
不相关特征 包含对于手头的数据挖掘任务几乎完全没用的信息。
嵌入方法 在算法执行过程中,算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器通常以这种方式运行。
过滤方法 使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择。
包装方法 这些方法将目标数据挖掘算法作为黑盒,使用类似于前面介绍的理想算法,但通常并不枚举所有可能的子集来找出最佳属性子集。
暴风(Brute Force)算法 是普通的模式匹配算法,将目标串S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符;若不相等,则比较S的第二个字符和T的第一个字符,依次比较下去,直到得出最后的匹配结果。
离散化 将连续属性变成分类属性。
二元化 连续和离散属性需要变换成一个或多个二元属性。
简单技术:如果有m个分类值,则将每个原始值唯一地赋予区间[0,m-1]中的一个整数,如果属性是有序的,则赋值必须保持序关系。然后再将整数变换为二进制数。但可能导致复杂化,建立转换后属性之间的关联。
决定多少个分割点和确定分割点位置:
非监督离散化
监督:使用类信息
熵 设k是不同的类标号数,mi是某划分的第i个区间中值的个数,则mij是区间i中类j的个数。第i个区间的熵ei为
其中pij=mij/mi是第i个区间中类j的概率。
该划分的总熵e是每个区间的熵的加权平均,即
非监督:不使用类信息
- 等宽 将属性的值域划分成具有相同宽度的区域,而区间的个数由用户指定。
- 等频率 将相同数量的对象放进每个区间。
简单方法:开始将初始值切分成两部分,让两个结果区间产生最小熵。然后,去一个区间,通常选取具有最大熵的区间,重复分割此过程,直到区间的个数达到用户制定个数。
变量变换 用于变量的所有值的变换。
目标是使整个值的集合具有特定的性质。