MATLAB数据分析与挖掘 --数据预处理篇

数据清洗

主要工作是删除原始数据集中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值异常值等。

  • 缺失值处理: 一般可删除记录、数据插补和不处理。数据插补常用方法如下:
    MATLAB数据分析与挖掘 --数据预处理篇_第1张图片
    其中,插值法有Hermite插值、分段插值、样条插值法,而最主要的有拉格朗日插值法和牛顿插值法。
  • 异常值处理: 异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。异常值处理常用方法见下表:
    MATLAB数据分析与挖掘 --数据预处理篇_第2张图片

数据集成

数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,不一定是匹配的,要考虑实体识别问题和属性是不一的,不一定是匹配的,要考虑实体识别问题属性冗余问题,从而把源数据在最低层上加以转换、提炼和集成。

  • 实体识别: 检测和解决同名异义、异名同义、单位不统一的冲突。
  • 属性冗余识别: 主要是解决诸如同一属性多次出现和同一属性命名不一致导致重复的问题, 不同源数据的仔细整合能减少甚至避免数据冗余与不一致,以提高数据挖掘的速度和质量。对于冗余属性要先分析检测到后再将其删除。 有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B,有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B,根据其属性值,可以用相关系数度量一个属性在多大程度上蕴含另一个属性。

数据变换

主要是对数据进行规范化的操作,将数据转换成“适当的”格式,以适用于挖掘任务及算法的需要。常有简单函数变换规范化连续属性离散化属性构造小波变换等。以下做各自的说明。

  • 简单函数变换: 就是对原始数据进行某些数学函数变换,常用的函数变换包括平方、开方、对数、差分运算等。常用来将不具有正态分布的数据变换成具有正态分布的数据;在时间序列分析中,有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。
  • 规范化:数据归一化(标准化),是处理数据挖掘的一项基本工作,主要是为了消除指标间的量纲和取值范围差异的影响,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。而且数据规范化对于基于距离的挖掘算法尤为重要。通常方法有最小-最大规范化零-均值规范化小数定标规范化
    (1)连续属性离散化: 也即离差标准化,公式如下:
    x ∗ = x − m i n m a x − m i n x^*=\frac{x-min}{max-min} x=maxminxmin
    其中, m a x max max m i n min min为样本数据的最大值和最小值。该方法保留了原始数据中存在的关系,是消除量纲和数据取值范围影响的最简单的方法,缺点是若数据值集中或某个数值很大,规范化后各值会接近0且相差不大。
    (2)零-均值规范化: 即经过处理后均值为0,标准差为1,公式如下:
    x ∗ = x − x ‾ δ x^*=\frac{x-\overline{x}}{\delta} x=δxx
    该方法目前使用广泛,不过均值和标准差受离群点影响比较大,因此通常需要修改上述变换,比如用中位数 M M M取代均值,用绝对标准差 δ ∗ = ∑ i = 1 n ∣ x i − W ∣ \delta^*=\sum_{i=1}^{n}{|x_i-W|} δ=i=1nxiW,其中 W W W为平均数或中位数。
    (3)小数定标规范化: 通过移动属性值的小数位数,将属性值映射到 [-1,1] 之间,移动的小数位数取决于属性值绝对值的最大值。转化公式为:
    x ∗ = x 1 0 k x^*=\frac{x}{10^k} x=10kx
  • 连续属性离散化: 一些数据挖掘算法要求数据是分类属性形式,因此需要将连续属性变换成分类属性,即连续属性离散化。通常做法就是在数据的取值范围之内设置若干个离散的划分点,将取值范围划分为一些离散化的区间,最后不同的符号或整数值代表落在每个子区间中的数据值,所以离散化设计两个子任务:确定分类数以及如何将连续属性值映射到这些分类值中。常用的方法有等宽法等频法(一维)聚类分析法
    (1)等宽法: 将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定或者用户指定,类似于制作频率分布表。
    (2)等频法: 将相同数量的记录放进每个区间。
    上述两个方法操作简单但都需要人为地规定划分区间的个数,等宽法的缺点在于对离群点比较敏感,因为离群点的出现会使得有些区间包含许多数据而另一些则数据很少,这样会严重损害所建立的决策模型。等频法避免了该问题,但却可能将相同数据值分到不同的区间以满足每个区间中固定的数据个数。
    (3)(一维)聚类分析法: 首先将连续属性的值用聚类算法(如K-Means)进行聚类,然后再将聚类得到的簇进行处理,合并得到一个簇的连续属性值做同一标记。
  • 属性构造: 即利用已有属性集构造出新的属性,并加到现有的属性集合中,这对于提高挖掘结果的精度很有帮助。
  • 小波变换:

数据规约

即产生更小但保持原数据完整性的新数据集,因为在大数据集上进行复杂的数据分析和挖掘往往需要很长的时间。数据规约包括属性规约数据规约

  • 属性规约: 主要是通过属性合并创建新属性维数,或者直接通过删除不相关的属性维数来减少数据维数,从而提高数据挖掘的效率、降低计算成本。属性规约的目标是寻找出最小的属性子集并确保新数据子集的概率分布、并尽可能地接近原数据集的概率分布,常用方法有合并属性逐步向前选择逐步向后删除决策树归纳主成分分析等。
    (1)合并属性: 将一些旧属性合并为新属性;
    (2)逐步向前选择: 从一个空属性集开始,每次从原来的属性集合中选择一个当前最优的属性添加到当前属性子集中,直到无法选择出最优属性或满足一定阈值约束为止。
    (3)逐步向后删除: 从一个全属性集开始,每次从当前属性子集中选择一个当前最差的属性并删除之,指导无法选出最差属性或满足一定阈值约束为止。
    (4)决策树归纳: 利用决策树归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现在这个决策树上的属性均可认为是无关属性,因此将这些属性从初始集合中删除。
    (5)主成分分析: 将许多相关性很高的变量转换成彼此相互独立或不相关的变量。特征根按从大到小排列之后,可通过累计贡献率 α \alpha α 来确定所要选取的主成分个数,公式如下: α = ∑ i = 1 m λ i ∑ i = 1 p λ i \alpha=\frac{\sum_{i=1}^{m}{\lambda_i}}{\sum_{i=1}^{p}{\lambda_i}} α=i=1pλii=1mλi
    其中, p p p为原始属性个数, m m m为欲取的属性个数, λ \lambda λ为特征值, α \alpha α为累计贡献率,表示选取这些特征值对应的特征向量之后,其包含的信息所包含的信息占所有属性的信息的百分比。
  • 数值规约: 通过选择替代的、较小的数据来减少数据量,包括有参数方无参数方法,前者指使用一个模型来评估数据,只需存放参数而不需要存放实际数据,无参数方法则需要存放实际数据,如直方图、聚类、抽样、参数回归。

主要处理函数

函数名 功能
interp1() 一维插值
unique() 去除重复元素,得到单值元素列表
find() 找到相应标识的位置
isnan() 判断是否为数值
mapminmax() 最大值最小值的规范化
zscore() 标准差规范化

你可能感兴趣的:(MATLAB数据分析)