数据挖掘-数据探索

数据探索

        根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是:样本数据集的数量和质量是否满足模型构建的要求?有没有出现从未设想过的数据状态?其中有没有什么明显的规律和趋势?各因素之间有什么样的关联性?

        数据探索就是通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程。

数据探索可以从数据质量分析和数据特征分析等两个角度进行展开。

一.数据质量分析

     数据质量分析是数据挖掘中数据准备过程中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在数据挖掘中,脏数据包括:

   缺失值

   异常值

   不一致的值

   重复数据及含有特殊符号的数据

1.1   缺失值分析

     数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确。通过使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等。

缺失值产生的原因

1)有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写或对数据理解错误等一些人为因素而遗漏的

2)属性值不存在。

3)有些信息暂时无法获取,或者获取的代价比较大。

缺失值的影响

1)数据挖掘建模将丢失大量的有用信息

2)数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握

3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出

1.2   异常值分析

     异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,会给结果带来不良影响。

异常值是指样本中的个别值,其数据明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。异常值分析可以通过以下3种方法来探索。

1)简单统计量分析

可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值。

2)3原则

  如果数据服从于正态分布,在3原则下,异常值被定义为一组测定值与平均值的偏差值超过3倍标准差的值,即|x-u| >3。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

3)箱型图分析

箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL -1.5IQR或大于Q+1.5IQR的值。

1.3   一致性分析

        数据不一致性是指数据的矛盾性、不相容性。直接对不一致性的数据进行挖掘,可能会产生与实际相违背的挖掘结果。

       在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,可能是由于被挖掘数据来自于不同的数据源、对于重复存放的数据未能进行一致性更新造成的。

二.数据特征分析

      对数据进行质量分析以后,可以通过绘制图表、计算某些特征量等手段进行数据的特征分析。主要通过分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等角度进行展开。

2.1 分布分析

     分布分析能揭示数据的分布特征和分布类型。对于定性数据,可用饼形图和条形图直观的现实分布情况。

2.2 对比分析

     对比分析是指把两个相互联系的指标进行比较,从数据量上展开和说明研究对象规模的大小,水平的高低,速度的快慢。在对比分析中,选择合适的对比标准是十分关键的步骤。

2.3  统计量分析

    用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。

2.4 周期性分析

     周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期性趋势,相对较短的有月度周期性趋势、周度周期性趋势,甚至更短的天、小时周期性趋势。

2.5 贡献度分析

   贡献度分析又称帕累托分析,它的原理是帕累托法则又称2/8定律。

2.6 相关性分析

   分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。

 


你可能感兴趣的:(数据挖掘,数据探索)