数据挖掘--数据预处理

数据预处理方法小结

根据自己的经验,总结了一下使用过的数据预处理的方法和小技巧。在进行数据分析的时候,工作量最大也最复杂的地方就是对数据进行预处理,一般分为四个步骤:数据清理、数据集成、数据变换、数据归约。

一、数据清理(缺失值、异常值、无关值、噪音、重复值)

缺失值:1、删除:数量较少,对整体数据没什么影响的直接删除该条数据。2、对缺失数据插补:方法较多,例如用该属性的均值、众数、中位数插补,这些较为简单,不详述;最近邻插补,使用与缺失样本最接近的样本的该属性值插补;回归法(建模预测):就是根据样本集的其他属性来建立一个拟合模型预测缺失属性的值,根据模型来计算缺失值。常用的缺失值处理方法就这些,还有许多其他的方法,如拉格朗日插值等等。

异常值:首先要知道如何找出某个属性的异常值。我一般用的方法是画箱型图,数据挖掘--数据预处理_第1张图片

下四分位数(Q1)=(数据个数+1)0.25
上四分位数(Q3)=(数据个数+1)0.75
盒子长度IQR = Q3-Q1
最小观测值(下边缘)=Q1 - 1.5
IQR
最大观测值(上边缘)=Q3+ 1.5
IQR
不在最小最大观测值范围内的视为异常值
处理异常值:1、直接删除,2、当作缺失值、用缺失值的处理方法;3、暂时保留。

无关值:像id这种无关的属性直接删掉即可,样本集中可能还有其它的无关属性,需要根据业务情况具体分析才行。

噪音:1、分箱:通过考察相邻数据来确定最终值。实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。分箱的方法一般有等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。按平均值平滑:对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。按边界值平滑:用距离较小的边界值替代箱中每一数据。按中值平滑:取箱子的中值,用来替代箱子中的所有数据。
2、聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
3、回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。

重复值:对于重复项的判断,基本思想是“排序与合并”,先将数据集中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复。这里面其实包含了两个操作,一是排序,二是计算相似度。一般过程中主要是用duplicated方法进行判断,然后将重复的样本进行简单的删除处理。

二、数据集成

数据集成就是为了将不同数据源的数据整合导一个数据库中,需要注意的是集成过程中可能产生的问题:

  1. 属性(字段名)意义问题:即同一字段名所代表的含义不一样,例如’日期‘,可能一个数据源中表示生产日期,一个数据源表示’保质日期‘;
  2. 字段结构问题:即不同的字段名表示的是一样的数据;字段的数据类型不同;字段数据格式不同;字段单位不同等;
  3. 字段冗余问题:集成后的字段之间具有较强的相关性,可以相互推导出。(ps:相关性的计算可以用卡方检验或者协方差,皮尔逊相关系数等)

一般在集成前,可以先做个表将个数据源的字段名,类型等统计一下,再做处理。

数据变换和数据规约

个人觉得数据变换和数据规约其实等同于特征工程所要做的事,这里简单介绍下。
数据变换就是对数据做归一化,标准化等处理,例如不同的属性的值的量纲或者取值范围相差过大。
数据规约则是为了减少过多的属性(维度、特征)对预测的模型的影响,常用方法:合并属性,主成成分分析(PCA),逐步向前(向后删除)、低方差特征过滤、one-hot编码等。

你可能感兴趣的:(数据挖掘,机器学习,数据分析)