机器学习 | 数据预处理 —— 缺失值处理(原因/ 解决办法)

目录

1.缺失值产生原因

1.1 机械原因

1.2 人为原因

2.数据缺失机制

3.缺失值处理的三种主要类型

3.1 删除对象

3.2数据补齐

3.2.1人工填充

3.2.2平均值填充

3.2.3热卡填充

3.2.4KNN填充

3.2.5使用所有可能的值填充

3.2.6组合完整化方法

3.2.7回归方法

3.2.8期望值最大化方法

3.2.9多重填补

3.2.10 C4.5方法

3.3 不处理

4.总结

5.参考文章


1.缺失值产生原因

数据预处理过程常常占据模型构建与分析过程中70%的工作量。在实际的各种场景当中,出现缺失值的情况经常出现甚至是不可避免的,这主要是由于信息系统设计的不完备以及数据库设计过程中完整性定义有缺陷。总体可总结为“机械原因”和“人为原因”。缺失值的存在导致“系统丢失了大量的有用信息”以及“影响模型性能”。

1.1 机械原因

机械原因是由于机械原因所导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败存储器损坏机械故障导致某段时间数据未能收集(对于定时数据采集而言)。

1.2 人为原因

人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据造成数据缺失的原因是多方面的。主要有一下几种:

1)有些信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。又如在申请表数据中,对某些问题的反映依赖于对其他问题的回答。

2)有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了。

3)有些对象的某个或某些属性是不可用的。也就是说,对于这个对象来说,该属性值是不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入状况等。

4)有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关的,或训练数据库的设计者并不在乎某个属性的取值(称为dont-care value)。

5)获取这些信息的代价太大

6)系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策。

2.数据缺失机制

不含缺失值的特征(变量)称为“完全变量

含有缺失值的特征(变量)称为“不完全变量

1)完全随机缺失(Missing Completely at Random,MCAR)。数据的缺失与不完全变量以及完全变量都是无关的。

2)随机缺失(Missing at Random,MAR)。数据的缺失仅仅依赖于完全变量。

3)非随机、不可忽略缺失(Not Missing at Random,NMAR,or nonignorable)。不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的。

从缺失值的所属属性上讲,如果所有的缺失值都是同一属性,那么这种缺失成为单值缺失,如果缺失值属于不同的属性,称为任意缺失。另外对于时间序列类的数据,可能存在随着时间的缺失,这种缺失称为单调缺失

3.缺失值处理的三种主要类型

3.1 删除对象

优点:操作简单,被删对象占总对象比重较小时非常有效,通常在类别标号缺少时使用

缺点:资源大量浪费,丢弃了大量隐藏在删除对象中的信息,不适用于缺失值非随机分布的情况,可能导致数据发生偏离

3.2数据补齐

该种方法通常基于统计学原理,根据当前缺失值所在特征的其他非缺失特征值的分布情况来进行填充,常用的几种数据补齐方法如下:

3.2.1人工填充

优点:对数据更加了解,产生的数据偏差最小,可能是填充效果最好的一种

缺点:费时费力,当数据规模较大时或缺失值较多时,该种方法不可行

3.2.2平均值填充

优点:采用现存数据的多数信息来推测缺失值

缺点:对异常值较为敏感

3.2.3热卡填充

优点:概念相对简单,利用的是相似对象的值来进行填充(找一个与缺失值对象最相近的对象)

缺点:难以定义相似标准,主观因素太多

3.2.4KNN填充

优点:效率较高

缺点:易引入自相关,且后期填充采用均值填充方式,对特殊特征值的敏感度较高

3.2.5使用所有可能的值填充

优点:缺失值填充效果较好(空缺特征的所有可能取值进行填充)

缺点:当数据量较大或缺失值较多时,计算代价很大,可能的测试方案很多

3.2.6组合完整化方法

优点:缺失值填充效果较好(第一步:同3.2.5;第二步:从最终结果中选择最好的一个作为填补属性值)

缺点:当数据量较大或缺失值较多时,计算代价很大

3.2.7回归方法

优点:缺失值对象缺失值的回归预测,效率较高

缺点:当变量(特征)不是线性相关或预测变量高度相关时会导致有偏差的估计

3.2.8期望值最大化方法

优点:适用于大样本

缺点:可能陷入局部极值,收敛速度不是很快,并且计算复杂

3.2.9多重填补

优点:①为每个缺失值生成一组可能的随机插补值(反映了无响应模型的不确定性),产生若干完整数据集②分别构建模型③判断最终模型性能,选择模型性能最优的填补值

缺点:填充值可能受到空缺值的不确定性的影响,计算复杂

3.2.10 C4.5方法

优点:通过寻找属性之间的关系来对遗失值进行填充(代理属性->原始属性)

缺点:仅能 处理奇数较小的名词性属性

3.3 不处理

“贝叶斯网络”+“人工神经网络”

4.总结

大多数数据挖掘系统都是在数据挖掘之前的数据预处理阶段采用第一、第二类方法来对空缺数据进行处理。并不存在一种处理空值的方法可以适合于任何问题。无论哪种方式填充,都无法避免主观因素对原系统的影响,并且在空值过多的情形下将系统完备化是不可行的。从理论上来说,贝叶斯考虑了一切,但是只有当数据集较小或满足某些条件(如多元正态分布)时完全贝叶斯分析才是可行的。而现阶段人工神经网络方法在数据挖掘中的应用仍很有限。值得一提的是,采用不精确信息处理数据的不完备性已得到了广泛的研究。不完备数据的表达方法所依据的理论主要有可信度理论、概率论、模糊集合论、可能性理论,D-S的证据理论等。

5.参考文章

https://www.cnblogs.com/magle/articles/6110195.html

 

你可能感兴趣的:(#,机器学习,数据预处理,缺失值)