数据存在异常值、缺失值和重复值是数据清洗工作中主要可能遇到的三个问题。
异常值是数据中的极端的观测值,即在数据集中存在不合理的值,又称离群点。
在统计学中异常值(outlier)定义为一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值1。
一批数据中的异常值值得关注,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。
如果删除一个观测点会导致拟合模型的实质性变化,即系数估计值、拟合值和检验值等发生较大变化,则称这个点为强影响点。
对于异常值的判断,通常使用的方法有很多种,本文主要介绍以下7种方法。
当我们拿到数据后可以对数据进行一个简单的描述性统计分析,譬如最大最小值可以用来判断这个变量的取值是否超过了合理的范围,不合常理的为异常值。比如,对成绩这个属性进行规约:成绩的区间在[0:100],如果样本中的成绩不在该区间范围内,则表示该值属于异常值。
将所有数据按大小排序,找到其中上四分位数UQ(Q3)和下四分位数LQ(Q1),计算其差值IQR=UQ-LQ(中四分位范围,IQR,即内50%范围),所有在 [LQ-1.5IQR,UQ+1.5IQR] 范围之外的数据都可以判定为异常值。
将其形象化的方式就是通过绘制箱型图进行直观判定。箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
箱形图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱形图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱形图识别异常值的结果比较客观。由此可见,箱形图在识别异常值方面有一定的优越性。
格拉布斯准则是以正态分布为前提的,理论上较严谨,使用也方便。
格拉布斯的测试一次检测到一个异常值。从数据集中删除该异常值,并且迭代测试直到没有检测到异常值。但是,多次迭代会改变检测概率,并且测试不应该用于六个或更少的样本大小(n>6),因为它经常将大多数点标记为异常值。
该方法具体可以详见该博主。
具体操作就是先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象。
通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。
当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。
异常值的处理方法常用有四种:
(1)删除含有异常值的记录,尤其需要剔除高度异常的异常值;
(2)将异常值视为缺失值,交给缺失值处理方法来处理;
(3)用平均值来修正;
(4)不处理。
需要强调的是,如何判定和处理异常值,需要结合实际。
相关笔记:
本文主要根据个人学习,并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!
异常值-百度百科 ↩︎
数据清洗中异常值如何处理 ↩︎