【数据建模 极端值的检测】离群值检测

极端值:又称离群值,往往会扭曲预测结果并影响模型精度。回归模型(线性回归,广义线性回归)中离群值的影响尤其大,使用该模型时我们需要对其进行检测和处理。

处理离群值或者极端值并不是数据建模的必要流程,然而,了解它们对预测模型的影响也是大有裨益的。
数据分析师们需要自己判断处理离群值的必要性,并结合实际问题选取处理方法。
检测离群值的重要性:由于离群值的存在,模型的估计和预测可能会有很大的偏差或者变化
可以选择对极端值不敏感的模型,例如KNN,决策树
那么如何检测某个特征数据是否存在极端值呢?
1)对样本数据进行可视化

2) 3-sigma方法检
一般来说,如果某个特征数据,最大值为maxValue,均值为mean,标准差为std。如果满足maxValue>mean+3*std,那么我们就认为这个特征数据存在离群点。

你可能感兴趣的:(数据科学--机器学习)