异常值得判断与处理

    数据样本中的异常值(Outlier)通常是指一个类别型变量(Category)里某个类别值得次数太少、太稀有,比如出现的效率只有0.1%或更少,或者指一个区间型变量(Lnterval)里某些值取值太大。

    在数据挖掘实践中,对于“异常值”的处理是辩证的,在多数情况下,异常值的删除可以有效降低数据的波动,使得处理后的建模数据更加稳定,从而提高模型的稳定性。但是,在某些业务场景下,异常值的应用却是另一个专门的业务方向。比如在信用体系中的恶意欺诈事件,从数据分析的角度来是对异常值的分析挖掘应用。

    对于异常值的处理相对来说比较简单,主要的措施就是直接删除。

你可能感兴趣的:(处理,判断,缺失值)