简单线性回归——异常值的处理

学习计量经济学过程中,在考虑线性回归中如果因变量中有异常值,应该怎么处理,找到了以下信息,转载备忘一下

1.当发现异常值时,首先应该回到数据中,检查是否存在数据收集或者数据录入方面的错误

如果发现此类错误,则应及时更正为正确的数据,并且再次检测异常值,所以为了避免此类重复操作,在数据预处理的所有环节都应该细心。

2.剔除异常值:

若数据的收集与录入是正确的,但是仅有极个别的异常值,而且经过调研人员的探讨,在所要研究的群体中也非常少见,剔除数据不会对最终的研究结果有很大的影响,那么可以剔除此数据。注意,在最终的报告中,需要写明,调研结果是为了将其推广到尽可能大的范围中,若不剔除会导致分析的结果不理想。还是那句话,一切从实际的调研情况出发,如需剔除,需要在报告中说明剔除此数据的原因,以及对结果的影响。

3.保留异常值:

在实际操作中,不能因为异常值不符合预期的统计而就将其剔除,因为它代表了真实的情况,需要保留,有两种方法处理方法:

  • A.纳入异常值进行分析,在结果中需要说明存在异常值,或者分别计算纳入异常值与剔除异常值后的相关系数,若两个结果没有明显的差别,则保留异常值。

  • B.做数据转换。但是,数据转换后需要重新检验数据的正态性和线性性相关性,并且对所有的假设条件重新检查。

Ps:若实在不知道是否应该剔除异常值,或者剔除前后,检验结果非常不一致,则应该同时报告剔除数据前后两个结果,并且在文章中讨论可能的原因。

同时,除了对异常值进行讨论,也应该考虑现有的模型是否合适。(如:是否应该考虑非线性模型)

注意,只要对数据进行了任何修改,都应该重新做假设条件的分析并在结果中报告这些修改。

你可能感兴趣的:(机器学习,redis,缓存,数据库)