模型匹配分析

模型匹配分析_第1张图片
image

1. 问题

讨论了这么多模型,有一个问题逐渐浮现了出来,这些模型的效果怎么样?我们需要一些对模型效果进行评价的方法。

2. 分析

最简单的评估方法,是把所有误差平方加总,于是我们有了RSS(Residual Sum of Error)

模型匹配分析_第2张图片
image

RSS的问题是,随着样本数的增加,RSS会一直增加,这就很难评估模型效果。所以我们引入MSE(Mean of Square Error),求误差平方的平均值。

但MSE的问题是,结果单位是平方的。开方以后,我们有了RSE(Residual Standard Error)

但是,RSE 依然不算很好的指标,因为它和 y 的单位是一样的,所以我们没办法直观的知道什么时候模型是足够好的。于是进一步,我们有了这个指标。RSE 表示的是模型匹配不佳的情况,表示的是模型匹配更好的情况 —— 也即,预测模型在多大情况下可以解释数据

其中的TSS为 Total Sum of Square,表示为

这个量从误差的角度比前面几个理解起来困难一些,但从方差的角度就很好理解了。其实TSS就是y的方差求总

RSS 表示的是模型无法解释的误差,那么就是模型可以解释的误差,再除以TSS就是模型可以解释的误差占比。

所以一般来说,越大模型越好。

3. 总结

今天我们大致聊了聊模型评估的问题,谈到了RSS、MSE、RSE、TSS和。

这些指标是比较通用的,对于某种特定算法,还有很多其他指标需要综合考虑。比如查准率(Precision)和查全率(Recall)。

通过数据判断这个世界,从来都不是一件容易的事情。

4. 交流

独学而无友则孤陋寡闻。现有「数据与统计科学」微信交流群,内有数据行业资深从业人员、海外博士、硕士等,欢迎对数据科学、数据分析、机器学习、人工智能有兴趣的朋友加入,一起学习讨论。

大家可以扫描下面二维码,添加荔姐微信邀请加入,暗号:机器学习加群。

模型匹配分析_第3张图片
Lily

5. 扩展

5.1. 延伸阅读

  1. 参数标准化 - 机器学习

5.2. 参考文献

  1. James, G. et al. (eds) (2013) An introduction to statistical learning: with applications in R. New York: Springer (Springer texts in statistics, 103).
  2. Hastie, T., Tibshirani, R. and Friedman, J. H. (2009) The elements of statistical learning: data mining, inference, and prediction. 2nd ed. New York, NY: Springer (Springer series in statistics).

模型匹配分析_第4张图片
Data2Science

你可能感兴趣的:(模型匹配分析)