回归评价指标

from:http://blog.csdn.net/heyongluoyao8/article/details/49408319

回归评价指标

  与分类不同的是,回归是对连续的实数值进行预测,即输出值是连续的实数值,而分类中是离散值。例如,给你历史股票价格,公司与市场的一些信息,需要你去预测将来一段时间内股票的价格走势。那么这个任务便是回归任务。对于回归模型的评价指标主要有以下几种: 
* RMSE 
  回归模型中最常用的评价模型便是RMSE(root mean square error,平方根误差),其又被称为RMSD(root mean square deviation),其定义如下: 

RMSE=ni=0(yiyi^)2n

其中, yi 是第 i 个样本的真实值, yi^ 是第 i 个样本的预测值, n 是样本的个数。该评价指标使用的便是欧式距离。 
  RMSE虽然广为使用,但是其存在一些缺点,因为它是使用平均误差,而平均值对异常点(outliers)较敏感,如果回归器对某个点的回归值很不理性,那么它的误差则较大,从而会对RMSE的值有较大影响,即平均值是非鲁棒的。 
* Quantiles of Errors 
  为了改进RMSE的缺点,提高评价指标的鲁棒性,使用误差的分位数来代替,如中位数来代替平均数。假设100个数,最大的数再怎么改变,中位数也不会变,因此其对异常点具有鲁棒性。 
  在现实数据中,往往会存在异常点,并且模型可能对异常点拟合得并不好,因此提高评价指标的鲁棒性至关重要,于是可以使用中位数来替代平均数,如MAPE: 
MAPE=median(|yiyi^|/yi)

  MAPE是一个相对误差的中位数,当然也可以使用别的分位数。 
* “Almost Crrect” Predictions 
  有时我们可以使用相对误差不超过设定的值来计算平均误差,如当 |yiyi^|/yi 超过100%(具体的值要根据问题的实际情况)则认为其是一个异常点,,从而剔除这个异常点,将异常点剔除之后,再计算平均误差或者中位数误差来对模型进行评价。

你可能感兴趣的:(机器学习之回归)