机器学习中回归问题的性能衡量指标

回归问题的典型性能指标是均方根误差(RMSE),它测量的是预测过程中,预测错误的标准偏差(标准偏差是方差的算术平方根,而方差是离均平方差的平均数)。

例如,RMSE等于50000就意味着,系统的预测值中约68%落在50000美元之内,约95%落在100000美元之内(一种常见的特征分布是呈钟形态的分布,称为正态分布(也叫高斯分布),“68-95-99.7”的规则是指:大约68%的值落在1 σ \sigma σ,95%落在2 σ \sigma σ,99.7%落在3 σ \sigma σ内)。

RMSE的数学计算公式为 R M S E ( X , h ) = 1 m ∑ i = 1 m ( h ( X i ) − y i ) 2 RMSE(X,h)=\sqrt{\frac{1}{m}\sum_{i=1}^m(h(X^{i})-y^{i})^2} RMSE(X,h)=m1i=1m(h(Xi)yi)2 即使RMSE通常是回归任务的首选性能衡量指标,但在某些情况下,其它函数可能会更适合。例如,当有很多离群区域时,你可以考虑使用平均绝对误差(也称为平均绝对偏差,公式如下所示) M A E ( X , h ) = 1 m ∑ i = 1 m ∣ h ( x i ) − y i ∣ MAE(X,h)=\frac{1}{m}\sum_{i=1}^m|h(x^{i})-y^{i}| MAE(X,h)=m1i=1mh(xi)yi

均方根误差和平均绝对误差两种方法都是测量两个向量之间的距离:预测向量和目标值向量。距离或者范数的测度可能有多种:

  • 计算平方和的根(RMSE)对应欧几里得范数,也称为 ι 2 \iota _2 ι2范数,记作 ∣ ∣ ⋅ ∣ ∣ 2 ||\cdot ||_2 2(或者 ∣ ∣ ⋅ ∣ ∣ ||\cdot || )。
  • 计算绝对值的总和(MAE)对应 ι 1 \iota_1 ι1范数,记作 ∣ ∣ ⋅ ∣ ∣ 1 ||\cdot||_1 1。有时它也被称为曼哈顿距离,因为它在测量一个城市的两点之间的距离时,只能沿着正交的城市街区行走。
  • 更笼统地说,包含n个元素的向量 v k v_k vk的范数可以定义为 ∣ ∣ v ∣ ∣ k = ( ∣ v 0 ∣ k + ∣ v 1 ∣ k + . . . + ∣ v n ∣ k ) 1 k ||v||_k=(|v_0|^k+|v_1|^k+...+|v_n|^k)^{\frac{1}{k}} vk=(v0k+v1k+...+vnk)k1
  • 范数指数越高,则越关注大的价值,忽视小的价值。这就是为什么RMSE比MAE对异常值更敏感。但是当异常值非常稀少(例如钟形曲线)时,RMSE的表现优异,通常作为首选。

你可能感兴趣的:(机器学习)