机器学习中回归任务的性能度量

性能度量

对于我们构建的模型的泛化能力进行评估,不仅我们需要有效可行的实验评估方法,还需要有衡量模型泛化能力的评价标准,就是性能度量(performance measure)

在对比不同模型的效果时,使用不同的性能度量往往会有不同的评判结果,即意味着模型的“好坏”是相对的,怎么样去使用对应的性能度量标准,还需要根据任务需求



在预测任务中,给出数据集
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . ( x m , y m ) } D=\{{(x_1,y_1),(x_2,y_2)...(x_m,y_m)}\} D={(x1,y1),(x2,y2)...(xm,ym)}
其中 x i x_i xi是features, y i y_i yi x i x_i xi的label值,评估模型 f f f的性能,就要将预测结果 f ( x ) f(x) f(x)(一般我们会将预测结果记为 y ^ \hat y y^)与label值 y y y进行比较。

 
 

回归(regression)任务的常用的性能度量

均方误差(MSE)

回归任务中最常用的性能度量是“均方误差”(mean squared error)
预测值与真实值之差的平方和的平均值
M S E = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 MSE=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2 MSE=m1i=1m(f(xi)yi)2
特点:MSE对误差进行的平方,意味着误差值越大,其平方值更大,对大误差值会十分敏感。

均方根误差(RMSE)

均方根误差测量的是误差的标准差
M S E = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 MSE=\sqrt{\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2} MSE=m1i=1m(f(xi)yi)2
特点:进行开方的MSE其单位将会与原数据单位一致

平均绝对误差(MAE)

平均绝对误差MAE(Mean Absolute Error):
M A E = 1 m ∑ i = 1 n ∣ f ( x i ) − y i ∣ MAE=\frac{1}{m} {\sum_{i=1}^{n} {|f(x_i)-{y_i}|} } MAE=m1i=1nf(xi)yi
特点:真实地表现出误差。

确定系数 R 2 R^2 R2 (R-Squared)

确定系数 R 2 R^2 R2是由 S S R SSR SSR S S T SST SST S S E SSE SSE决定的。
其中 f ( x i ) f(x_i) f(xi)是模型的预测结果, y i y_i yi是样本的abel值, y ‾ \overline{y} y表示样本label的均值。

回归平方和 S S R SSR SSR:Sum of Squares Of The Regression,即预测数据与原始数据均值之差平方和
S S R = S S r e g = ∑ i = 1 m ( f ( x i ) − y ‾ ) 2 SSR=SS_{reg}=\sum_{i=1}^{m}(f(x_i)-\overline{y})^2 SSR=SSreg=i=1m(f(xi)y)2
总离差平方和 S S T SST SST:Total Sum Of Squares,即原始数据和均值之差的平方和
S S T = S S t o t = ∑ i = 1 m ( y i − y ‾ ) 2 SST=SS_{tot}=\sum_{i=1}^{m}(y_i-\overline{y})^2 SST=SStot=i=1m(yiy)2
残差平方和 SSE:Sum of Squares due to Error,即
S S E = S S r e s = ∑ i = 1 m ( y i − f ( x i ) ) 2 SSE=SS_{res}=\sum_{i=1}^{m}(y_i-f(x_i))^2 SSE=SSres=i=1m(yif(xi))2

得到 R 2 R^2 R2的公式为:

R 2 = 1 − S S E ( S S r e s ) S S T ( S S t o t ) = 1 − ∑ i = 1 m ( y i − f ( x i ) ) 2 ∑ i = 1 m ( y i − y ‾ ) 2 R^2=1-\frac{SSE(SS_{res})}{SST(SS_{tot})}=1-\frac{\sum_{i=1}^{m}(y_i-f(x_i))^2}{\sum_{i=1}^{m}(y_i-\overline{y})^2} R2=1SST(SStot)SSE(SSres)=1i=1m(yiy)2i=1m(yif(xi))2
 
 

决定系数:用于度量因变量的变异中可由自变量解释部分所占的比例,取值范围是 0~1,值越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变化的部分就越多,回归的拟合程度就越 好。所以也称为拟合优度(Goodness of Fit)的统计量。
 
 
 

你可能感兴趣的:(机器学习,机器学习,深度学习,python,逻辑回归)