matlab中一些数据处理评价指标

  1. 相关系数(R)
    定义:变量之间线性相关的度量。分三种,spearman, pearson, kendall
    公式:
    在这里插入图片描述
    解释:自变量X和因变量Y的协方差/标准差的乘积。
  • 协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。
  • 为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。
  • 因此,相关系数是一种特殊的协方差。
  1. 决定系数(R^2)
    定义:对模型进行线性回归后,评价回归模型系数拟合优度。

公式:R2=SSR/SST=1-SSE/SST
SST (total sum of squares):总平方和
SSR (regression sum of squares):回归平方和
SSE (error sum of squares) :残差平方和。

解释:残差(residual):实际值与观察值之间的差异

在一组数据中,采用平均值做基线模型(图中黑线)
我们的模型(蓝线)都与这个黑线比较,来判断模型的好坏
var=sum(i-mean)^2
matlab中一些数据处理评价指标_第1张图片

结论:R^2=81%,因变量Y的81%变化由我们的自变量X来解释。
R^2 的缺陷:当我们人为的向系统中添加过多的自变量,SSE会减少,从而R^2变大。因此我们采用校正R方,惩罚了过多无意义的自变量:
在这里插入图片描述
3. MSE(均方误差)(Mean Square Error)

MSE是真实值与预测值的差值的平方然后求和平均。
在这里插入图片描述
范围[0,+∞),当预测值与真实值完全相同时为0,误差越大,该值越大。

import numpy as np
from sklearn import metrics
y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.5, 5.0, 8.0, 4.5, 1.0])
print(metrics.mean_squared_error(y_true, y_pred)) # 8.107142857142858
4. RMSE (均方根误差)(Root Mean Square Error)
在这里插入图片描述
import numpy as np
from sklearn import metrics
y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.5, 5.0, 8.0, 4.5, 1.0])
print(np.sqrt(metrics.mean_squared_error(y_true, y_pred)))
5. MAE (平均绝对误差)(Mean Absolute Error)
在这里插入图片描述
import numpy as np
from sklearn import metrics
y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.5, 5.0, 8.0, 4.5, 1.0])
print(metrics.mean_absolute_error(y_true, y_pred))

你可能感兴趣的:(matlab)