机器学习之模型评价指标(自学笔记)

机器学习之模型评价指标(自学笔记)

文章目录

  • 机器学习之模型评价指标(自学笔记)
    • 一, R 2 R^2 R2
      • 定义
      • R 2 R^2 R2与皮尔逊相关系数(PCC)
    • 二,混淆矩阵
    • 三,正确率
    • 四,准确率与召回率
    • 五,ROC曲线,AUC值

一, R 2 R^2 R2

定义

R²是指拟合优度,是回归直线对观测值的拟合程度

表达式:R2=SSR/SST=1-SSE/SST

其中:SST=SSR+SSE,SST(total sum of squares)为总平方和,SSR(regression sum of squares)为回归平方和,SSE(error sum of squares) 为残差平方和。

回归平方和:SSR(Sum of Squares forregression)

残差平方和:SSE(Sum of Squares for Error)

总离差平方和:SST(Sum of Squares fortotal)

R 2 R^2 R2的取值,有以下的可能性:

  • 等于1。理想状况,该模型对所有的真值预测准确,没有偏差。
  • 小于1大于0。表明该模型的拟合水平比均值模型好。
  • 等于0。该模型的拟合水平接近于均值模型。
  • 小于0。该模型的拟合水平不如均值模型。

R 2 R^2 R2与皮尔逊相关系数(PCC)

皮尔逊相关系数是研究变量之间线性相关程度的量,
P C C ( x , y ) = ∑ ( x i − x ‾ ) ( y i − y ‾ ) ∑ ( x i − x ‾ ) 2 ∑ ( y i − y ‾ ) 2 PCC(x,y)=\sqrt{\frac{\sum(x_i-\overline{x})(y_i-\overline{y})}{\sum(x_i-\overline{x})^2\sum(y_i-\overline{y})^2}} PCC(x,y)=(xix)2(yiy)2(xix)(yiy)
R方和PCC是不同的指标。R方衡量x和y的接近程度,PCC衡量的是x和y的变化趋势是否相同。R方是不对称关系,PCC是对称关系。

二,混淆矩阵

定义:混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。

下边以二分类为例:

模型预测 Positive 模型预测 Negative
真实类别 Positive TP FN
真实类别 Negative FP TN

TP:真实类别为P,预测为P

FP:真实类别为N,预测为P

FN:真实类别为P,预测为N

TN:真实类别为N,预测为N

三,正确率

所以,从混淆矩阵可以得知TP与TN是真实类别与模型预测的类别都是一样的,

即可以得到正确率,
正确率 = T P + T N T P + T N + F N + F P 正确率 = \frac{TP+TN}{TP+TN+FN+FP} 正确率=TP+TN+FN+FPTP+TN

四,准确率与召回率

准确率 = T P T P + F P 召回率 = T P T P + F N 准确率=\frac{TP}{TP+FP} \\ 召回率=\frac{TP}{TP+FN} 准确率=TP+FPTP召回率=TP+FNTP

从公式可以看出,准确考虑的是模型预测为P的数量;召回率考虑的是真实类别为P的数量。

五,ROC曲线,AUC值

ROC(Receiver Operating Characteristic Curve)曲线与AUC(Area Under Curve)

通常使用其对模型分类进行评价。

AUC是指ROC曲线下方的面积,AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,没有应用价值。

  • AUC = 1,是完美分类器。
  • AUC = [0.85, 0.95], 效果很好
  • AUC = [0.7, 0.85], 效果一般
  • AUC = [0.5, 0.7],效果较低
  • AUC = 0.5,模型没有预测价值。
  • AUC < 0.5,比随机猜测还差。

A U C = 正样本的预测概率大于负样本的预测概率的个数 ( T P + F N ) ∗ ( F P + T N ) AUC = \frac{正样本的预测概率大于负样本的预测概率的个数}{(TP+FN)*(FP+TN)} AUC=(TP+FN)(FP+TN)正样本的预测概率大于负样本的预测概率的个数

你可能感兴趣的:(机器学习,人工智能,算法)