模型评估指标(分类模型、回归模型)

一、分类指标

模型评估指标(分类模型、回归模型)_第1张图片

1.精确率(precision)P=\frac{TP}{TP+FP}  (预测为正的里面预测对的概率)

2.召回率(recall)R=\frac{TP}{TP+FN}(真实为正的里面预测对的概率) 

3.F1值:    \frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}         F_{\alpha }=\frac{\left ( 1+\alpha ^{2} \right )\cdot P\cdot R}{\alpha ^{2}\cdot P+R}(对精确率和召回率赋不同权重进行加权调和)

4.准确率(accuracy)\frac{TP+TN}{TP+FP+FN+TN}

5.错误率(error rate)\frac{FP+FN}{TP+FP+FN+TN}

6.ROC:绘制ROC曲线,首先对所有样本按预测概率排序,以每条样本的预测概率为阈值,计算对应的FPR和TPR,然后用线段连接。当数据量少时,绘制的ROC曲线不平滑,数据量多时,绘制的ROC曲线趋于平滑。

模型评估指标(分类模型、回归模型)_第2张图片

7.AUC:即ROC曲线下的面积,取值越大说明模型越可能将正样本排在负样本前面。AUC还有一些统计特性:AUC等于随机挑选一个正样本(P)和负样本(N)时,分类器将正样本排前面的概率。

8.对数损失是对预测概率的似然估计,其标准形式为:

                                                    logloss=-logP(Y|X)

二、回归指标

1.平均绝对误差

(1)平均绝对误差,也叫L1范数损失,其公式:

MAE=\frac{1}{N}\sum_{i=1}^{N}\left | y_{i} -\hat{y_{i}}\right |

其中,N为样本数,y_{i}为第 i 条样本的真实值,\hat{y_{i}}为第 i 样本的预测值。

模型使用MAE作为损失函数则是对数据分布的中值进行拟合。

(2)加权平均绝对误差(商品较多时效果最好)

WMAE=\frac{1}{N}\sum_{i=1}^{N} w_{i}\left | y_{i} -\hat{y_{i}}\right |

2.平均绝对百分误差

MAPE=\frac{100}{N}\sum_{i=1}^{N} \left | \frac{y_{i}-\hat{y_{i}}}{y_{i}} \right |          y_{i}\neq 0

3.均方根误差

RMSE=\sqrt{\frac{1}{N}\cdot \sum_{i=1}^{N}(y_{i}-\hat{y_{i}})^{2}}

模型使用RMSE作为损失函数则是对数据分布的平均值进行拟合。

4.均方误差

MSE=\frac{1}{N}\cdot \sum_{i=1}^{N}(y_{i}-\hat{y_{i}})^{2}

5.R-Squared

叫做R平方,或者决定系数。可以反映模型多大程度是自变量导致因变量改变的。从而判断模型的解释力。

R^{2}\leq 1,R²越大越好。

R^{2}=\frac{SSR}{SST}=1- \frac{\sum (\hat{y_{i}}-\bar{y})^{2}}{\sum (y_{i}-\bar{y})^{2}}

R^{2}=1-\frac{SSE}{SST}=1- \frac{\sum (\hat{y_{i}}-y_{i})^{2}}{\sum (y_{i}-\bar{y})^{2}}

SSR是回归平方和,SST是总平方和。对于一元线性回归,决定系数(即R²)相当于样本相关系数(皮尔逊相关系数)的平方;随着加入变量,成为多元线性回归后,决定系数就变成了多重相关系数的平方。

分母是一个基准模型基准模型是不考虑x的取值,将所有预测样本的预测结果都认为是y的样本均值\bar{y}

R^{2}=1- \frac{\sum (\hat{y_{i}}-y_{i})^{2}}{\sum (y_{i}-\bar{y})^{2}}=1-\frac{\left ( \sum (\hat{y_{i}}-y_{i})^{2} \right )/m}{\left ( \sum (y_{i}-\bar{y})^{2} \right )/m}=1-\frac{MSE(\hat{y},y)}{Var(y)}

R²在统计学上表示模型拟合优度。

6.Adjusted R-Squared   调整R平方

R平方表示自变量对因变量的解释程度。在一元线性回归中,R平方越大拟合程度越好。而在多元线性回归中,但随着自变量的加入,不管该自变量对因变量是否有影响,R平方都会增大,所以引入了调整R平方。调整R平方对于增加的且对模型没有影响的每个自变量都增加一个惩罚项,如果这样的自变量增加,则调整R平方会减小;但如果加入的是对模型有影响的自变量,则调整R平方会增大。一般情况,一元线性回归使用R平方,多元线性回归使用调整R平方。

你可能感兴趣的:(数学理论,数据分析,基础算法,评估指标,模型)