机器学习第二周-如何评价模型好坏

一、数据拆分

如果将全部的原始数据当做训练集直接训练出模型,然后投入到真实环境中,这种做法是不恰当的,可能存在一定问题,这时候可以对原始数据集进行拆分,拆成训练数据集和测试数据集,根据测试结果判断模型效果。

进行训练数据集与测试数据集切分(train test split)时,一般将原始数据的80%作为训练数据来训练模型,另外20%作为测试数据,通过测试数据直接判断模型的效果,在模型进入真实环境前改进模型。

分类准确度accuracy:被正确分类的样本比例或者是数量

超参数,在机器学习算法模型执行之前需要指定的参数。

二、评价分类结果指标

混淆矩阵:对于极度偏斜(Skewed Data)的数据,只使用分类准确度是不能衡量。这时就需要使用混淆矩阵(Confusion Matrix)做进一步分析。对于二分类问题来说,所有的问题被分为0和1两类,混淆矩阵是2*2的矩阵。

精准率:分母为所有预测为1的个数,分子是其中预测对了的个数,即预测值为1,且预测对了的比例。精准率为我们关注的那个事件,预测的有多准。

召回率:所有真实值为1的数据中,预测对了的个数。也就是我们关注的那个事件真实的发生情况下,我们成功预测的比例是多少。

F1 Score:F1 Score 是精准率和召回率的调和平均值。调和平均值的特点是如果二者极度不平衡,如某一个值特别高、另一个值特别低时,得到的F1 Score值也特别低;只有二者都非常高,F1才会高。这样才符合我们对精准率和召回率的衡量标准。

ROC曲线

        分类阈值,即设置判断样本为正例的阈值thr

        TPR:预测为1,且预测对了的数量,占真实值为1的数据百分比。很好理解,就是召回率。

        FPR:预测为1,但预测错了的数量,占真实值不为1的数据百分比。与TPR相对应,FPR除以真实值为0的这一行所有的数字和  。

        ROC曲线(Receiver OperationCharacteristic Cureve),描述TPR和FPR之间的关系。x轴是FPR,y轴是TPR。ROC曲线距离左上角越近,证明分类器效果越好。如果一条算法1的ROC曲线完全包含算法2,则可以断定性能算法1>算法2。很多时候两个分类器的ROC曲线交叉,无法判断哪个分类器性能更好,这时可以计算曲线下的面积AUC,作为性能度量。

AUC

        一般在ROC曲线中,我们关注是曲线下面的面积, 称为AUC(Area Under Curve)。这个AUC是横轴范围(0,1 ),纵轴是(0,1)所以总面积是小于1的。ROC曲线下方由梯形组成,矩形可以看成特征的梯形。因此,AUC的面积可以这样算:(上底+下底)* 高 / 2,曲线下面的面积可以由多个梯形面积叠加得到。AUC越大,分类器分类效果越好。

 

三、评价回归结果指标

均方误差MSE

    测试集中的数据量m不同,因为有累加操作,所以随着数据的增加 ,误差会逐渐积累;因此衡量标准和 m 相关。为了抵消掉数据量的形象,可以除去数据量,抵消误差。通过这种处理方式得到的结果叫做 均方误差MSE

均方根误差RMSE

    使用均方误差MSE受到量纲的影响。例如在衡量房产时,y的单位是(万元),那么衡量标准得到的结果是(万元平方)。为了解决量纲的问题,可以将其开方(为了解决方差的量纲问题,将其开方得到平方差)得到均方根误差RMSE(Root Mean Squarde Error)

平均绝对误差MAE

        对于线性回归算法还有另外一种非常朴素评测标准。要求真实值  与 预测结果  之间的距离最小,可以直接相减做绝对值,加m次再除以m,即可求出平均距离,被称作平均绝对误差MAE(Mean Absolute Error):

R方(R-squared)

        定义:衡量模型拟合度的一个量,是一个比例形式,被解释方差/总方差。公式:R-squared = SSR/TSS=1 -  RSS/TSS

其中:TSS是执行回归分析前,响应变量固有的方差。

          RSS残差平方和就是,回归模型不能解释的方差。

          SSR回归模型可以解释的方差。

你可能感兴趣的:(机器学习第二周-如何评价模型好坏)