统计学习方法(—)——统计学习方法概念

 1、统计学习方法概念

   统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称统计学习方法的三要素,简称为模型、策略和算法。
    模型的假设空间:包含所有可能的条件概率分布或决策函数。例如,决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合,假设空间的模型一般有无穷多个。
    模型选择的准则:一个评估方法从模型的假设空间中选择最优模型。引入损失函数来度量模型一次预测错误的程度,损失函数是f(X)和Y的非负实值函数,记作L(Y,f(X))。常见的损失函数有:
    (1)0-1损失函数:
                               L(Y,f(X)))=\left\{\begin{matrix} 1, Y\neq f(X))\\ 0, Y=f(X) \end{matrix}\right.

      (2)平方损失函数:

                                L(Y, f(X))) =(Y - f(X))^{2}

      (3)绝对损失函数:

                               L(Y, f(X))) =\left | Y - f(X) \right |

    (4)对数损失函数或对数似然损失函数

                               L(Y,P(Y|X)) = -log(P(Y|X))

      对于整体训练样本的损失计算,有两个基本策略:经验风险最小化与结构风险最小化。

     经验风险最小化:

                                 min \frac{1}{N}\sum_{i=1}^{N}L(y_{i}, f(x_{i})))

当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

当样本数量足够大时,经验风险最小化能保证有很好的效果。当样本数量小时,经验风险最小化学习的效果未必很好,就产生过拟合现象。

结构风险最小化是为防止过拟合,在经验风险最小化的基础上,添加模型复杂度的正则化或罚项,公式为:

                        min \frac{1}{N}\sum_{i=1}^{N}L(y_{i}, f(x_{i}))) + \lambda J(f)

       其中J(f)表示模型的复杂度,模型f越复杂,复杂度J(f)越大,反之J(f)越小。\lambda\geqslant 0是系数,权衡经验风险和模型复杂度。

结构风险小需要经验风险与模型复杂度同时小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

       算法:用什么样的计算方法求解最优模型,比如:BGD,SGD,adam等

2.训练误差和测试误差

      训练误差的大小,衡量模型对训练样本的学习能力。

      测试误差的大小,反映模型对未知数据的预测能力,也称泛化能力。

3.准确率、精确率和召回率

准确率:模型预测正确的样本数与总样本之比。

根据模型预测的数据,计算出混淆矩阵

统计学习方法(—)——统计学习方法概念_第1张图片

TP:将正类预测为正类数

FN:将正类预测为负类数

FP:将负类预测为正类数

TN:将负类预测为负类数

精确率:是针对我们预测结果而言,表示预测为正的样本中有多少是真正的正样本。那么预测为正就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),即:

                                                         P = \frac{TP}{TP+FP}

召回率:是针对我们原来的样本而言,表示的是样本中的正例有多少被预测正确。那么也有两种可能,一种是把原来的正类预测为正类(TP),另一种就是把原来的正类预测为负类(FN),即:

                                                         R = \frac{TP}{TP+FN}

F1值是精确率和召回率的调和均值,即:

                                             F_{1} = \frac{2P\cdot R}{P+R}

 

 

 

 

你可能感兴趣的:(统计学习方法)