统计学习方法笔记——第一章 统计学习方法概论(2)

1.1  统计学习三要素

    统计学习方法=模型+策略+算法


1.1.1  模型

    上一节已介绍过,在监督学习过程中,模型就是要学习的条件概率分布或者决策函数,假设空间中包含了所有可能得模型,通常有无数种。

    当模型分别为决策函数时,假设空间的表达形式为:

     ,X和Y分别定义在为输入空间和输出空间上的变量。

    或者

     ,参数向量的表达形式。

    同理,当模型为条件概率分布时,假设空间的表达形式为:

     或者

    当谈到模型时,只用到这两种模型中的一种。


1.1.2  策略

    有了模型的假设空间以后,便该考虑按照什么样的评判标准来选取最优模型,即选择模型的策略。

    一个好的模型,对未知数据的预测值与该数据真实值之间的差异应该是越小越好的,有了这个概念,首先引入两个新名词:损失函数和风险函数。

    损失函数:度量模型一次预测的好坏;

    风险函数:度量模型平均意义下预测的好坏。

    现在在假设空间中选取模型f作为决策函数,对于给定的X,f(X)即为模型的预测值,Y即为模型的真实值,f(X)和Y可能相同也可能不同,记损失函数为L(Y,f(X))。

    常用的损失函数有如下四种:

统计学习方法笔记——第一章 统计学习方法概论(2)_第1张图片

    针对输入输出空间上,全体实例的损失函数的期望值为


    在这个公式中,联合概率分布P(X,Y)是未知的(若已知,也就不用预测了,我们要挖掘的就是联合概率分布这一背后蕴含的规律),这样一来损失函数的期望值没法求,也就无法确定模型的好坏,监督学习就成了一个病态问题了。

    然而,刚才还引进了另一个名词——风险函数,它代表着平均意义下预测的好坏,因此风险函数的数学表达式为:

,这也叫经验损失。

    由于损失函数的期望损失无法求,我们可以考虑用经验损失来代替它,根据伯努利大数定律,当样本容量趋于无穷大时,经验损失≈期望损失。但有个大前提,一定要是样本容量足够大时,两者才近似相等。若样本容量太小时,则会产生过拟合现象,这时候需要采取一个措施,叫做结构风险最小化。结构风险的定义为:

在经验风险的基础上再加上一个惩罚项,若模型越复杂,则Jf)越大,反之则越小,入是惩罚项的系数。结构风险小需要经验风险和惩罚项同时小。这时候,监督学习中选择最优模型的策略就转变为求解结构风险函数的最小值,其中f是要求解的最优模型:



1.1.3  算法

    找到最优模型以后,就要设计算法来实现它,这涉及到数值分析,最优化等内容。

你可能感兴趣的:(机器学习)