统计学习方法概论

一 统计学习

1. 学习:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”——赫尔伯特.西蒙

2. 统计学习的对象:数据。它从数据出发,提取数据特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。

3. 统计学习关于数据的基本假设:同类数据具有一定的统计规律性,这是统计学习的前提

4. 统计学习包括:监督学习、非监督学习、半监督学习及强化学习。

5. 监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律(3),X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。监督学习的结果就是学习得到条件概率分布P(Y|X)(概率模型)或决策函数Y=f(x)(非概率模型),它们描述输入与输出随机变量的映射关系。

二 统计学习三要素

方法=模型+策略+算法

1. 模型:监督学习所要学习的条件概率分布或决策函数。

2. 策略:按照什么准则学习或选择最优模型。

    1)损失函数(代价函数):度量预测错误的程度,0-1损失函数、平方损失函数、绝对损失函数、对数损失函数(对数似然损失函数)等。

    2)风险函数(期望损失):模型f(X)关于联合分布P(X,Y)的平均意义下的损失。学习的目标就是选择期望风险最小的模型。

    3)经验风险(经验损失):模型f(X)关于训练数据集的平均损失。由于联合分布P(X,Y)未知,风险函数无法计算得到,然而在假设空间、损失函数和训练数据集确定的情况下,经验风险函数就可以确定。根据大数定律当样本容量N趋于无穷时,经验风险趋于期望风险,所以常常用经验风险估计期望风险--->监督学习策略:经验风险最小化,当样本容量很小时会过拟合--->结构风险最小化(正则化)。

    4)tips:当模型是条件概率分布、损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计;当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计

3. 算法:学习模型的具体计算方法。

三 分类、标注和回归

1. 回归问题:输入变量与输出变量均为连续变量的预测问题;

2. 分类问题:输出变量为有限个离散变量的预测问题;

3. 标注问题:输入变量与输出变量均为变量序列的预测问题。

备注:《统计学习方法》第一章。

四 极大似然估计

1. 极大似然估计:考虑一组含有m个样本的数据集,独立地由未知的真实数据生成分布Pdata(x)生成。Pmodel(x; )将任意输入x映射到实数来估计真实概率pdata(x)。对的最大似然估计被定义为:

 = 

其中为样本的联合概率分布,即该事件的发生概率,最大似然估计在于求得使得该概率最大(因为该事件已经发生)。——《概率论》,p152

由于多个概率的乘积会因很多原因不便于计算,可能会产生数值下溢等问题——>似然对数,将乘积转化成了便于计算的求和形式:

备注:极大似然估计的前提——训练样本的分布能代表样本的真实分布;每个样本都是独立同分布的随机变量;有充足的训练样本。极大似然估计的目的——利用已知的样本结果反推最有可能导致这样结果的参数值。

2. 条件最大似然估计:将最大似然估计扩展到估计条件概率P(y|x; ),便构成了大多数监督学习的基础。如果X表示所有的输入,Y表示观测到的目标,那么条件似然估计是:

(假设样本独立同分布)

3. 最大似然通常是机器学习中的首选估计方法,原因:

(1)在合适条件下,最大似然估计具有一致性(训练样本数目趋向于无穷大时,参数的最大似然会收敛到参数的真实值)。条件1:真实分布Pdata必须在模型族Pmodel(.;)中,否则没有估计可以还原Pdata;条件2:真实分布Pdata必须刚好对应一个值,否则最大似然估计恢复出真实分布Pdata后,也不能决定数据生成过程使用哪个。

(2)最大似然估计有较高的统计效率。只需要较少的样本就能达到一个固定程度的泛化误差,当样本数目小到会发生过拟合时,正则化策略可用于获得训练数据有限时方差较小的最大似然有偏版本。

备注:《深度学习》5.5。



习题:通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

证明:模型是条件概率分布:;

           损失函数是对数损失函数:

            经验风险

            经验风险最小化<=><=>

            <=>条件最大似然估计(四.2)

你可能感兴趣的:(统计学习方法概论)