李航《统计学习方法》学习笔记(一)

第一章 统计学习及监督学习概论

  • 统计学习的分类
    - 监督学习
    - 无监督学习
    - 强化学习
    - 半监督学习
    - 主动学习

1.2.1 监督学习:

监督学习的本质是学习输入到输出的映射的统计规律,这一映射由模型来表示

(1)输入空间、特征空间和输出空间

  • 特征空间:

每个具体的输入是一个实例,通常由特征向量表示。这时,所有的特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。模型实际上都是定义在特征空间上。

  • 根据输入输出变量的不同类型,对预测任务给予不同的名称:

输入变量与输出变量均为连续变量的预测问题称为回归问题

输出变量为有限个离散变量的预测问题称为分类问题

输入变量与输出变量均为变量序列的预测问题称为标注问题

(2)联合概率分布

训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的

(3)假设空间

监督学习的目的就在于找到最好的输入到输出的映射规律,即最好的模型。
由输入空间到输出空间的映射的集合,这个集合就是假设空间。即模型的集合

(4)问题形式化

监督学习分为学习和预测两个过程

1.2.2 无监督学习:

无监督学习的本质是学习数据的统计规律或潜在结构。

1.2.3强化学习:

强化学习的本质是学习最优的序贯决策。

补充:
序贯决策: 是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。

1.3 统计学习方法三要素

  • 方法 = 模型 + 策略 + 算法

1.3.1模型

监督学习过程中,模型就是所要学习的条件概率分布或决策模型。

1.3.2策略

有了模型,就要考虑按照什么样的准则学习或选择最优的模型。
统计学习的目标在于从假设空间中选取最优模型。

损失函数和风险函数:

  • 用一个损失函数或者代价函数来度量预测错误的程度
  • 损失函数
    • 0-1损失函数
    • 平方损失函数
    • 绝对损失函数
    • 对数损失函数

损失函数越小模型越好!

  • 损失函数的期望成为风险函数或期望损失。
  • 模型f(X)关于训练数据集的平均损失称为经验风险或经验损失
  • 期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失
  • 监督学习的两个基本策略:经验风险最小化结构风险最小化
  • 经验风险最小化的策略认为经验风险最小的模型就是最优模型。极大似然估计就是经验风险最小化的例子。
  • 当样本容量很小时,经验风险最小化学习的效果未必好,会产生“过拟合”现象
  • 结构风险最小化(SRM)是为了防止过拟合的策略,等价于正则化
  • 结构风险在经验风险上加上表示模型复杂度的正则化项或罚项

1.3.3算法

算法是指学习模型的具体计算方法
**

1.4模型评估与模型选择

1.4.1训练误差与测试误差

  • 损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就是学习方法评估的标准
  • 训练误差是模型关于训练数据集的平均损失
  • 测试误差是模型关于测试数据集的平均损失
  • 通常将学习方法对未知数据的预测能力称为泛化能力

1.4.2过拟合与模型选择

  • 过拟合:

是指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测的很好,对未知数据预测的很差的现象。可以说模型的选择旨在避免过拟合并提高模型的预测能力。

拟合可以通过最小二乘法求得唯一参数解:

  • 最小二乘法通俗详解:

转载:http://www.360doc.com/content/18/0706/10/15930282_768242401.shtml

为防止过拟合,选择复杂度适当的模型,以达到使测试误差最小的学
习目的。有两种常用的模型选择方法:正则化与交叉验证。

  • 正则化:
    正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项C regularizer )或罚项Cpenalty term) 。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如, 正则化项可以是模型参数向量的范数。
    正则化一般具有如下形式:
    李航《统计学习方法》学习笔记(一)_第1张图片

其中,第1 项是经验风险,第2 项是正则化工页, λ大于等于0 为调整两者之间关系的系数。

  • 交叉验证:

  • 简单交叉验证

简单交叉验证方法是:首先随机地将己给数据分为两部分, 一部分作为训练集,另一部分作为测试集(例如,70% 的数据为训练集,30% 的数据为测试集) ;然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型:在测试集上评价各个模型的测试误差,选出测试误差最小的模型。

  • S 折交叉验证

应用最多的是S 折交叉验证C S-fold cross validation) ,方法如下:首先随机地将已给数据切分为S 个互不相交、大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型:将这一过程对可能的S 种选择重复进行;最后选出S 次评测中平均测试误差最小的模型。

  • 留一交叉验证

S 折交叉验证的特殊情形是S = N , 称为留一交叉验证,往往在数据缺乏的情况下使用。这里, N 是给定数据集的容量。

  • 泛化能力

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。

1.5 口归问题

回归(regression) 是监督学习的另一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据。

拓展:

转载:
如何通俗地理解“最大似然估计法”?
https://www.matongxue.com/madocs/447

理解无偏估计:
https://mp.weixin.qq.com/s?__biz=MzIyMTU0NDMyNA==&mid=2247490340&idx=1&sn=0d2b1bcacd3aec82de88038c6ee3fa9a&chksm=e83a71cfdf4df8d9ab5d789bdaad4c9fe2744210ee6fa339f3a48ad6aabf83f31fc0aa228fe9&scene=21#wechat_redirect

你可能感兴趣的:(机器学习)