李航:统计学习方法 学习笔记 1 统计学习方法概论

李航:统计学习方法 学习笔记 1 统计学习方法概论

  • 前言
  • 1.1 统计学习
  • 1.2 监督学习
  • 1.3 统计学习三要素
    • 1.3.1 损失函数和风险函数
    • 1.3.2 经验风险最小化和结构风险最小化
  • 1.4 模型评估与模型选择
  • 1.5 其他...

前言

考研终于告一段落,接下来是安心等待入学。想利用这段时间系统学习一下机器学习基础,简单记录一下自己的学习过程,也算是对自己的一种监督。

1.1 统计学习

  • 统计学习(statistics learning)关注概率统计模型,也称为统计机器学习(statistics machine learning)。
  • 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,一般假设数据是独立同分布产生的。
  • 统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型 (model)、策略(strategy)和算法 (algorithm)

1.2 监督学习

  • 统计学习假设数据存在一定的统计规律,X 和 Y 具有联合概率分布的假设就是监督学习关于数据的基本假设。
  • 监督学习的模型可以是概率模型或非概率模型,由条件概率分布 P(Y | X)决策函数 Y = f(X) 表示,随具体学习方法而定.
  • 如果这个模型有很好的预测能力,训练样本输出 yi 和模型输出 f(xi) 之间的差就应该足够小,学习系统通过不断地尝试,选取最好的模型。

1.3 统计学习三要素

  • 模型:监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
  • 策略:有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型,统计学习的目标在于从假设空间中选取最优模型。
  • 算法:算法是指学习模型的具体计算方法。通常解析解不存在,这就需要用数值计算的方法求解。

下面详细介绍一下“策略”,首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

1.3.1 损失函数和风险函数

统计学习常用的损失函数有以下几种:0-1损失,平方损失,绝对损失函数,对数损失函数。

损失函数的期望是理论上模型 f(X) 关于联合分布 P(X, Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)

一方面根据期望风险最小学习模型要用到联合分布,另一方面联合分布又是未知的,所以监督学习就成为 一个病态问题(ill-formed problem)

模型 f(X) 关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical lost),记作 Remp。

期望风险 Rexp(f) 是模型关于联合分布的期望损失,经验风险 Remp(f) 是模型关于训练样本集的平均损失。根据大数定律,当样本容量 N 趋于无穷时,经验风险 Rexp(f) 趋于期望风险 Remp(f)。所以一个很自然的想法是用经验风险估计期望风险。但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化

1.3.2 经验风险最小化和结构风险最小化

经验风险最小化 (empirical risk minimization, ERM)的策略认为,经验风险最小的模型是最优的模型。根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题:
在这里插入图片描述
比如,极大似然估计 (maximum likelihood estimation) 就是经验风险最小化的一个例子。但是,样本容量很小时,经验风险最小化学习的效果就未必很好,会产生"过拟合(over-fitting)" 现象。

结构风险最小化(structure risk minimization, SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。
李航:统计学习方法 学习笔记 1 统计学习方法概论_第1张图片
比如,贝叶斯估计中的最大后验概率估计 (maximum posterior probability estimation, MAP) 就是结构风险最小化的一个例子。

1.4 模型评估与模型选择

  • 统计学习方法具体采用的损失函数(学习时)未必是评估时使用的损失函数。当然,让两者一致是比较理想的。
  • 假设学习到的模型是 y=f-hat(X) ,则训练误差是模型 y=f-hat(X) 关于训练数据集的平均损失。测试误差是模型 y=f-hat(X) 关于测试数据集的平均损失。
  • 例如,当损失函数是 0-1 损失时,测武误差就变成了常见的测试数据集上的误差率(error rate)。
    在这里插入图片描述
    关于过拟合与模型选择的例子,例 1.1 多项式拟合。文中对wj偏导的结果似乎有问题,参考 李航《统计学习方法》多项式函数拟合问题V2。
    李航:统计学习方法 学习笔记 1 统计学习方法概论_第2张图片

1.5 其他…

还有正则化交叉验证,模型泛化能力生成模型(如朴素贝叶斯和隐马尔科夫模型)与判别模型(k近邻、感知机、决策树和支持向量机),以及分类问题、标注问题(NLP里的词性标注)和回归问题的内容,知识点不一一细记,主要梳理一下疑问的地方。
李航:统计学习方法 学习笔记 1 统计学习方法概论_第3张图片
李航:统计学习方法 学习笔记 1 统计学习方法概论_第4张图片
李航:统计学习方法 学习笔记 1 统计学习方法概论_第5张图片
好奇上图中第一个不等式右边括号里为什么不是 1/N… 上图书中第1版的式1.27和式1.28有误,分子少了N^2,与分母N约掉后结果为N。
李航:统计学习方法 学习笔记 1 统计学习方法概论_第6张图片

你可能感兴趣的:(机器学习,算法)