统计学习方法-李航(笔记整理)一

1、特点

统计学习以数据为研究对象(数据驱动),以方法为中心,目的是为了对数据进行预测与分析。

2、方法

统计学习包括监督学习,非监督学习,半监督学习,强化学习。(以监督学习为主进行介绍)

统计学习的方法包括模型的假设空间、模型选择的准则以及模型学习的方法。

统计学习方法三要素:模型,策略,算法

统计学习方法步骤:

  1. 得到一个有限训练数据集
  2. 确定包含所有可能的模型假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的方法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测与分析

监督学习

其任务是学习一个模型,使模型能够对于任意给定的输入,对其对用的输出做出一个好的预测(此处的输入输出为系统的输入输出,与学习的输入输出不同)


统计学习三要素

方法=模型+策略+算法

统计学习首要考虑的问题是学习什么样的模型,接着考虑按照什么样的准则学习或选择最优的模型。

策略:用经验风险估计期望风险。经验风险是模型关于训练样本集的平均损失,期望风险是模型关于联合分布的期望损失。但是经验风险估计期望风险往往不理想,要对经验风险进行矫正,这关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。


模型评估与选择

方法:正则化和交叉验证

正则化:在经验风险上加正则化项

交叉验证(在数据不充足时使用):当数据充足时,将数据随机分为训练集(训练模型)、验证集(选择模型)、测试集(评估最终的学习方法),选择对验证集有最小预测误差的模型。数据不充足时用交叉验证,基本思想为重复利用数据。


泛化能力

泛化误差是所学习到的模型的期望误差。

泛化误差上界:通过比较两种学习方法的泛化误差上界的大小来比较优劣。泛化误差上界有以下性质:它是样本容量的函数,当样本容量增加时,泛化误差上界趋于0;它是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界就越大。


分类

分类是监督学习的一个核心问题。当输出变量去有限个离散值是,预测问题便成为分类问题(输入可以是离散的也可以是连续的)

分类问题分为学习和分类两个过程


回归

回归用于预测输入变量与输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量是值随之发生的变化。分为学习和预测两个过程

你可能感兴趣的:(统计学)