统计学习方法笔记--第一章统计学习方法概论

统计学习方法第一章笔记

赫尔伯特·西蒙曾经对学习下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”现在人们提到的机器学习就是统计机器学习。

统计学习包括监督学习(supervised learning)、非监督学习(unsupervisedlearning)、半监督学习(semi- supervised learning)和强化学习(reinforcement learning)。本书主要介绍监督学习。

基本概念

1.   输入空间,特征空间和输出空间

2.   联合概率分布

3.   假设空间

在学习的过程中,学习系统根据所给出的训练数据集,通过学习得到一个模型,表示为条件概率分布或者决策函数,来描述输入到输出的映射关系。

统计学习三要素

1.   模型(model)

2.   策略(strategy)

3.   算法(algorithm)

求解最优化问题的算法 
梯度下降法,牛顿法

训练误差和测试误差

     训练误差是模型关于训练数集的平均损失。测试误差是模型关于测试数集的平均损失。

过拟合

    在学习的过程中一味追求对训练数据的预测能力,使得对测试数据的预测能力下降。降低模型复杂度。

正则化和交叉验证

正则化项可以是模型向量参数的范数。模型参数向量的L0范数、L1范数、L2范数、迹范数。

范数规则化L0L1L2范数描述的很精彩。

来自http://blog.csdn.net/zouxy09/article/details/24971995

简单交叉验证

S折交叉验证

留一交叉验证

泛化能力

该方法学习到的模型对未知数据的预测能力

生成模型与判别模型

生成模型表示了给定输入X产生输出Y的生成关系。典型生成模型有:朴素贝叶斯和隐马尔科夫链。

判别问题关心的是给定一个输入X,预测出什么样的输出Y。

 

输入变量X

输出变量Y

分类问题

离散或连续

有限个离散变量

标注问题

变量序列

变量序列

回归问题

连续变量

连续变量

你可能感兴趣的:(机器学习)