李航-第1章统计学习方法概论

统计学习方法的三要素:模型、策略和算法。即:统计学习方法 = 模型 + 策略 +算法

基本概念
  • 监督学习
    统计学习包括监督学习,半监督学习,半监督学习及强化学习。
    监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出作出一个好的预测(注意,这里的输入、输出是指某个系统的输入与输出,与学习的输入和输出不同)

  • 输入空间、特征空间与输出空间
    在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。
    每个具体的一个输入是一个实例,通常由特征向量表示。这时,所有特征向量存在的空间称为特征空间。

  • 回归问题、分类问题与标注问题
    人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:
    输入变量与输出变量均为连续变量的预测问题称为回归问题,
    输出变量为有限个离散变量的预测问题称为分类问题,
    输入变量与输出变量均为变量序列的预测问题称为标注问题。

  • 损失函数和风险函数
    损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

    李航-第1章统计学习方法概论_第1张图片
    损失函数.jpg

李航-第1章统计学习方法概论_第2张图片
风险函数.jpg
过拟合及模型选择

过拟合是指学习时选择的模型所包含的参数过多(也就是模型过复杂),以至于出现这一模型对已知数据预测得很好,但对未知数据预测很差的现象。


李航-第1章统计学习方法概论_第3张图片
训练误差测试误差与模型复杂度.jpg

在学习时为了防止过拟合,需要进行最优的模型选择,即选择复杂度适当的模型,以使测试误差最小。常用模型选择的方法有:正则化和交叉验证。

  • 正则化
    正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。正则化的作用是选择经验风险与模型复杂度同时小的模型。
  • 交叉验证
    交叉验证的基本想法是重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复进行训练、测试以及模型选择。
    交叉验证的方法有:简单交叉验证、S折交叉验证和留一交叉验证。
  • 泛化误差
    学习方法的泛化能力,是指该学习方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
生成模型和判别模型
李航-第1章统计学习方法概论_第4张图片
生成模型.jpg
李航-第1章统计学习方法概论_第5张图片
判别模型.jpg
分类器性能评估指标(精确率、召回率、F值)
李航-第1章统计学习方法概论_第6张图片
性能评价指标.jpg

参考链接:
作者李航博士新浪博客,统计学习方法勘误表
机器学习中的范数规则化之(一)L0、L1与L2范数
0 范数、1 范数、2 范数有什么区别?
statistical-learning-method-by-Hang-Li
机器学习-联合概率分布笔记
ROC和AUC介绍以及如何计算AUC
机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率
李宏毅机器学习(2017)
机器学习(Machine Learning)- 吴恩达(Andrew Ng)

你可能感兴趣的:(李航-第1章统计学习方法概论)