《统计学习方法》(李航)第二版第一章总结

导读

第一章是对统计学习中的基本思想、基本概念、以及常见问题类型的介绍。其中涉及的一些特定技术不用深究。需要重点理解的内容是模型过拟合的含义、模型泛化能力两部分。另外需要通过习题熟悉极大似然估计和贝叶斯两个估计方法。

本章概要的5点内容

  • 统计学习包括监督学习、无监督学习和强化学习。
  • 统计学习方法三要素:模型、策略、算法。
  • 监督学习可以概括如下:从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。
  • 模型选择或提高学习的泛化能力很重要,若单纯减少训练误差,就可能产生过拟合。模型选择的方法有正则化和交叉验证。
  • 监督学习包括分类问题、标准问题和回归问题。它们可以归类为生成方法和判别方法。

理解模型过拟合产生的原因及影响

我们希望在假设空间中学习到的模型逼近真实模型,具体地,所选择的模型参数向量与真模型的参数向量相近。但若一味提高对训练数据的预测能力,所选的模型复杂度往往比真模型更高。这种现象称为过拟合。过拟合对未知数据预测很差。

理解机器学习的评价标准

泛化能力:现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。此处有个定理1.1泛化误差上界。
《统计学习方法》(李航)第二版第一章总结_第1张图片
《统计学习方法》(李航)第二版第一章总结_第2张图片

极大似然估计和贝叶斯估计

《统计学习方法》(李航)第二版第一章总结_第3张图片

你可能感兴趣的:(啃书)