《统计学习方法》书摘1

第1章 统计学习方法概要

写在前面:该系列博客旨在复习和整理李航老师的《统计学习方法》一书的内容和笔记。一般分为两个部分,其一是对《方法》各个章节后的概要与习题的回顾,其二是自己对于结构的梳理或一些相关延伸。

本章概要

  1. 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。
  2. 统计学习方法三要素——模型、策略、算法,对理解统计学习方法起到提纲挈领的作用。
  3. 本书主要讨论监督学习,监督学习可以概括如下:从给定有限的训练数据出发,假设数据是独立同分布的,而且建设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及位置测试数据在给定评价标准意义下有最准确的预测。
  4. 统计学习中,进行模型选择或者或提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差,就可能产生过拟合现象。模型选择的方法有正则化与交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。
  5. 分类问题、标注问题和回归问题都是监督学习的重要问题。本书中介绍的统计学习方法包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔科夫模型和条件随机场。这些方法是主要的分类、标注以及回归方法。它们又可以归类为生成方法与判别方法。

章节框架

《统计学习方法》书摘1_第1张图片

遗留问题

Q:P16 在讨论泛化误差上界得时候,提到其与样本的容量相关,当样本容量N趋于无穷时趋于0。难道不考虑抽样偏差吗?

A:N趋于无穷的话,即基本覆盖全部样本了,就不存在抽样偏差的讨论了。

你可能感兴趣的:(生活,统计学习方法)