《统计学习方法》读书笔记一

今天开始学习李航老师的统计学习方法一书,在学习过程中,一些比较重要或值得探讨的点会写成博客,与大家分享或共同讨论。

  1. 统计学习方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习主要由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。
  2. 统计学习方法三要素:模型(模型的假设空间)、策略(模型选择的准则)、算法(模型学习的算法)。
  3. 监督学习的任务是通过给定的数据的键值对学习一个模型,使得模型能够对任意给定的输入,对其相应的输入做出一个好的预测。
    1. 在监督学习中,根据输入输出变量的不同类型,将预测任务分为以下几种:
      1. 回归问题:输入、输出变量均为连续变量
      2. 分类问题:输出变量为有限个离散变量
      3. 标注问题:输入变量与输出变量均为变量序列
  4. 损失函数:又称代价函数,用来度量预测错误的程度。损失函数是f(X)和Y的非负实值函数,记作L(Y,f(X))。
    1. 其常见的损失函数有以下几种。
      1. 0-1损失函数
      2. 平方损失函数
      3. 绝对损失函数
      4. 对数损失函数(对数似然损失函数)
    2. 一般来说,损失函数值越小,模型就越好。
    3. 损失函数的期望(又称为风险函数或期望损失)
      1. 其中,X、Y是随机变量,P(X,Y)是X与Y的联合分布
    4. 模型学习的目标就是选择期望风险最小的模型。
    5. 因为一方面期望风险最小学习模型要用到联合分布,而另一反面联合分布是未知的,所以监督学习称为了一个病态问题。
    6. 我们可以使用经验风险最小化或结构风险最小化来解决病态问题。
      1. 经验风险最小化
        1. 当样本容量足够大时,他能保证很好的学习效果。
        2. 当样本量较小是,容易产生‘过拟合’现象。
      2. 结构风险最小化
        1. 它是为了防止过拟合而提出的策略。
        2. 其中J(f)为模型的复杂度,即f越复杂,J(f)值就越大;λ是系数,大于等于0,用来权衡经验风险和模型复杂度。
  5. 过拟合:指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知的数据(即训练集中的数据)预测的很好,但对未知的数据(及测试集中的数据)预测的很差的现象。
    1. 使用模型选择旨在避免过拟合并提高模型的预测能力。
    2. 模型选择时,即要考虑对已知数据的预测能力,而且要考虑对未知数据的预测能力。
    3. 常见的模型选择方法:
      1. 正则化一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。正则化符合奥卡姆剃刀原理:在所有可能选择的模型中,能够很好地解释一直数据并且十分简单才是最好的模型,也就是应该选择的模型。
      2. 交叉验证:当样本充足时,随机将样本数据切分成三部分,分别是训练集、验证集、测试集。
        1. 交叉验证的基本思想是重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择。
        2. 简单交叉验证:用训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
        3. S折交叉验证:随机将已给数据分为S个互不相交、大小相同哦的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S中选择重复进行;最后选出S次评测中平均测试误差最小的模型。
        4. 留一交叉验证:S折交叉验证的特殊情况,S=n。这种方式常常在数据缺乏的情况下使用。
  6. 泛化能力:指由该方法学习到的模型对未知数据的预测能力。用模型对未知数据预测的误差即泛化误差。
  7. 监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出的预测称为分类。可能的输出称为类。
    1. 一般评判一个分类器性能的指标是分类准确率。
    2. 二分类问题常用的分类指标是精确率与召回率。
      1. 《统计学习方法》读书笔记一_第1张图片
      2. 此外还有F1值,是精确率和召回率的调和均值。
  8. 可用于分类问题的模型有:k近邻法、感知机、朴素贝叶斯法、局册数、决策列表、逻辑回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、winnow等。
  9. 标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。
  10. 回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入标量和输出变量之间关系的类型及模型的类型,分为线性回归和非线性回归。回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法求解。

你可能感兴趣的:(读书笔记,机器学习)