统计学习方法第一章笔记——统计学习方法概论

1 统计学习

1.1 统计学习的基本假设
  假设同类数据具有一定的统计规律性,即数据具有某种共同性质。
1.2 统计学习的目的
  统计学习用于对数据进行预测与分析,特别是新数据的预测与分析。
1.3 统计学习的方法
  主要有监督学习,非监督学习,半监督学习,强化学习。本书主要讨论监督学习。
1.4 统计学习三要素:模型、策略和算法。

2 监督学习

2.1 基本概念
  在监督学习中,将输入与输出所有可能的取值的集合称为输入空间和输入空间,通常输出空间远小于输入空间。
  每个具体的输入是一个实例,通常由特征向量表示,所有的特征向量存在的空间称为特征空间。
  监督学习从训练数据中学习模型,对测试数据进行预测。训练模型由输入输出对表示。输入输出对又被称为样本点。
2.2 联合概率分布
  监督学习假设输入与输出的随机变量 X Y 遵循联合概率分布 P(X,Y) ,训练数据与测试数据都遵循该分布存在。
2.3 假设空间
  监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间即学习范围。

3 统计学习三要素

3.1 模型
  模型即条件概率分布或决策函数,即输入空间到输出空间的集合。
3.2 策略
  策略:即选择确切模型的方法,一般由损失函数及期望风险函数决定。
  损失函数:即预测值与真实值的差距,通常有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。
  风险函数(期望损失)、经验风险最小化:损失函数的期望叫风险函数或期望损失,而在训练数据中计算的损失的期望则被称为经验损失或经验风险。使经验损失最小的策略叫经验风险最小化。
  结构风险最小化:由于在高维度情况下经验风险最小化的策略会发生“过拟合”现象,为了防止该现象,在经验损失函数的最后加上自变量是模型的泛函,并乘以系数,该项被称为正则化项或是罚项,这样的方法被称为结构风险最小化。
3.3 算法:即求解策略选择出的最优模型参数,是个求解最优化问题。

4 模型评估与模型选择

4.1 训练误差与测试误差:即分别在训练集合测试集上的误差。当两者近似时比较好。
4.2 过拟合与模型选择
  追求过高的维度会导致过拟合,故而应利用正则化选择合适的维度。

5 正则化与交叉验证

  正则化:如前所述,是策略的一种。
  交叉验证:即把数据切割为多份,分别反复充做训练集与测试集,并将结果的平均值作为最后的评估结果。

6 泛化能力

  即对于新的数据的预测能力。可计算泛化误差上界。

7 生成模型与判别模型

  生成模型是由数据学习联合分布P(X,Y),然后根据贝叶斯公式计算P(Y|X),判别模型则是直接学习决策函数f(X)或分布P(Y|X)。

8 分类问题

  当输出变量Y只有有限个取值时,该问题是分类问题。有如下评价指标:
  TP(true positive)——将正类预测为正类数;
  FN(false negative)——将正类预测为负类数;
  FP——将负类预测为正类数;
  TN——将负类预测为负类数;
  精确率 P=TPTP+FP ;召回率 R=TPTP+FN 2F1=1P+1R ,即P和R的调和均值,两者都高时 F1 也会高。

9 标注问题

  即输入的X是一个观测序列,输出的Y是一个分类序列,可以认为是分类问题的一个推广。

10 回归问题

  连续的分类问题叫回归问题。

你可能感兴趣的:(笔记)