《ESL》学习笔记-第二章 监督学习概述

文章目录

  • 变量的类型
    • 定量变量Y
    • 定性变量G
      • 分类
      • 举例
      • 编码方式
  • 两种最简单的估计模型
    • 线性模型(使用最小二乘估计)
      • 线性模型
      • 最小二乘的解
    • 聚类模型(使用最近邻估计)
      • k-NN模型(k近邻)
      • 模型含义
    • 两种模型的差异
  • 模型的类型
  • 统计决策论
    • 期望预测误差
    • 偏差-方差分解
  • 高维情况下的局部方法
    • 高维带来的问题
  • 结构化回归模型

变量的类型

定量变量Y

  • 举例:身高,体重
  • 编码方式:标量

定性变量G

分类

  • 有序定性变量
  • 无序定性变量

举例

  • 有序定性变量:物体体积定性描述(小,中,大);
  • 无序定性变量:物体的颜色(红,绿,蓝)

编码方式

  • 二类定性变量:0-1编码或者(-1)-1编码
  • 多类定性变量:独热编码(one-hot)——k类可以用一组k维向量表示,向量中只有某一维的值为1,其余为0,比如 ( 0 , 0 , 1 ) (0,0,1) (0,0,1)指示属性“大”, ( 0 , 1 , 0 ) (0,1,0) (0,1,0)指示属性“中”, ( 1 , 0 , 0 ) (1,0,0) (1,0,0)指示属性“小”。

两种最简单的估计模型

线性模型(使用最小二乘估计)

线性模型

假设输入向量为 x = ( x 1 ; x 2 ; . . . ; x n ) x=(x_1;x_2;...;x_n) x=(x1;x2;...;xn),设 x ^ = ( x ; 1 ) \hat x=(x;1) x^=(x;1),则预测的输出表示为:
y ^ = x ^ T β ^ \hat y=\hat x^T\hat \beta y^=x^Tβ^
β ^ \hat \beta β^为待估计参数。

最小二乘的解

β ^ = ( X T X ) − 1 X T y ⃗ \hat \beta=(X^TX)^{-1}X^T\vec y β^=(XTX)1XTy
问题:如何使用矩阵求导得到最小二乘的解?

聚类模型(使用最近邻估计)

k-NN模型(k近邻)

y ^ = 1 k ∑ x i ∈ N k ( x ) y i \hat y=\frac{1}{k}\sum_{x_i\in N_k(x)}y_i y^=k1xiNk(x)yi
当k=1时即为最近邻模型

模型含义

对应了特征空间的划分

  • 当k=1时,特征空间被划分为若干子空间,每个子空间包含且仅包含一个训练样本点,子空间内所有点的输出标记和训练样本点保持一致。
  • 当k>1时,特征空间的划分变得复杂,但还是运用邻域的思想。

两种模型的差异

  • 最小二乘模型比较稳定,但预测不准(方差小,偏差大)
  • 最近邻模型预测较准,但不稳定,易受训练集噪声干扰(方差大,偏差小)

模型的类型

  • 决策式:用决策函数 y = f ( x ) y=f(x) y=f(x)表征,上面介绍的两种模型均为决策式模型。
  • 生成式:用条件概率 f ( y ∣ x ) f(y|x) f(yx)表征,可以描述输入输出间更为复杂的依赖关系。

统计决策论

期望预测误差

L ( x ) L(x) L(x)表示损失函数,则期望预测误差表示为:
E P E ( f ) = E T [ L ( y − f ( x ) ) ] EPE(f)=E_T[L(y-f(x))] EPE(f)=ET[L(yf(x))]
E P E ( f ) EPE(f) EPE(f)是选择决策函数 f f f的重要判断依据

偏差-方差分解

当损失函数为平方损失函数时,预测问题为回归问题时, E P E ( f ) EPE(f) EPE(f)可以分解为偏差与方差之和。此时, E P E ( f ) EPE(f) EPE(f) M S E ( f ) MSE(f) MSE(f)(均分误差),并有
M S E ( x 0 ) = E T [ f ( x 0 ) − y ^ 0 ] 2 = E T [ y ^ 0 − E T ( y ^ 0 ) ] 2 + E T [ E T ( y ^ 0 ) − f ( x 0 ) ] 2 MSE(x_0)=E_T[f(x_0)-\hat y_0]^2=E_T[\hat y_0-E_T(\hat y_0)]^2+E_T[E_T(\hat y_0)-f(x_0)]^2 MSE(x0)=ET[f(x0)y^0]2=ET[y^0ET(y^0)]2+ET[ET(y^0)f(x0)]2
其中 f ( x ) f(x) f(x)表示真实函数,分解的两项中前者为方差,后者为偏差。

高维情况下的局部方法

高维带来的问题

  • 弱化了“邻域”的概念,使得邻域在单一维度下的表现不像邻域。(需要覆盖单一维度下足够大的跨度)
  • 使得靠近样本空间边界的样本点的比例增多
  • 容易造成样本空间的稀疏性
  • 使均分误差变大1

结构化回归模型

E P E ( f ) EPE(f) EPE(f)中引入表征结构复杂度的罚项,实际上是将对解空间模糊性的克服转换为对约束条件(罚项)的选择


  1. 均方误差可以分解为偏差和方差之和,在不同的情况下,起支配作用的对象不同,比如当真实函数用到输入数据的多维情况时,偏差容易起到支配作用;而当真实函数仅仅用到输入数据的少量维度时,方容易起到支配作用。 ↩︎

你可能感兴趣的:(《ESL》学习笔记-第二章 监督学习概述)