2. Statistical Learning

Statistical Learning

什么是统计学习

建立 X X X Y Y Y 的关系,通常可以写为: Y = f ( X ) + ϵ Y=f(X)+\epsilon Y=f(X)+ϵ 其中 ϵ \epsilon ϵ 是独立于 X X X 均值为0的随机误差项。我们通过数据,确定 f f f

为什么评估 f f f

估计函数 f f f 可用于预测和推断

  • 预测

    假设 f ^ \hat{f} f^ X X X 都是确定的,那么唯一的变量来自于 ϵ \epsilon ϵ

    E ( Y − Y ^ ) 2 = E [ f ( X ) + ϵ − f ^ ( X ) ] 2 = [ f ( X ) − f ^ ( X ) ] 2 ⏟ Reducible  + Var ⁡ ( ϵ ) ⏟ Irreducible  \begin{aligned}\mathrm{E}(Y-\hat{Y})^{2} & =\mathrm{E}[f(X)+\epsilon-\hat{f}(X)]^{2} \\& =\underbrace{[f(X)-\hat{f}(X)]^{2}}_{\text {Reducible }}+\underbrace{\operatorname{Var}(\epsilon)}_{\text {Irreducible }}\end{aligned} E(YY^)2=E[f(X)+ϵf^(X)]2=Reducible  [f(X)f^(X)]2+Irreducible  Var(ϵ)

    其中 V a r ( ϵ ) Var(\epsilon) Var(ϵ) 表示与误差项 ϵ \epsilon ϵ 相关的方差

如何估计 f f f

  • 参数法 parametric methods

    1. f f f 的形式进行假设(例如假设为线性回归 f ( X ) = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p f(X)=\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\cdots+\beta_{p} X_{p} f(X)=β0+β1X1+β2X2++βpXp
    2. 使用训练数据进行模型拟合

    线性回归模型一般使用最小二乘法来拟合,

    参数法的潜在缺点是,我们选择的模型与 f f f 的真实形式不匹配,可以通过选择灵活的模型来解决这个问题,但越复杂越灵活的模型会引起过拟合问题。

  • 非参数法 Non-parametric methods

    • 非参数法对函数形式没有做出明确的假设
    • 非参数法避免对 f f f 的特定函数形式的假设,可能精确地确定 f f f 的更广泛的形式
    • 由于没有对估计的问题简化为少量的参数,因此需要非常多的观测值(远远超过参数法)才能得到 f f f 的准确估计

预测精度与模型可解释性之间的权衡

  • 如果目的是为了推论(inference)限制性的模型会有更多的解释性。而复杂的模型估计很难理解单个自变量与因变量的关联。
  • 当我们目标是推断时,使用简单且相对不灵活的统计学习方法有明显的优势

评估模型精准度

统计中没有免费的午餐:在所有可能的数据集上,没有一种方法可以支配所有其他方法。 在特定的数据集上,一种特定的方法可能效果最好,但另一种方法可能在相似但不同的数据集上效果更好。

测定拟合质量

  • 在回归设定中,最常用指标的是均方误差( mean squared error ,MSE)

    M S E = 1 n ∑ i = 1 n ( y i − f ^ ( x i ) ) 2 M S E=\frac{1}{n} \sum_{i=1}^{n}\left(y_{i}-\hat{f}\left(x_{i}\right)\right)^{2} MSE=n1i=1n(yif^(xi))2

    该指标可用于在训练数据集上拟合模型

    在测试集上,选择模型时可使用平均平方(average squared

    A v e ( y 0 − f ^ ( x 0 ) ) 2 Ave({y_0}-\hat{f}({x_0}))^2 Ave(y0f^(x0))2

    • 如何选择模型?

      有测试集时,选择测试集上平均平方和训练集上均方误差都小的
      没有测试集时,选择均方误差小的

    在书中图2.9显示,随着模型灵活性的增加,训练的MSE单调下降,测试的MSE程U型。即随着模型灵活性增加,训练MSE会降低,但测试的MSE可能不会

    当某个模型下,训练MSE较小,测试MSE较大时,称之为模型过拟合,即该模型只是由随即机会引起,而不是未知函数 f f f 的真实性质引起的

    无论是否过拟合,我们都期望训练MSE小于测试MSE

偏方差权衡

对于给定的 x 0 x_0 x0 ,期望的测试MSE总是可以分解为三个基本量的和: f ^ ( x 0 ) \hat{f}(x_0) f^(x0) 的方差, f ^ ( x 0 ) \hat{f}(x_0) f^(x0) 偏差的平方,误差的方差

E ( y 0 − f ^ ( x 0 ) ) 2 = Var ⁡ ( f ^ ( x 0 ) ) + [ Bias ⁡ ( f ^ ( x 0 ) ) ] 2 + Var ⁡ ( ϵ ) E\left(y_{0}-\hat{f}\left(x_{0}\right)\right)^{2}=\operatorname{Var}\left(\hat{f}\left(x_{0}\right)\right)+\left[\operatorname{Bias}\left(\hat{f}\left(x_{0}\right)\right)\right]^{2}+\operatorname{Var}(\epsilon) E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ϵ)

为了最小化期望的测试误差,需要选择同时实现低方差和低偏差的统计方法。期望的测试MSE不可能低于不可约误差 V a r ( ϵ ) Var(\epsilon) Var(ϵ)

方差:使用不同训练数据估计 f ^ \hat{f} f^ f ^ \hat{f} f^ 的该变量,理想情况下, f ^ \hat{f} f^ 的估计值在不同训练集之间变化不大。而一种方法由较高的方差,那么训练数据集的微小变化就会导致 f ^ \hat{f} f^ 的较大变化。越灵活的方法具有更高的方差
偏差:通过一个简单模型来近似一个复杂问题而引入的误差。一般来说

分类情况

定性问题中,例如分类问题,量化 f f f 准确性的常用方法是训练错误率

1 n ∑ i = 1 n I ( y i ≠ y i ^ ) \frac{1}{n}\sum_{i=1}^{n}I(y_i\neq\hat{y_i}) n1i=1nI(yi=yi^)

测试错误率: A v e ( I ( y 0 ≠ y 0 ^ ) ) Ave(I(y_0\neq\hat{y_0})) Ave(I(y0=y0^))be

  • 贝叶斯分类

    Pr ⁡ ( Y = j ∣ X = x 0 ) \operatorname{Pr}\left(Y=j \mid X=x_{0}\right) Pr(Y=jX=x0) 已知 Y 的条件分布,给定 X X X 求出 Y i Y_i Yi 的概率,选择概率最大的为 X X X 的类

    贝叶斯分类器产生尽可能低的测试错误率,称为贝叶斯错误率。 由于贝叶斯分类器将始终选择 错误率最大的类,错误率为

    1 − E ( max ⁡ j Pr ⁡ ( Y = j ∣ X ) ) 1-E\left(\max _{j} \operatorname{Pr}(Y=j \mid X)\right) 1E(maxjPr(Y=jX))

    贝叶斯误差率类似于前面讨论的不可约误差

    许多方法试图在给定 X X X 的情况下估计 Y Y Y 的条件分布,然后将给定的观测分类到估计概率最高的类。其中一种方法是K近邻( KNN )分类。

你可能感兴趣的:(ISL,人工智能,python)