统计学习基础内容

###概述###
统计学习: 即统计机器学习,往往指现在提及的机器学习

**统计学习目的:**通过已知数据,对未知数据进行预测和分析

统计学习类别: 监督学习(本书主要内容);非监督学习;半监督学习;强化学习等

统计学习三要素:模型;策略;算法
(以下内容主要讨论监督学习,对其我们从统计学习的三要素逐一展开)


###监督学习###

  1. 监督学习的相关问题
  • 分类问题
    相关实例:文本分类------大量的新闻报道、网页、电子邮件、学术论文需要归类为政治类、经济类、体育类等等;这就是一个分类问题。

  • 标注问题
    相关实例:信息抽取------从英文文章中抽取基本名词短语,为此,要对文章进行标注,标示出名次短语的开始单词和结束单词,以及其他类的单词;这属于一个标注问题。

  • 回归问题
    相关实例:股价预测------通过已知的某公司过去不同时间段的平均股票价格以及在该时间段可能影响该公司股价的相关信息,然后利用当前公司的一些相关信息,预测公司接下来的时间短里的平均股票价格;这是一个回归问题

  1. 监督学习的任务
    针对以上问题,可以知道监督学习的任务就是学习一个模型,使模型能够对任意给定的输入,对其输出做出一个好的预测。
    因此,解决监督学习问题就成了寻找一个模型的问题了。那么,什么是模型?

###模型###
在监督学习过程中,模型就是所要学习的条件概率分布(概率模型)或决策函数(非概率模型)。

  • 条件概率分布:
$ P(Y/X) $
- **决策函数:**
$ Y = f(X) $
其中 $X$ 和 $Y$ 是定义在输入空间和输出空间的随机变量,即对应的 $X$ 通过模型会给出预测 $Y$. 确定了模型后,我们面对的是如何从模型的所有函数集合中选取一个最优的函数来解决监督学习的问题,这就需要确定一个选取策略。

###策略###
在监督学习中,有两个基本策略:

  • 经验风险最小化
  • 结构风险最小化

为了解释以上策略,我们引入损失函数和风险函数的概念。

  1. 损失函数与风险函数
  • **损失函数(代价函数):**度量模型一次预测的好坏,有以下几类:
    - 0-1 损失函数


    L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X)) = \begin{cases} 1, & \text{$Y \neq f(X)$} \\[2ex] 0, & \text{$Y = f(X)$} \end{cases} L(Y,f(X))=1,0,Y=f(X)Y=f(X)

    - 平方损失函数

    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X)) = (Y-f(X))^2 L(Y,f(X))=(Yf(X))2

    - 绝对损失函数

    L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X)) = \lvert Y - f(X) \rvert L(Y,f(X))=Yf(X)

    - 对数损失函数

    L ( Y , P ( Y / X ) ) = − l o g P ( Y / X ) L(Y, P(Y/X)) = -logP(Y/X) L(Y,P(Y/X))=logP(Y/X)

    显而易见,损失函数值越小模型就越好。

  • **期望风险函数(期望损失):**度量平均意义下模型的好坏

$R_{exp}(f) = E_p[L(Y, f(X))] = \int L(y,f(x))P(x,y)dx dy$
模型的选取目标就是选取期望风险最小的模型,但 $P(X,Y)$ 是未知的,所以不能直接计算出模型的期望风险,因此需要寻找一个代替函数。
  • 经验风险函数(经验损失)

      给定一个训练数据集:
    
$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
其经验损失:$$R_{emp}(f) = \frac 1N \sum_{i=1}^NL(y_i,f(x_i))$$ 根据大数定理,当样本容量 $N$ 趋于无穷时,经验风险趋于期望风险,但现实的情况下,样本量有限,直接用经验风险估计期望风险常常并不理想,因此要对经验风险进行一定的矫正;这就关系到下面谈到的基本策略: 经验风险最小化与结构风险最小化。
  1. 经验风险最小化与结构风险最小化
  • 经验风险最小化(ERM): 其认为经验风险最小的模型就是最优模型。
    因此,求解最优模型就是求解最优化问题:
$$\min_{f \in \mathcal F} \frac 1N \sum_{i=1}^N L(y_i,f(x_i))$$ 其中$\mathcal F$ 是假设空间(即函数$f$ 的集合)
该策略在现实中被广泛使用,但如果样本容量太小时,就会发生“过拟合”现象。
  • 结构风险最小化(SRM): 为防止“过拟合”而提出的策略,等价于正则化;其认为结构风险最小化的模型就是最优模型。
    类似ERM,SRM:
$$\min_{f \in \mathcal F} \frac 1N \sum_{i=1}^N L(y_i,f(x_i)) + \lambda J(f)$$
其中$\mathcal F$ 是假设空间(即函数$f$ 的集合), $\lambda \ge 0$是系数,$J(f)$ 为模型复杂度。 这样,监督学习的问题就变成了经验风险或结构风险最小化的问题了。

算法

算法是指学习模型的具体计算方法。当监督学习的问题归结为最优化问题后,统计学习算法就成为了求解最优化问题的算法。
统计学习可以利用已有的最优化算法,也可以开发独自的最优化算法。


###模型评估与模型选择###
通过不同的统计学习方法会得到不同的模型,如何评估这些模型并选择最优模型是接下来需要解决的问题。
为了实现模型的评估,首先需要介绍一下训练误差与测试误差。

  1. 训练误差与测试误差
    假设学习到的模型是 Y = f ^ ( X ) Y = \widehat f (X) Y=f (X)

    • 训练误差是该模型关于训练数据集的平均损失:
      R e m p ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) R_{emp}(\widehat f) = \frac 1N \sum_{i=1}^NL(y_i,\widehat f(x_i)) Remp(f )=N1i=1NL(yi,f (xi))
    • 测试误差是该模型关于测试数据集的平均损失:
      e t e s t = 1 N ‘ ∑ i = 1 N ‘ L ( y i , f ^ ( x i ) ) e_{test}= \frac {1} {N^`} \sum_{i=1}^{N^`}L(y_i, \widehat f(x_i)) etest=N1i=1NL(yi,f (xi))
      显然,测试误差小的方法具有更好的预测能力。
  2. 过拟合
    过拟合是指学习时选择的模型所包含的参数过多,以致于这一模型对已知数据预测得很好,但对未知数据预测的很差的现象

  3. 模型选择
    在模型选择中,主要是要选择训练误差与测试误差都较小,且复杂度比较适当的模型。

    具体方法:

    • 正则化:
      其一般形式:
      min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min_{f \in \mathcal F} \frac 1N \sum_{i=1}^N L(y_i,f(x_i)) + \lambda J(f) fFminN1i=1NL(yi,f(xi))+λJ(f)
      由经验风险项和正则化项组成。
      正则化符合奥卡姆剃刀原理,即:在所有可能选择的模型中,能够很好的解释已知数据并且十分简单,才是最好的模型。

    • 交叉验证:

    1. 简单交叉验证
    2. S折交叉验证
    3. 留一交叉验证
      (具体内容可查资料)

###泛化能力###
统计学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。现实中大多采用测试误差来评价泛化能力。从理论上的分析在这就不一一记录了,具体的可以参考该书中内容。

你可能感兴趣的:(统计学习方法)