经验风险最小化和结构风险最小化

 假设空间损失函数以及训练数据集确定的情况下,经验风险函数式就可以确定。经验风险最小化的策略认为,经验风险最小的模型是最优的模型。根据这一策略,按照经验风险最小化求解最优模型就是求解最优化问题:

     当样本容量足够大时,经验风险最小化能保证很好的学习效果,在现实中被广泛采用。比如,极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布损失函数是对数函数时经验风险最小化就等价于极大似然估计。但是,当样本空间很小是,经验风险最小化学习的效果就未必很好,会产生“过拟合(over-fitting)现象。

  结构风险最小化(structural risk minimization,SPM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度正则项(regularizer)或者罚项(penalty term)。在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义为:

  其中J(f)为模型的复杂度,是定义在假设空间F上的泛函(泛函(functional)通常是指一种定义域为函数,而值域为实数的“函数”。换句话说,就是从函数组成的一个向量空间到实数的一个映射。也就是说它的输入为函数,而输出为实数)。模型f越复杂,复杂度J(f)就越大;反之,模型f越简单,复杂度J(f)就越小。也就是说,复杂度表示了对复杂模型的惩罚。是系数,用于权衡经验风险和模型的复杂度。结构风险小需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

  比如,贝叶斯估计中的最大后验概率估计(maximum posteriorprobability,MAP)就是结构风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时结构风险最小化等价于最大后验概率估计

结构风险最小化的策略认为结构风险最小化的模型是最优的模型。所以求最优模型,就是求解最优化问题:

 

这样监督学习问题就变成了经验风险或者结构风险函数的最优化问题。这时经验风险或结构风险函数是最优化的目标函数。


你可能感兴趣的:(机器学习,深度学习)