统计学习方法-李航(2)

统计学习方法-李航(第一章2)

  • 如何对经验风险进行矫正
    • 经验风险最小化(ERM)
    • 缺点
    • 结构风险最小化
    • 极大似然估计和贝叶斯估计(PR)
      • 极大似然估计
      • 贝叶斯估计

如何对经验风险进行矫正

在现实中,由于训练样本数目有限,甚至很小,所以用经验风险估计期望风险往往不理想,要对经验风险进行一定的矫正。这就关系到监督学习的两个策略:经验风险最小化和结构风险最小化。

经验风险最小化(ERM)

经验风险最小的模型就是最优的模型
m i n 1 N ∑ i = 1 N L ( y i , f ( x i ) ) min \frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)) minN1i=1NL(yi,f(xi))
其中, F F F是假设空间。
在样本容量足够大时,经验风险最小化能保证很好的学习效果。比如:极大似然估计。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

缺点

当样本容量很小时,经验风险最小化学习的效果未必好,会产生过拟合(ove-fitting)

结构风险最小化

是为了防止过拟合而提出的,结构风险最小化等价于正则化。
结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。
R s r m = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) Rsrm=N1i=1NL(yi,f(xi))+λJ(f)
其中 J ( f ) J(f) J(f)是模型的复杂度,是定义在假设空间 F F F上的泛函。模型 f f f越复杂,复杂度 J ( f ) J(f) J(f)越大。 λ ≥ 0 \lambda\ge0 λ0是系数,用以权衡经验风险和模型的复杂度。
贝叶斯估计中的最大后验概率就是结构风险最小化的一个例子。当模型是条件概率分布、损失函数是对数函数、模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。
结构风险最小化模型是最优的模型。
m i n 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) min \frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) minN1i=1NL(yi,f(xi))+λJ(f)
这时,监督学习问题就变成了经验风险或结构风险函数的最优化问题。

极大似然估计和贝叶斯估计(PR)

极大似然估计

统计学习方法-李航(2)_第1张图片

贝叶斯估计

统计学习方法-李航(2)_第2张图片

你可能感兴趣的:(统计学习方法-李航)