花书《深度学习》《Deep Learning》学习笔记chapter 5 (1)

5.1 学习算法

5.1.1 任务，T

常见机器学习任务列举：分类，输入缺失分类，回归，转录，机器翻译，结构化输出，异常检测，合成和采样，缺失值填补，去噪，密度估计或概率分布律函数估计

5.1.2 性能度量，P

5.1.3 经验，E

机器学习算法分为:无监督 (unsupervised) 和监督 (supervised)

5.1.4 实例:线性回归

任务T-->线性函数:
度量P-->均方误差 (mean squared error)
MSE =
argminMSE:
$\nabla _{ w }MSE_{ train }=0\\ \Rightarrow \nabla _{ w }\frac { 1 }{ m } ||\overset { \wedge }{ y } -y||=0\\ \Rightarrow \nabla _{ w }\frac { 1 }{ m } ||Xw-y||=0\\ \Rightarrow \nabla _{ w }(Xw-y)^{ T }(Xw-y)=0\\ \Rightarrow 2X^{ T }(Xw-y)=0\\ \Rightarrow w=(X^{ T }X)^{ -1 }X^{ T }y$

5.2 容量，过拟合和欠拟合

模型的容量(capacity)是指其拟合各种函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会过拟合，因为记住了不适用于测试集的训练集性质。

容量和误差之间的典型关系。训练误差和测试误差表现得非常不同。在图的左端，训练误差和泛化误差都非常高。这是欠拟合期 (underfitting regime)。当我们增加容量时，训练误差减小，但是训练误差和泛化误差之间的间距却不断扩大。最终，这个间距的大小超过了训练误差的下降，我们进入到了过拟合期 (overfitting regime)，其中容量过大，超过了最佳容量 (optimal capacity)。

提高机器学习模型泛化。奥卡姆剃刀 (Occam’s razor)。该原则指出，在同样能够解释已知观测现象的假设中，应该挑选 ‘‘最简单’’ 的那一个。

5.2.1 没有免费午餐定理

机器学习的没有免费午餐定理 (no free lunch theorem)表明，在所有可能的数据生成分布上平均，每一个分类算法在未事先观测的点上都有相同的错误率。换言之，在某种意义上，没有一个机器学习算法总是比其他的要好。什么样的学习算法在我们关注的数据生成分布上效果最好。

5.2.2 正则化

训练集大小对训练误差，测试误差以及最佳容量的影响。通过给一个 5 阶多项式添加适当大小的噪声，我们构造了一个合成的回归问题，生成单个测试集，然后生成一些不同尺寸的训练集。为了描述%95 置信区间的误差条，对于每一个尺寸，我们生成了 40 个不同的训练集。(上) 两个不同的模型上训练集和测试集的MSE，一个二次模型，另一个模型的阶数通过最小化测试误差来选择。两个模型都是用闭式解来拟合。对于二次模型来说，当训练集增加时训练误差也随之增大。这是由于越大的数据集越难以拟合。同时，测试误差随之减小，因为关于训练数据的不正确的假设越来越少。二次模型的容量并不足以解决这个问题，所以它的测试误差趋近于一个较高的值。最佳容量点处的测试误差趋近于贝叶斯误差。训练误差可以低于贝叶斯误差，因为训练算法有能力记住训练集中特定的样本。当训练集趋向于无穷大时，任何固定容量的模型(在这里指的是二次模型)的训练误差都至少增至贝叶斯误差。(下)当训练集大小增大时，最佳容量(在这里是用最优多项式回归器的阶数衡量的)也会随之增大。最佳容量在达到足够捕捉模型复杂度之后就不再增长了。

上图是举例了通过增加或减少学习算法可选假设空间（上图通过增加或减少多项式的次数）的函数来增加或减少模型的容量。除此之外，算法也取决于这些函数的具体形式。例如针对线性回归，可以加入权重衰减 (weight decay)来修改线性回归的训练标准。带权重衰减的线性回归最小化，训练集上的均方误差和正则项的和 J(w)，偏好于平方 L2 范数较小的权重。

控制偏好小范数权重的程度。越大的 λ 偏好范数越小的权重。

如第一张图所示，我们使用高阶多项式回归模型来拟合图中训练样本。真实函数是二次的，但是在这里我们只使用 9 阶多项式。我们通过改变权重衰减的量来避免高阶模型的过拟合问题。(左)当 λ 非常大时，我们可以强迫模型学习到了一个没有斜率的函数。由于它只能表示一个常数函数，所以会导致欠拟合。(中)取一个适当的 λ 时，学习算法能够用一个正常的形状来恢复曲率。即使模型能够用更复杂的形状来来表示函数，权重衰减鼓励用一个带有更小参数的更简单的模型来描述它。(右)当权重衰减趋近于 0(即，使用Moore-Penrose 伪逆来解这个带有最小正则化的欠定问题)时，这个 9 阶多项式会导致严重的过拟合，这和我们在图中看到的一样。

5.3 超参数和验证集

如5.2中所示的多项式回归实例中，有一个超参数:多项式的次数，作为容量超参数。控制权重衰减程度的 λ 是另一个超参数。

5.3.1 交叉验证

k-折交叉验证算法

5.4 估计，偏差和方差

5.4.1 点估计

点估计 (point estimator):参数的点估计为

函数估计:模型估计去近似 f

5.4.2 偏差

定义:，无偏 (unbiased):

伯努利分布:,是参数的无偏估计

高斯分布:,即

样本均值是高斯均值参数的无偏估计量

样本方差是参数的有偏估计，即，从此式可以得到的无偏样本方差 (unbiased sample variance)估计：

Tips:有两个估计量:一个是有偏的，另一个是无偏的。尽管无偏估计显然是可
取的，但它并不总是 ‘‘最好’’ 的估计。我们将看到，经常会使用其他具有重要性质的有偏估计。

5.4.4 权衡偏值和方差以最小化均方误差

均方误差 (mean squared error,MSE):

偏差和方差的关系和机器学习容量，欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差(偏差和方差对于泛化误差都是有意义的)时，增加容量会增加方差，降低偏差。

当容量增大(x 轴)时，偏差(用点表示)随之减小，而方差(虚线)随之增大，使得泛化误差(加粗曲线)产生了另一种 U 形。如果我们沿着轴改变容量，会发现最佳容量，当容量小于最佳容量会呈现欠拟合，大于时导致过拟合。

5.4.5 一致性

一致性保证了估计量的偏差会随数据样本数目的增多而减少。

5.5 最大似然估计

一组含有m个样本的数据集,独立地由真正但未知的数据生成分布生成。让是一族由 θ 确定在相同空间上的概率分布。换言之，将任意输入x映射到实数去估计真实概率。

θ 的最大后验估计被定义为:

比较经验分布和模型分布之间的差异，可以通过KL散度度量，定义:

左边一项仅涉及到数据生成过程，和模型无关。表明最小化KL散度和最大化后验概率是一样的。

最小化 KL 散度其实就是在最小化分布之间的交叉熵。许多作者使用术语 ‘‘交
叉熵’’ 特定表示伯努利或 softmax 分布的负对数似然，但那是用词不当的。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如，均方误差是经验分布和高斯模型之间的交叉熵。

5.5.1 条件对数似然和均方误差

最大似然估计很容易扩展到估计条件概率 P (y | x; θ)，给定 x 预测 y。

如果 X 表示所有的输入，Y 表示我们观测到的目标，那么条件最大似然估计是,

实例:线性回归作为最大似然

假设,样本独立同分布，条件对数似然如下：

5.5.2 最大似然的性质

在合适的条件下，最大似然估计具有一致性(参考第5.4.5节)，意味着训练样本数目趋向于无限大时，参数的最大似然估计收敛到参数的真实值。这些条件是:

真实分布必须在模型族中。否则，没有估计可以表示。
真实分布必须刚好对应一个值。否则，最大似然学习恢复出真实分布
后，也不能决定数据生成过程使用哪个。

5.6 贝叶斯统计

贝叶斯统计 (Bayesian statistics):贝叶斯用概率反映知识状态的确定性程度。数据集能够直接观测到，因此不是随机的。另一方面，真实参数θ是未知或不确定的。因此可以表示成随机变量。
通俗的理解，就是贝叶斯统计会考虑参数的所有分布，而不是W的一个最优化的值。最常使用的还是对参数的单点估计。
实例:贝叶斯线性回归
书中的推导一开始看起来不是很友好，以下几个链接可供参考，：
https://blog.csdn.net/daunxx/article/details/51725086
https://www.zhihu.com/question/22007264
https://zhuanlan.zhihu.com/p/21598595
https://www.jiqizhixin.com/articles/2018-04-25-3
http://blog.sciencenet.cn/blog-3189881-1140129.html
https://cloud.tencent.com/developer/article/1097341
https://www.cnblogs.com/leezx/p/8721645.html

对比下最大似然估计，最大后验估计，贝叶斯统计：

最大似然估计和最大后验估计都是属于点估计，但最大后验估计会假设参数服从某一分布。假设参数服从高斯分布，就相当于我们对目标函数加上L2范数；假设参数服从拉普拉斯分布，则是加上L1范数。

贝叶斯统计则会考虑参数的整个分布。从理论上看，贝叶斯统计相比于最大后验估计更准确，但缺点在于贝叶斯统计计算更加复杂。实际上，数据量越大，参数的先验影响就会变小，模型的不确定性程度会降低。