faranten

PRML 回归的线性模型

线性模型最简单的形式就是输入变量的线性模型，但是，将一组输入变量的非线性函数进行线性组合，我们可以得到一类更加有用的函数，本章我们的讨论重点就是输入变量的非线性函数的线性组合。

1 线性基函数

回归问题最简单的形式就是输入变量的线性函数，即

\[y(\mathbf x,\mathbf w)=w_0+w_1x_1+w_2x_2+\cdots+w_Dx_D \]

这称为线性回归（linear regression），更一般地

\[y(\mathbf x,\mathbf w)=w_0+\sum_{j=1}^{M-1}w_j\phi_j(\mathbf x) \]

其中\(\phi_j(\mathbf x)\)称为基函数（basis function），这是线性模型更一般的形式，具有更广泛的应用。参数\(w_0\)使数据中可以存在任意的偏置，故这个值通常称为偏置参数（bias parameter）。通常我们会定义\(\phi_0(\mathbf x)=1\)，那么此时

\[y(\mathbf x,\mathbf w)=\sum_{j=0}^{M-1}w_j\phi_j(\mathbf x)=\mathbf w^T\pmb\phi(\mathbf x) \]

其中\(\mathbf w=(w_0,\cdots,w_{M-1})^T\)，\(\pmb\phi(\mathbf x)=(\phi_0(\mathbf x),\cdots,\phi_{M-1}(\mathbf x))^T\)。

在PRML 基础知识一节中，我们曾经介绍过Polynomial Curve Fitting问题，那时的基函数即为\(\phi_j(x)=x^j\)，这属于多项式基函数，多项基函数在许多场合很有用，但是它的一个局限性在于：它们是输入变量的全局函数，因此输入空间中一个区域的改变会影响到所有其他区域，比如，在顺序学习过程中，当我们有一个新得到的数据点，那么原则上我们只需要修改与之相近的区域，但是在多项式基函数的例子中，新得到一个数据点将会影响到所有区域。另外，如果我们要建立的模型是分段的，那么多项式基函数就有很大的局限性。对于此处出现的问题，我们可以这样解决：把输入空间切分为多个小区域，并对每个小区域用不同的多项式函数拟合。这样的函数叫做样条函数（spline function）。

对于基函数还有其他选择，例如高斯基函数

\[\phi_j(x)=\text{exp}\{-\frac{(x-\mu_j)^2}{2s^2}\} \]

其中\(\mu_j\)控制了基函数在输入空间的位置，参数\(s\)控制了基函数的空间大小。注意，虽然此种基函数称为高斯基函数，但是它未必是一个归一化的概率表达式，其归一化系数并不重要，因为它将与一个调节参数\(w_j\)相乘。另一种基函数的例子是sigmoid基函数，即

\[\phi_j(x)=\sigma(\frac{x-\mu_j}{s}) \]

其中\(\sigma(x)\)是logistic sigmoid函数，在PRML 概率分布中4.1小节中我们已经见过这个函数，定义为\(\sigma(x)=\frac{1}{1+\text{exp}(-x)}\)，该函数是S函数（sigmoid function）的一个简单例子。因为我们已经证明S函数的另一个实例双曲正切（hyperbolic tangent）函数等价于logistic sigmoid函数的平移和缩放，即\(\tanh(x)=2\sigma(2x)-1\)，所以我们也可以选择双曲正切函数作为基函数。下图展示了上述三个基函数的直观图像，从左至右依次为：多项式基函数、高斯基函数、sigmoid基函数

基函数的选择实际上就是为了描述一个函数空间，根据所学知识，傅里叶（Fourier）函数可以描述任意的函数，因此，傅里叶基函数可以被选为基函数，这在信号处理领域是尤其重要的，这种研究产生了一类被称为小波（wavelet）的函数，为了简化应用，这些基函数被选为正交的。

在本章中，我们通常不会关注基函数的具体形式，除非特别说明。

1.1 极大似然与最小平方

对于一般的问题而言，极大似然方法与最小误差方法都是可行的思路，特别地，对于Polynomial Curve Fitting问题来说，就是极大似然与最小平方，现在来详细地讨论最小平方的方法与极大似然方法之间的关系。

假设目标变量\(t\)由两部分组成：模型\(y(\mathbf x,\mathbf w)\)和噪声\(\epsilon\)组成，其中噪声\(\epsilon\)符合高斯分布（均值为零，精度为\(\beta\)），即

\[t=y(\mathbf x,\mathbf w)+\epsilon \]

则有

\[p(t|\mathbf x,\mathbf w,\beta)=\mathcal N(t|y(\mathbf x,\mathbf w),\beta^{-1}) \]

从PRML 基础知识5.2小节中知道，当我们新输入一个\(\mathbf x\)的时候，为使平方损失函数最小，目标变量\(t\)的预测值应为

\[E(t|\mathbf x)=\int tp(t|\mathbf x)dt=y(\mathbf x,\mathbf w) \]

注意，噪声的假设说明，给定\(x\)的条件下，\(t\)的条件分布是单峰的，这对于⼀些实际应用来说是不合适的，后面一些章节将扩展到条件高斯分布的混合，那种情况下可以描述多峰的条件分布。

现在考虑一个输入数据集\(\mathbf X=\{\mathbf x_1\cdots,\mathbf x_N\}\)和对应的目标值\(\mathbf t=\{t_1,\cdots,t_N\}\)，于是有如下的似然函数

\[p(\mathbf t|\mathbf X,\mathbf w,\beta)=\prod_{n=1}^N\mathcal N(t_n|\mathbf w^T\pmb\phi(\mathbf x_n),\beta^{-1}) \]

在有监督学习（例如回归问题和分类问题）领域内，我们不是在寻找模型来对输入变量进行概率分布建模，因此\(\mathbf x\)总会出现在条件变量的位置上，因此此后不再在诸如\(p(\mathbf t|\mathbf x,\mathbf w,\beta)\)这类表达式中显式地写出\(\mathbf x\)。对上述似然函数取对数，得到

\[\begin{aligned} \ln p(\mathbf t|\mathbf w,\beta)&=\sum_{n=1}^N\ln\mathcal N(t_n|\mathbf w^T\pmb\phi(\mathbf x_n),\beta^{-1})\\ &=\sum_{n=1}^N\ln(\frac{1}{(2\pi\beta^{-1})^{1/2}}\text{exp}\{-\frac{(\mathbf x_n-\mathbf w^T\pmb\phi(\mathbf x_n))^2}{2\beta^{-1}}\})\\ &=\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi)-\beta E_D(\mathbf w) \end{aligned} \]

其中平方误差和函数为

\[E_D(\mathbf w)=\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2 \]

这样，我们就得到了一个重要的结论：当噪声符合高斯分布时，极大似然方法等价于最小化平方和误差函数方法，特别地，当我们添加一个惩罚项（以保证不会过拟合）的时候，该结论仍然成立，这在PRML 基础知识的2.3小节中出现过。下面用极大似然方法确定参数\(\mathbf w\)和\(\beta\)，上述对数似然函数对\(\mathbf w\)求偏导得到

\[\nabla\ln p(\mathbf t|\mathbf w,\beta)=\beta\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}\pmb\phi(\mathbf x_n)^T=0 \]

解得

\[\mathbf w_{ML}=(\mathbf\Phi^T\mathbf\Phi)^{-1}\mathbf\Phi^T\mathbf t \]

这被称为最小平方问题的规范方程（normal equation），其中\(\mathbf\Phi\)是一个\(N\times M\)的矩阵，被称为设计矩阵（design matrix）

\[\mathbf\Phi= \left( \begin{array} {cccc} \phi_0(\mathbf x_1) & \phi_1(\mathbf x_1) & \cdots & \phi_{M-1}(\mathbf x_1)\\ \phi_0(\mathbf x_2) & \phi_1(\mathbf x_2) & \cdots & \phi_{M-1}(\mathbf x_2)\\ \vdots & \vdots & & \vdots\\ \phi_0(\mathbf x_N) & \phi_1(\mathbf x_N) & \cdots & \phi_{M-1}(\mathbf x_N) \end{array} \right) \]

现令\(\mathbf\Phi^{\dagger}=(\mathbf\Phi^T\mathbf\Phi)^{-1}\mathbf\Phi^T\)，称为矩阵\(\mathbf\Phi\)的Moore-Penrose伪逆矩阵（pseudo-inverse matrix），可以视为逆矩阵概念对于非方阵的推广，如果矩阵\(\mathbf\Phi\)是方阵且可逆，那么有\(\mathbf\Phi^{-1}=\mathbf\Phi^{\dagger}\)。另外，当\(\mathbf\Phi^T\mathbf\Phi\)接近奇异矩阵时，直接求解规范方程会导致数值计算上的困难，此时可以通过奇异值分解（singular value decomposition or SVD）的方法解决。注意，正则项的添加确保了矩阵是非奇异的。

对于偏置参数\(w_0\)，如果我们显式地写出它，那么误差函数变为

\[E_D(\mathbf w)=\frac12\sum_{n=1}^N\{t_n-w_0-\sum_{j=1}^{M-1}w_j\phi_j(\mathbf x_n)\}^2 \]

令其关于\(w_0\)的导数为零，解得

\[w_0=\bar{t}-\sum_{j=1}^{M-1}w_j\bar{\phi_j}, \quad\bar{t}=\frac1N\sum_{n=1}^Nt_n, \quad\bar{\phi_j}=\frac1N\sum_{n=1}^N\phi_j(\mathbf x_n) \]

因此\(w_0\)的作用就是补偿了目标值的平均值与基函数的值的平均值的加权求和之间的差。

类似地，上述对数似然函数对\(\beta\)求偏导得到

\[\nabla\ln p(\mathbf t|\mathbf w,\beta)=\frac{N}{2\beta}-\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2=0 \]

解得

\[\frac{1}{\beta_{ML}}=\frac1N\sum_{n=1}^N\{t_n-\mathbf w_{ML}^T\pmb\phi(\mathbf x_n)\}^2 \]

因此我们看到噪声精度的倒数由目标值在回归函数周围的残留方差（residual variance）给出。

3.2 顺序学习

顺序学习在数据集非常大或者数据点依次到达的情况下非常有用，一个常用的方法是随机梯度下降（stochastic gradient descent）或者称为顺序梯度下降（sequential gradient descent）

\[\mathbf w^{(\tau+1)}=\mathbf w^{(\tau)}-\eta\nabla E_n \]

其中\(\tau\)表示迭代次数，\(\eta\)是学习率参数，\(E_n\)表示误差函数，对于平方和误差函数而言

\[\mathbf w^{(\tau+1)}=\mathbf w^{(\tau)}+\eta(t_n-\mathbf {w^{(\tau)}}^T\pmb\phi(\mathbf x_n))\pmb\phi(\mathbf x_n) \]

这和PRML 概率分布中3.9小节介绍的Robbins-Monro方法有相通的地方，该方法称为最小均方（least-mean-squares or LMS）算法，其中\(\eta\)的值需要仔细选取以保证收敛。

3.3 正则化最小平方

向误差函数中添加正则项，总误差函数变成了

\[\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2+\frac\lambda2\mathbf w^T\mathbf w \]

并给出如下定义

\[\begin{aligned} E_D(\mathbf w)&=\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2\\ E_W(\mathbf w)&=\frac12\mathbf w^T\mathbf w \end{aligned} \]

则可记总误差函数为\(E_D(\mathbf w)+\lambda E_W(\mathbf w)\)。注意，正则化项并不是唯一的，但其中最简单的形式就是\(\frac\lambda2\mathbf w^T\mathbf w\)。这种对于正则化项的选择方法在机器学习文献中称为权值衰减（weight decay），因为在顺序学习中，它倾向于让权值向零的方向衰减，除非有数据支持；在统计学中，它提供了一个参数收缩（parameter shrinkage）的例子，因为这种方法把参数的值向零的方向收缩。将上述总误差函数对\(\mathbf w\)求偏导并令其为零，解得

\[\mathbf w=(\lambda\mathbf I+\mathbf\Phi^T\mathbf\Phi)^{-1}\mathbf\Phi^T\mathbf t \]

这是\(\mathbf w_{ML}=(\mathbf\Phi^T\mathbf\Phi)^{-1}\mathbf\Phi^T\mathbf t\)的一个扩展。

正则化项可以选取其他形式，更一般地，总误差函数为

\[\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2+\frac\lambda2\sum_{j=1}^M|w_j|^q \]

其中\(q=1\)的情形称为套索（lasso），它的性质是：如果\(\lambda\)合理地大，那么某些系数\(w_j\)将会等于零，从而产生了一个稀疏（sparse）模型。我们注意到最小化上述的总误差函数等价于在\(\sum_{j=1}^M|w_j|^q\leq\eta\)（其中\(\eta\)是选取的合适的值）的条件下将\(\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2\)进行最小化，不妨令\(\sum_{j=1}^M|w_j|^q=\eta\)，那么这通过拉格朗日乘数法很容易求解。下面两幅图说明了\(q=1\)时稀疏性的来源

第一幅图给出了不同的\(q\)值对应的正则项的轮廓线，第二幅图中蓝色同心圆即为\(\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2\)等于不同值对应的图像，因此该图明确说明了当\(q=1\)时，解得的\(\mathbf w^*\)将会有某个\(w_j\)的数值为零。

3.4 多个目标变量

在实际应用中，我们可能想要预测\(K>1\)个变量，此时记要预测的目标变量为\(\mathbf t=(t_1,\cdots,t_K)^T\)，那么有两个思路处理此问题：一是对每个目标变量单独建模处理，二是引入一个整体的函数进行建模，即

\[\mathbf y(\mathbf x,\mathbf w)=\mathbf W^T\pmb\phi(\mathbf x) \]

其中\(\mathbf y(\mathbf x,\mathbf w)\)是一个\(K\)维列向量，\(\mathbf W\)是一个\(M\times K\)的参数矩阵，\(\pmb\phi(\mathbf x)\)是一个\(M\)维列向量，每个元素为\(\phi_j(\mathbf x)\)，并且\(\phi_0(\mathbf x)=1\)。如果我们令目标向量的条件概率分布是一个各向同性的高斯分布，则

\[p(\mathbf t|\mathbf x,\mathbf W,\beta)=\mathcal N(\mathbf t|\mathbf W^T\pmb\phi(\mathbf x),\beta^{-1}\mathbf I) \]

如果我们有观测数据集\(\mathbf T=(\mathbf t_1^T,\cdots,\mathbf t_N^T)^T\)，即该矩阵大小为\(N\times K\)，其中第\(n\)行为\(\mathbf t_n^T\)，并将输入向量类似地组合成\(\mathbf X=(\mathbf x_1^T,\cdots,\mathbf x_N^T)^T\)，那么对数似然函数为

\[\begin{aligned} \ln p(\mathbf T|\mathbf X,\mathbf W,\beta)&=\sum_{n=1}^N\ln\mathcal N(\mathbf t_n|\mathbf W^T\pmb\phi(\mathbf x_n),\beta^{-1}\mathbf I)\\ &=\frac{NK}{2}\ln(\frac{\beta}{2\pi})-\frac\beta2\sum_{n=1}^N||\mathbf t_n-\mathbf W^T\pmb\phi(\mathbf x_n)||^2 \end{aligned} \]

类似地可解出

\[\mathbf W_{ML}=(\mathbf\Phi^T\mathbf\Phi)^{-1}\mathbf\Phi^TT \]

该结果可以分解为

\[\mathbf w_k=(\mathbf\Phi^T\mathbf\Phi)^{-1}\mathbf\Phi^T\mathbf t_k=\mathbf\Phi^{\dagger}\mathbf t_k \]

因此不同的目标变量实际上是可以被分解出来的，伪逆矩阵\(\mathbf\Phi^{\dagger}\)是被所有目标变量所共享的，所以，单一目标变量的情形很容易扩展到多变量的情形。

2 偏置-方差分解

频率主义和贝叶斯主义看待模型复杂度的思路是不同的，本小节介绍频率主义思路——偏置-方差分解。在PRML 基础知识中5.2节中我们已经说明了平方损失函数的期望可以写成（记\(h(\mathbf x)=E_t(t|\mathbf x)\)）

\[E(L)=\int(y(\mathbf x)−h(\mathbf x))^2p(\mathbf x)d\mathbf x+\int\text{var}(t|\mathbf x)p(\mathbf x)d\mathbf x \]

其中与\(y(\mathbf x)\)无关的第二项是由数据的噪声造成的（如果噪声为零，那么\(\text{var}(t|\mathbf x)=0\)）。显然，如果我们有足够多的数据点，那么就能在很高的精度上建模得到\(h(\mathbf x)\)与\(y(\mathbf x)\)很接近。

如果我们使用由参数向量\(\mathbf w\)控制的函数\(y(\mathbf x,\mathbf w)\)对\(h(\mathbf x)\)建模，那么从贝叶斯主义的观点来看，模型的不确定性是通过\(\mathbf w\)的后验概率分布来表示的。但是，频率主义方法涉及到根据数据集\(D\)对\(\mathbf w\)进行点估计，然后试着通过下面的思想实验来表示估计的不确定性。假设我们有许多数据集，每个数据集的大小为\(N\)，并且每个数据集都独立地从分布\(p(t,\mathbf x)\)中抽取。对于任意给定的数据集\(D\)，我们可以运行我们的学习算法，得到⼀个预测函数\(y(\mathbf x;D)\)。不同的数据集会给出不同的函数，从而给出不同的平方损失的值。这样，特定的学习算法的表现就可以通过取各个数据集上的表现的平均值来进行评估。

对一个特定的数据集\(D\)而言，\(E(L)\)表达式的第一项为

\[\begin{aligned} \{y(\mathbf x;D)-h(\mathbf x)\}^2&=\{y(\mathbf x;D)-E_D(y(\mathbf x;D))+E_D(y(\mathbf x;D))-h(\mathbf x)\}^2\\ &=\{y(\mathbf x;D)-E_D(y(\mathbf x;D))\}^2+\{E_D(y(\mathbf x;D))-h(\mathbf x)\}^2\\ &\quad+2\{y(\mathbf x;D)-E_D(y(\mathbf x;D))\}\cdot\{E_D(y(\mathbf x;D))-h(\mathbf x)\} \end{aligned} \]

现在在两侧对\(D\)求期望，得到

\[\begin{aligned} E_D(\{y(\mathbf x;D)-h(\mathbf x)\}^2)&=\{E_D(y(\mathbf x;D))-h(\mathbf x)\}^2+E_D(\{y(\mathbf x;D)-E_D(y(\mathbf x;D))\}^2)\\ &=\text{偏置}^2+\text{方差} \end{aligned} \]

其中第一项称为平方偏置（bias），表示所有数据集的平均预测与预期的回归函数之间的差异；第二项称为方差（variance），度量了对于单独的数据集，模型给出的解在平均值附近的波动情况，因此也度量了函数\(y(\mathbf x;D)\)对于特定的数据集的敏感程度。现在，我们的平方损失函数就可以分解为

\[E(L)=\text{期望损失}=\text{偏置}^2+\text{方差}+\text{噪声} \]

其中

\[\begin{aligned} \text{偏置}^2&=\int\{E_D(y(\mathbf x;D))-h(\mathbf x)\}^2p(\mathbf x)d\mathbf x\\ \text{方差}&=\int E_D(\{y(\mathbf x;D)-E_D(y(\mathbf x;D))\}^2)d\mathbf x\\ \text{噪声}&=\iint\{h(\mathbf x)-t\}^2p(\mathbf x,t)d\mathbf xdt=\int\text{var}(t|\mathbf x)p(\mathbf x)d\mathbf x \end{aligned} \]

现在，偏置和方差是指积分后的量。

我们的目标是最小化期望损失，它可以分解为（平方）偏置、方差和⼀个常数噪声项的和。对于非常灵活的模型来说，偏置较小，方差较大。对于相对固定的模型来说，偏置较大，方差较小。有着最优预测能力的模型是在偏置和方差之间取得最优的平衡的模型。下图以正弦分布为例说明了这一点

我们预先生成了符合正弦分布的若干组数据点，每个集合都包含\(N\)个数据点，数据集的编号为\(l=1,\cdots,L\)，并且对于每个数据集\(D(l)\)，通过最小化正则化的误差函数\(\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2+\frac\lambda2\mathbf w^T\mathbf w\)拟合了⼀个带有若干个高斯基函数的模型，然后给出了预测函数\(y^{(l)}(x)\)，如上图所示（左侧的红色曲线表示各数据集的拟合结果，右侧的红色曲线表示左侧红色曲线的平均）。第一行对应着较大的正则化系数\(\lambda\)，这样的模型的方差很小（因为左侧图中的红色曲线看起来很相似），但是偏置很大（因为右侧图中的两条曲线看起来相当不同）。相反，在最后一行，正则化系数\(\lambda\)很小，这样模型的方差较大（因为左侧图中的红色曲线变化性相当大），但是偏置很小（因为平均拟合的结果与原始正弦曲线十分吻合）。从上面的内容可以直观看出，求（加权）平均是得到较为准确的模型的重要手法，这不仅在频率主义方法中起作用（此时将多个数据集得到的拟合函数求（加权）平均），而且在贝叶斯主义方法中仍然起作用（此时将多个后验概率所支持的参数进行（加权）平均）。

下面我们仍以正弦分布为例定量分析方差-偏置中的合理平衡。平均预测为

\[\bar{y}(x)=\frac1L\sum_{l=1}^Ly^{(l)}(x) \]

并且积分后的平方偏置以及积分后的方差为

\[\begin{aligned} \text{偏置}^2&=\frac1N\sum_{n=1}^N\{\bar{y}(x_n)-h(x_n)\}^2\\ \text{方差}&=\frac1N\sum_{n=1}^N\frac1L\sum_{l=1}^L\{y^{(l)}(x_n)-\bar{y}(x_n)\}^2 \end{aligned} \]

下图直观展示了不同的\(\lambda\)对应的偏置和方差以及它们的加和

明显可以看出：当\(\lambda\)较小时，惩罚项的重要程度较低，此时模型倾向于过拟合（即对噪声过于重视），因此偏置较小但方差较大；当\(\lambda\)较大时，惩罚项的重要程度较高，此时模型容易拟合不足，因此偏置较大但方差较小。只有\(\lambda\)适中时，才能取到\(\text{偏置}^2+\text{方差}\)的最小值。

虽然偏置-方差分解能够从频率主义的角度对模型的复杂度提供思路，但是它的实用价值很有限。这是因为偏置-方差分解依赖于对所有的数据集求平均，而在实际应用中我们常常只有⼀个观测数据集。另外，如果我们有大量的已知规模的独立的训练数据集，那么把它们组合成一个更大的训练数据集显然会降低给定复杂度的模型的过拟合程度，这个思路比求平均更加有用。由于有这么多局限性，因此我们在下⼀节将讨论线性基函数模型的贝叶斯观点。它不仅提供了对于过拟合现象的深刻认识，还提出了解决模型复杂度问题的实用的方法。

3 贝叶斯线性回归

线性回归的贝叶斯方法避免了过拟合问题，并引出了使用数据本身确定模型复杂度的自动化方法。

3.1 参数分布

在PRML 概率分布中的3.7节我们证明了，当有如下形式的边缘分布（先验概率）和条件高斯分布（似然函数）

\[\begin{aligned} p(\mathbf x)&=\mathcal N(\mathbf x|\pmb\mu,\pmb\Lambda^{-1})\\ p(\mathbf y|\mathbf x)&=\mathcal N(\mathbf y|\mathbf A\mathbf x+\mathbf b,\mathbf L^{-1}) \end{aligned} \]

的时候，可得

\[\begin{aligned} p(\mathbf y)&=\mathcal N(\mathbf y|\mathbf A\pmb\mu+\mathbf b,\mathbf L^{-1}+\mathbf A\mathbf\Lambda^{-1}\mathbf A^T)\\ p(\mathbf x|\mathbf y)&=\mathcal N(\mathbf x|\mathbf\Sigma\{\mathbf A^T\mathbf L(\mathbf y-\mathbf b)+\pmb\Lambda\pmb\mu\},\mathbf\Sigma) \end{aligned} \]

其中\(\mathbf\Sigma=(\pmb\Lambda+\mathbf A^T\mathbf L\mathbf A)^{-1}\)。

现在，似然函数\(p(\mathbf t|\mathbf w)\)为

\[p(\mathbf t|\mathbf w)=\prod_{n=1}^N\mathcal N(t_n|\mathbf w^T\pmb\phi(\mathbf x_n),\beta^{-1}\mathbf I)\varpropto\mathcal N(\mathbf t|\mathbf\Phi\mathbf w,\beta^{-1}\mathbf I) \]

为了保证共轭性，参数\(\mathbf w\)的先验分布可设为高斯分布

\[p(\mathbf w)=\mathcal N(\mathbf w|\mathbf m_0,\mathbf S_0) \]

其中\(\mathbf m_0\)为（先验的）均值，\(\mathbf S_0\)为（先验的）协方差。那么根据上面的结论，我们可以得到参数\(\mathbf w\)的后验分布为

\[p(\mathbf w|\mathbf t)=\mathcal N(\mathbf w|\mathbf S_N\{\beta\mathbf\Phi^T\mathbf t+\mathbf S_0^{-1}\mathbf m_0\},\mathbf S_N)\\ \mathbf S_N^{-1}=\mathbf S_0^{-1}+\beta\mathbf\Phi^T\mathbf\Phi \]

如果我们令（先验的）协方差\(\mathbf S_0=\alpha^{-1}\mathbf I\)，其中\(\alpha\rightarrow0\)，那么在实际意义上就给定了一个无限宽的先验分布，相当于没有先验分布，此时的均值\(\mathbf m_N=(\mathbf\Phi^T\mathbf\Phi)^{-1}\mathbf\Phi^T\mathbf t=\mathbf w_{ML}\)，这就是极大似然方法中的规范方程。在本章的剩余部分，为简便起见，我们假设先验分布\(p(\mathbf w)\)是各向同性的零均值高斯分布，即

\[p(\mathbf w)=\mathcal N(\mathbf w|\mathbf 0,\alpha^{-1}\mathbf I) \]

那么此时有

\[\begin{aligned} \mathbf m_N&=\beta\mathbf S_N\mathbf\Phi^T\mathbf t\\ \mathbf S_N^{-1}&=\alpha\mathbf I+\beta\mathbf\Phi^T\mathbf\Phi \end{aligned} \]

且后验概率的对数为

\[\ln p(\mathbf w|\mathbf t)=-\frac\beta2\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2-\frac\alpha2\mathbf w^T\mathbf w+\text{常数} \]

这正好对应含正则化项的总误差函数\(\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2+\frac\lambda2\mathbf w^T\mathbf w\)中令\(\lambda=\frac\alpha\beta\)。需要注意的是，在贝叶斯线性回归中，我们没有引入任何“惩罚项”的概念，这就说明在贝叶斯线性回归中过拟合问题自动地被避免了。

现在以直线拟合为例说明线性基函数的贝叶斯学习过程，以及后验概率分布的顺序更新过程。考虑单一输入变量\(x\)和单一目标变量\(t\)，以及线性模型\(y(x,\mathbf w)=w_0+w_1x\)。预先生成满足\(f(x,\mathbf a)=a_0+a_1x\)的一组点，其中\(a_0=−0.3\)且\(a_1=0.5\)，并增加⼀个标准差为\(0.2\)的高斯噪声，得到数据集（目标变量为\(t\)）。现在我们想从数据集中恢复出\(a_0\)和\(a_1\)的值，并且想研究模型对于数据集规模的依赖关系。我们假设噪声方差是已知的，因此我们把精度参数设置为它的真实值\(\beta=(\frac{1}{0.2})^2=25\)。类似地，我们令\(\alpha=2.0\)（稍后会简短讨论从训练集中确定\(\alpha\)和\(\beta\)的值的策略）。下图给出了当数据集的规模增加时贝叶斯学习的结果，还直观展示了贝叶斯学习的顺序本质（即当新数据点到达时，后验分布变成了先验分布）

真实参数值\(a_0=−0.3\)以及\(a_1=0.5\)在上图中被标记为白色十字。第一行是开始训练之前的图像，即先验分布的图像，我们设参数\(\mathbf w=\left(\begin{array}{c}w_0\\w_1\end{array}\right)\)先验分布为各向同性的零均值高斯分布\(p(\mathbf w)=\mathcal N(\mathbf w|\mathbf 0,\alpha^{-1}\mathbf I)\)，它的图像如第一行中间图所示，从中随机抽取六组先验参数\(\mathbf w\)，得到第一行右侧图中所示的六条红线。第二行中有一个数据点到达（右侧图中的蓝色圆圈），左侧图为该数据点的似然函数\(p(t|\mathbf w)\)的图像。如果我们把这个似然函数与第一行的先验概率相乘，然后归一化，我们就得到了第二行中间图给出的后验概率分布。继续从这个后验概率分布中抽取六组参数\(w\)，对应的回归函数\(y(x,\mathbf w)\)如第二行右侧图所示。注意，这些样本直线全部穿过数据点的附近位置（此处的“附近”由噪声精度\(\beta\)确定）。上图第三行展示了第二个数据点到达后的效果。第四行展示了\(20\)个数据点到达后的效果。左侧图展示了第\(20\)个数据点自身的似然函数，中间图展示了融合了\(20\)次观测信息的后验概率分布。注意与第三行相比，这个后验概率分布变得更加尖锐。在无穷多个数据点的极限情况下，后验概率分布会变成一个Delta函数，这个函数的中心就是用白色十字标记出的真实参数值。

当然，除了高斯分布，先验分布\(p(\mathbf w)\)也可以取其他形式，比如高斯分布的推广形式

\[p(\mathbf w|\alpha)=\{\frac{q}{2}(\frac\alpha2)^{1/q}\frac{1}{\Gamma(1/q)}\}^M\text{exp}\{-\frac\alpha2\sum_{j=0}^{M-1}|w_j|^q\} \]

其中\(\alpha=2\)对应高斯分布。

3.2 预测分布

我们的预测值通常由一个分布来描述

\[\begin{aligned} p(t|\mathbf t,\alpha,\beta)&=\int p(t|\mathbf w)\cdot p(\mathbf w|\mathbf t,\alpha,\beta)d\mathbf w\\ &=\int p(t|\mathbf x,\mathbf w,\beta)\cdot p(\mathbf w|\mathbf t)d\mathbf w\\ &=\int\mathcal N(t|y(\mathbf x,\mathbf w),\beta^{-1})\cdot \mathcal N(\mathbf w|\mathbf S_N\{\beta\mathbf\Phi^T\mathbf t+\mathbf S_0^{-1}\mathbf m_0\},\mathbf S_N)d\mathbf w \end{aligned} \]

其中\(\mathbf t\)为训练集（\(\mathbf\Phi\)中暗含训练集的另一部分，即\(\mathbf X\)），\(\mathbf w\)为参数集，\(\alpha\)和\(\beta\)是模型参数，\(\mathbf x\)是输入的自变量。上面的式子实际上就是求出联合分布\(p(t,\mathbf w|\mathbf x,\mathbf t,\alpha,\beta)\)中关于\(t\)的边缘分布，根据PRML 概率分布中3.7小节的内容可以得到

\[p(t|\mathbf x,\mathbf t,\alpha,\beta)=\mathcal N(t|\mathbf m_N^T\pmb\phi(\mathbf x),\sigma_N^2(\mathbf x))\\ \sigma_N^2(\mathbf x)=\frac1\beta+\pmb\phi(\mathbf x)^T\mathbf S_N\pmb\phi(\mathbf x) \]

其中预测分布的方差\(\sigma_N^2(\mathbf x)\)中的第一项表示数据的噪声，第二项反映了与参数\(\mathbf w\)相关联的不确定性。由于噪声和\(\mathbf w\)的分布是相互独立的高斯分布，因此它们的值是可以直接相加的。当新的数据点到达的时候，方差会缩小，因此可以证明\(\sigma_{N+1}^2(\mathbf x)\leq\sigma_N^2(\mathbf x)\)，进而当\(N\rightarrow\infty\)时，第二项会趋于零，从而预测分布的方差只与参数\(\beta\)控制的具有可加性的噪声有关。

在前一小节我们以直线拟合为例介绍了线性基函数的贝叶斯学习过程，以及后验概率分布的顺序更新过程。现在，我们考虑一个更具体的例子——正弦分布，并以此为例说明贝叶斯线性回归模型的预测分布，其中基函数选为高斯基函数。在下图中，绿线表示正弦曲线，生成的数据以此为基础并附加一定的高斯噪声

蓝色圆圈表示数据点，红线表示对应的高斯预测分布的均值，红色阴影区域是均值两侧的一个标准差范围的区域。注意，预测的不确定性依赖于\(x\)，并且在数据点的邻域内最小。还要注意，不确定性的程度随着观测到的数据点的增多而逐渐减小。上图只给出了每个点处的预测方差与\(x\)的函数关系。为了更加深刻地认识对于不同的\(x\)值的预测之间的协方差，我们可以从\(\mathbf w\)的后验概率分布中抽取若干样本，然后画出对应的函数\(y(x,\mathbf w)\)，如下图

如果我们使用局部的基函数（例如高斯基函数），那么在距离基函数中心比较远的区域，\(\sigma_N^2(\mathbf x)\)表达式中的第二项将会趋于零，只剩下第一项（噪声）\(\beta^{-1}\)。因此，当对基函数所在的区域之外的区域进行外插的时候，模型对于它做出的预测会变得相当确定（因为与训练数据集无关，仅与\(\beta\)相关的高斯分布有关），这种结果通常是不准确的，使用被称为高斯过程（Gaussian process）的另一种贝叶斯回归方法可以避免这个问题。

最后，如果\(w\)和\(\beta\)都被当成未知的，那么根据PRML 概率分布中3.10小节的讨论，共轭先验分布\(p(\mathbf w,\beta)\)是一个高斯-Gamma分布，此时的预测分布是一个t分布。

3.3 等价核

如果我们将\(\mathbf m_N=\beta\mathbf S_N\mathbf\Phi^T\mathbf t\)视为参数\(\mathbf w\)的估计值并将其代入\(y(\mathbf x,\mathbf w)=\mathbf w^T\pmb\phi(\mathbf x)\)，那么得到

\[y(\mathbf x,\mathbf w)=y(\mathbf x,\mathbf m_N)=(\beta\mathbf S_N\mathbf\Phi^T\mathbf t)^T\pmb\phi(\mathbf x) \]

使用PRML 概率分布中3.2小节介绍的Dirac符号，我们可以发现，\(\beta\mathbf S_N\mathbf\Phi^T\mathbf t\)的形式为\(|\cdots\rangle\)，因此\((\beta\mathbf S_N\mathbf\Phi^T\mathbf t)^T\)的形式为\(\langle\cdots|\)，又因为\(\pmb\phi(\mathbf x)\)的形式为\(|\cdots\rangle\)，那么\((\beta\mathbf S_N\mathbf\Phi^T\mathbf t)^T\pmb\phi(\mathbf x)\)的形式即为\(\langle\cdots\rangle\)，即一个数值（而非向量）（因为我们只估计一个目标变量\(t\)，这一点亦是显而易见的），那么上式可以写成

\[y(\mathbf x,\mathbf m_N)=\pmb\phi(\mathbf x)^T(\beta\mathbf S_N\mathbf\Phi^T\mathbf t)=\sum_{n=1}^N\beta\pmb\phi(\mathbf x)^T\mathbf S_N\pmb\phi(\mathbf x_n)t_n=\sum_{n=1}^Nk(\mathbf x,\mathbf x_n)t_n \]

其中\(\mathbf S_N^{-1}=\alpha\mathbf I+\beta\mathbf\Phi^T\mathbf\Phi\)，函数\(k(\mathbf x,\mathbf x')=\beta\pmb\phi(\mathbf x)^T\mathbf S_N\pmb\phi(\mathbf x')\)称为平滑矩阵（smoother matrix）或者等价核（equivalent kernel）。像这样的回归函数，通过对目标值进行线性组合做预测，被称为线性平滑（linear smoother）。注意，等价核依赖于训练集（因为\(\mathbf S_N\)的表达式中含有\(\mathbf\Phi\)，而\(\mathbf\Phi\)的表达式中含有训练集的\(\mathbf X\)）。

关于等价核，我们可以更加细致地讨论。因为参数\(\mathbf x\)满足\(p(\mathbf w|\mathbf t)=\mathcal N(\mathbf w|\mathbf m_N,\mathbf S_N)\)，则\(y(\mathbf x)\)与\(y(\mathbf x')\)的协方差为

\[\begin{aligned} \text{cov}(y(\mathbf x),y(\mathbf x'))&=\text{cov}(\mathbf w^T\pmb\phi(\mathbf x),\mathbf w^T\pmb\phi(\mathbf x'))\\ &=\text{cov}(\pmb\phi(\mathbf x)^T\mathbf w,\mathbf w^T\pmb\phi(\mathbf x'))\\ &= E(\pmb\phi(\mathbf x)^T\mathbf w\cdot\mathbf w^T\pmb\phi(\mathbf x'))-E(\pmb\phi(\mathbf x)^T\mathbf w)E(\mathbf w^T\pmb\phi(\mathbf x'))\\ &=\pmb\phi(\mathbf x)^T\cdot E(\mathbf w\mathbf w^T)\cdot\pmb\phi(\mathbf x')-\pmb\phi(\mathbf x)^T\cdot E(\mathbf w)\cdot E(\mathbf w^T)\cdot\pmb\phi(\mathbf x')\\ &=\pmb\phi(\mathbf x)^T\cdot(E(\mathbf w\mathbf w^T)-E(\mathbf w)E(\mathbf w^T))\cdot\pmb\phi(\mathbf x')\\ &=\pmb\phi(\mathbf x)^T\cdot\text{cov}{(\mathbf w,\mathbf w^T)}\cdot\pmb\phi(\mathbf x')\\ &=\pmb\phi(\mathbf x)^T\mathbf S_N\pmb\phi(\mathbf x')\\ &=\beta^{-1}k(\mathbf x,\mathbf x') \end{aligned} \]

由此我们知道，在已知数据点\(\mathbf x'\)附近进行预测，得到的\(y(\mathbf x)\)和已知的\(y(\mathbf x')\)相关性较高，而对于较远的\(\mathbf x\)而言，相关性就较低，上面的几幅图让我们可以直观地感受到这一点。

上面的式子\(y(\mathbf x,\mathbf m_N)=\sum_{n=1}^Nk(\mathbf x,\mathbf x_n)t_n\)暗示了解决回归问题的另一种方法：不显式地引入一组基函数（它隐式地定义了一个等价的核），而是显式地定义一个局部的核函数（它隐式地定义了基函数），然后在给定训练数据集的条件下，用这个核函数对新的输入变量\(x\)做预测。这就引出了用于回归问题（以及分类问题）的很实用的框架，被称为高斯过程（Gaussian process）。这将在后续内容中讨论。

我们已经看到，一个等价核定义了模型的权值。通过这个权值，训练数据集中的目标值被重新（线性）组合，作为新输入的\(\mathbf x\)的预测值。可以证明这些权值的和等于\(1\)，即\(\sum_{n=1}^Nk(\mathbf x,\mathbf x_n)=1\)对所有的\(\mathbf x\)均成立。

对于等价核\(k(\mathbf x,\mathbf x')=\beta\pmb\phi(\mathbf x)^T\mathbf S_N\pmb\phi(\mathbf x')\)而言，它是核函数的一个具体例子。核函数可以为正也可以为负，但必须满足加和为\(1\)的限制，除此之外，任意核函数均可以表示为非线性函数的向量\(\pmb\psi(\mathbf x)\)的内积的形式，即

\[k(\mathbf x,\mathbf z)=\pmb\psi(\mathbf x)^T\pmb\psi(\mathbf z) \]

对于我们的例子而言，其中\(\pmb\psi(\mathbf x)=\beta^{1/2}\mathbf S_N^{1/2}\pmb\phi(\mathbf x)\)。

4 贝叶斯模型比较

4.1 后验概率与预测分布

在贝叶斯方法中，我们比较不同模型之间的唯一思路就是概率，现假设我们想要比较\(L\)个模型\(\{\mathcal M_i\}\)，其中\(i=1,\cdots,L\)，“一个模型”指的是训练数据集\(D\)上的概率分布。在Polynomial Curve Fitting问题中，我们用数据集\(\mathbf X\)和与之相关的\(\mathbf t\)表示出了一个模型，这时“概率分布”指的是关于新的目标变量\(\mathbf t\)的一个概率分布，而输入变量\(\mathbf x\)是已知的。在一般化的问题中，“概率分布”指的是关于输入变量\(\mathbf x\)和目标变量\(\mathbf t\)的一个联合分布\(p(\mathbf x,\mathbf t)\)，我们通过积分（连续变量情况下）或者求和（离散变量情况下）得到边缘分布\(p(\mathbf x)\)和\(p(\mathbf t)\)。对于\(L\)个模型中某个模型\(\mathcal M_i\)而言，其后验概率为

\[p(\mathcal M_i|D)\varpropto p(\mathcal M_i)p(D|\mathcal M_i) \]

如果后验概率较大，则说明数据集\(D\)比较支持这个模型\(\mathcal M_i\)，如果后验概率较小则说明其不支持该模型。如果所有的模型都有相同的先验概率\(p(\mathcal M_i)\)，那么项\(p(D|\mathcal M_i)\)就表达了数据展现出的不同模型的优先级，该项称为模型证据（model evidence）或者边缘似然（marginal likelihood）（被称为边缘似然因为该项可以视为联合分布\(p(\mathcal M_i,D)\)进行积分或求和得到）。两个模型的模型证据的比值\(\frac{p(D|\mathcal M_i)}{p(D|\mathcal M_j)}\)称为贝叶斯因子（Bayes factor）。

如果我们知道了所有的模型的后验概率\(p(\mathcal M_i|D)\)，那么就掌握了在（训练）数据集\(D\)下，\(L\)个模型的可能性，故此时预测分布为

\[p(t|\mathbf x,D)=\sum_{i=1}^Lp(t|\mathbf x,\mathcal M_i,D)p(\mathcal M_i|D) \]

这实际上就是对各个模型的预测分布\(p(t|\mathbf x,\mathcal M_i,D)\)进行加权平均，可视作混合分布（mixture distribution）的一个例子。如果有两个模型的后验概率分布\(p(\mathcal M_i|D)=p(\mathcal M_j|D)\)，且一个模型预测为\(t=a\)附近的一个很窄的分布、一个模型预测为\(t=b\)附近的一个很窄的分布，那么总体将会是一个双峰分布（而不是\(t=\frac{a+b}{2}\)附近的单峰分布）。在具体应用中，一个粗略的思路就是从\(L\)个模型中选出后验概率最大的模型进行预测。

4.2 模型证据

现在来展开说说模型证据这个概念。对于由参数\(\mathbf w\)控制的模型而言，其模型证据（边缘似然）为

\[p(D|\mathcal M_i)=\int p(D,\mathbf w|\mathcal M_i)d\mathbf w=\int p(D|\mathbf w,\mathcal M_i)p(\mathbf w|\mathcal M_i)d\mathbf w \]

从取样的角度来说，这个边缘似然\(p(D|\mathcal M_i)\)可以视作从模型\(\mathcal M_i\)中生成数据集\(D\)的概率，而模型\(\mathcal M_i\)的参数\(\mathbf w\)是从先验分布\(p(\mathbf w)\)（在预先训练一定次数的时候，先验分布就是之前的后验分布\(p(\mathbf w|D)\)）中随机取样的。

先来看一个简化的情况：模型只有一个参数\(w\)，那么\(p(w|D)\varpropto p(D|w)p(w)\)（其中省去了\(\mathcal M_i\)）。如果后验分布在极大似然估计\(w_{MAP}\)附近有一个尖峰，宽度为\(\Delta w_{\text{后验}}\)，并进一步假设先验分布是平的，且宽度为\(\Delta w_{\text{先验}}\)（即\(p(w)=\frac{1}{\Delta w_{\text{先验}}}\)），那么

\[p(D|\mathcal M_i)=\int p(D,w|\mathcal M_i)dw=\int p(D|w,\mathcal M_i)p(w|\mathcal M_i)dw\sim p(D|w_{MAP},\mathcal M_i)\frac{\Delta w_{\text{后验}}}{\Delta w_{\text{先验}}} \]

取对数可得

\[\ln p(D|\mathcal M_i)\sim\ln p(D|w_{MAP},\mathcal M_i)+\ln(\frac{\Delta w_{\text{后验}}}{\Delta w_{\text{先验}}}) \]

其中第一项表示由最可能的参数\(w_{MAP}\)给出的数据，第二项用于根据模型的复杂度来惩罚模型。由于\(\Delta w_{\text{后验}}<\Delta w_{\text{先验}}\)（随着学习过程的进行，不确定度会减小，即会越来越趋于某个尖峰），因此，如果参数精确地调整为后验分布的数据，那么\(\ln(\frac{\Delta w_{\text{后验}}}{\Delta w_{\text{先验}}})<0\)将会非常小，这非常不利于后验概率\(p(D|\mathcal M_i)\)最大化。

现在来看一般的情况，如果一个模型具有\(M\)个参数，我们可以对每个参数进行类似的近似，假设所有参数的\(\frac{\Delta w_{\text{后验}}}{\Delta w_{\text{先验}}}\)均相同，那么

\[\ln p(D|\mathcal M_i)\sim\ln p(D|\mathbf w_{MAP},\mathcal M_i)+M\ln(\frac{\Delta w_{\text{后验}}}{\Delta w_{\text{先验}}}) \]

因此，在这种非常简单的近似下，复杂度惩罚项（上式第二项）的大小（负数）随着可调节参数数量\(M\)的增加而越来越小。另外，随着\(M\)的增加，模型能够更加精确地描述数据集，也就是第一项会变大。这就带来了一个矛盾：更多的参数能够更好地描述数据集，但是复杂度上升也会招致惩罚，我们需要在这两方面进行折中。

一般而言，对两个模型\(\mathcal M_i\)和\(\mathcal M_j\)而言，其中的某一个模型更加贴近真实情况，现在假设\(\mathcal M_i\)即为真实模型，那么模型\(\mathcal M_j\)和模型\(\mathcal M_i\)的贴近程度可以由PRML 基础知识中6.4小节中介绍的KL散度来描述，即

\[\int p(D|\mathcal M_i)\ln(\frac{p(D|\mathcal M_i)}{p(D|\mathcal M_j)})dD \]

如果模型\(\mathcal M_j\)和模型\(\mathcal M_i\)完全一致，那么上面的KL散度为零，否则恒为正。

我们已经看到，贝叶斯框架避免了过拟合的问题，并且使得模型能够随着训练次数的增加而得到优化。但是贝叶斯方法需要对模型的形式作出假设，并且如果这些假设不合理，那么结果就会出错。特别地，我们从上图可以看出，模型证据对先验分布的很多方面都很敏感，例如在低概率处的行为等等。如果先验分布是反常的，那么模型证据无法定义，因为反常的先验分布有着任意的缩放因子（换句话说，归一化系数无法定义，因为分布根本无法被归一化）。如果我们考虑一个正常的先验分布，然后取一个适当的极限来获得一个反常的先验（例如高斯先验中，我们令方差为无穷大），那么模型证据就会趋于零。但是这种情况下也可能通过首先考虑两个模型的证据比值，然后取极限的方式来得到⼀个有意义的答案。因此，在实际应用中，一种明智的做法是，保留一个独立的测试数据集，这个数据集用来评估最终系统的整体表现。

5 证据近似

5.1 基本框架介绍

在经典的贝叶斯方法中，我们预先确定了模型的超参数（现在我们假设有两个参数\(\alpha\)和\(\beta\)），然后计算后验概率\(p(\mathbf w|D,\alpha,\beta)\)，再确定出预测分布\(p(t|\mathbf w,\mathbf x)\)。如果我们引入的是超参数的先验分布（而不是具体的值），那么预测分布需要通过积分方法来求解，即

\[p(t|\mathbf t)=\iiint p(t|\mathbf w,\beta)p(\mathbf w|\mathbf t,\alpha,\beta)p(\alpha,\beta|\mathbf t)d\mathbf wd\alpha d\beta \]

为了记号简洁，上述式子省略了预测分布对\(\mathbf x\)的依赖。其中\(p(\mathbf w|\mathbf t,\alpha,\beta)\)为此时参数的后验分布，\(p(t|\mathbf w,\beta)\)为确定参数\(\mathbf w\)时的预测分布\(\mathcal N(t|y(\mathbf x,\mathbf w),\beta^{-1})\)，\(p(\alpha,\beta|\mathbf t)\)为在训练数据集\(\mathbf t\)条件下模型超参数\(\alpha\)和\(\beta\)的后验（联合）分布（且该分布\(p(\alpha,\beta|\mathbf t)\varpropto p(\mathbf t|\alpha,\beta)p(\alpha,\beta)\)），所以，如果我们先对参数\(\mathbf w\)进行积分得到边缘似然函数（marginal likelihood function），那么预测分布就是超参数的积分，从统计意义上来说，关于超参数的积分即为超参数条件下预测目标变量\(t\)的条件分布），故只需要考虑将这个边缘似然函数最大化，便能得到超参数的值，这个框架在统计学文献中称为经验贝叶斯（empirical Bayes）或者第二类极大似然（type 2 maximum likelihood）或者推广的最大似然（generalized maximum likelihood），在机器学习文献中，这种方法也被称为证据近似（evidence approximation）。考虑到\(p(\alpha,\beta|\mathbf t)\varpropto p(\mathbf t|\alpha,\beta)p(\alpha,\beta)\)，如果先验分布\(p(\alpha,\beta)\)比较平，那么边缘似然函数最大化就等价于将证据函数\(p(\mathbf t|\alpha,\beta)\)最大化，这样得到的参数\(\alpha\)和\(\beta\)的极大似然估计不妨记为\(\hat{\alpha}\)和\(\hat{\beta}\)。一个简单的近似情况是：如果后验分布\(p(\alpha,\beta|\mathbf t)\)在\(\hat{\alpha}\)和\(\hat{\beta}\)附近有峰值，那么上述积分可以近似为

\[p(t|\mathbf t)\sim p(t|\mathbf t,\hat{\alpha},\hat{\beta})=\int p(t|\mathbf w,\hat{\beta})p(\mathbf w|\mathbf t,\hat{\alpha},\hat{\beta})d\mathbf w \]

在上面介绍的方法中，模型超参数\(\alpha\)和\(\beta\)是通过训练数据集得到的，这种方法具有很好的实用性。对于证据函数\(p(\mathbf t|\alpha,\beta)\)最大化而言，有两种常见的方法：一是计算证据函数并令证据函数的导数等于零，这将在接下来进行讨论；二是期望最大化（EM）方法，这将在后续章节进行讨论。

5.2 计算证据函数

求证据函数的第一步是对权值参数\(\mathbf w\)进行积分，即

\[\begin{aligned} p(\mathbf t|\alpha,\beta)&=\int p(\mathbf t|\mathbf w,\alpha,\beta)p(\mathbf w|\alpha)d\mathbf w\\ &=\int\mathcal N(\mathbf t|\mathbf w^T\pmb\phi(\mathbf x_n),\beta^{-1})\cdot\mathcal N(\mathbf w|\mathbf 0,\alpha^{-1}\mathbf I)d\mathbf w\\ &=\int\prod_{n=1}^N\mathcal N(t_n|\mathbf w^T\pmb\phi(\mathbf x_n),\beta^{-1})\cdot\prod_{m=1}^M\mathcal N(w_m|\mathbf 0,\alpha^{-1}\mathbf I)d\mathbf w\\ &=(\frac{\beta}{2\pi})^{N/2}(\frac{\alpha}{2\pi})^{M/2}\int\mathcal N(t_n|\mathbf w^T\pmb\phi(\mathbf x_n),\beta^{-1})\cdot\mathcal N(w_m|\mathbf 0,\alpha^{-1}\mathbf I)d\mathbf w\\ &=(\frac{\beta}{2\pi})^{N/2}(\frac{\alpha}{2\pi})^{M/2}\iint\cdots\int\mathcal N(t_n|\mathbf w^T\pmb\phi(\mathbf x_n),\beta^{-1})\cdot\mathcal N(w_m|\mathbf 0,\alpha^{-1}\mathbf I)dw_1dw_2\cdots dw_M\\ &=\cdots \end{aligned} \]

除了上面逐步推导的思路，我们还可以用PRML 概率分布中3.7小节介绍的结论，得到

\[p(\mathbf t|\alpha,\beta)=(\frac{\beta}{2\pi})^{N/2}(\frac{\alpha}{2\pi})^{M/2}\int\text{exp}(-E(\mathbf w))d\mathbf w\\ E(\mathbf w)=\beta E_D(\mathbf w)+\alpha E_W(\mathbf w)=\frac\beta2||\mathbf t-\mathbf\Phi\mathbf w||^2+\frac\alpha2\mathbf w^T\mathbf w \]

其中\(E(\mathbf w)\)在形式上和正则化的误差函数\(\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2+\frac\lambda2\mathbf w^T\mathbf w\)相似。我们现在对参数\(\mathbf w\)配方，过程如下

\[\begin{aligned} E(\mathbf w)&=\frac\beta2||\mathbf t-\mathbf\Phi\mathbf w||^2+\frac\alpha2\mathbf w^T\mathbf w\\ &=\frac\beta2(\mathbf t-\mathbf\Phi\mathbf w)^T(\mathbf t-\mathbf\Phi\mathbf w)+\frac\alpha2\mathbf w^T\mathbf w\\ &=\frac\beta2(\mathbf t^T\mathbf t-\mathbf t^T\mathbf\Phi\mathbf w-(\mathbf\Phi\mathbf w)^T\mathbf t+(\mathbf\Phi\mathbf w)^T(\mathbf\Phi\mathbf w))+\frac\alpha2\mathbf w^T\mathbf w\\ &=\frac\beta2(\mathbf t^T\mathbf t-\mathbf t^T\mathbf\Phi\mathbf w-(\mathbf\Phi\mathbf w)^T\mathbf t)+\frac12(\mathbf w^T(\beta\mathbf\Phi^T\mathbf\Phi)\mathbf w+\mathbf w^T(\alpha\mathbf I)\mathbf w)\\ &=\frac\beta2(\mathbf t^T\mathbf t-\mathbf t^T\mathbf\Phi\mathbf w-(\mathbf\Phi\mathbf w)^T\mathbf t)+\frac12\mathbf w^T\mathbf A\mathbf w,\quad\mathbf A=\beta\mathbf\Phi^T\mathbf\Phi+\alpha\mathbf I=\mathbf S_N^{-1}\\ &=\frac12(\beta\mathbf t^T\mathbf t-\beta\mathbf t^T\mathbf\Phi\mathbf w-\beta(\mathbf\Phi\mathbf w)^T\mathbf t+\mathbf w^T\mathbf A\mathbf w)\\ &=\frac12(\beta\mathbf t^T\mathbf t-2\beta\mathbf t^T\mathbf\Phi\mathbf w+\mathbf w^T\mathbf A\mathbf w)\\ &=\frac12((\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)-\mathbf m_N^T\mathbf A\mathbf m_N+\beta\mathbf t^T\mathbf t),\quad\mathbf m_N=\beta\mathbf S_N\mathbf\Phi^T\mathbf t\\ &\qquad+\frac12(\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N)-\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N))\\ &=\frac12((\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)-\mathbf m_N^T\mathbf A\mathbf m_N+\beta\mathbf t^T\mathbf t)\\ &\qquad+\frac12(\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N)-\beta\mathbf t^T\mathbf t+2\beta\mathbf t^T\mathbf\Phi\mathbf m_N-\beta\mathbf m_N^T(\mathbf\Phi^T\mathbf\Phi)\mathbf m_N)\\ &=\frac12(-\mathbf m_N^T\mathbf A\mathbf m_N+\beta\mathbf t^T\mathbf t-\beta\mathbf t^T\mathbf t+2\beta\mathbf t^T\mathbf\Phi\mathbf m_N-\beta\mathbf m_N^T(\mathbf\Phi^T\mathbf\Phi)\mathbf m_N)\\ &\qquad+\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)+\frac12\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N)\\ &=\frac12(-\mathbf m_N^T\mathbf A\mathbf m_N+2\beta\mathbf t^T\mathbf\Phi\mathbf m_N-\beta\mathbf m_N^T(\mathbf\Phi^T\mathbf\Phi)\mathbf m_N)\\ &\qquad+\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)+\frac12\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N)\\ &=\frac12(-\mathbf m_N^T\mathbf A\mathbf m_N+2\beta(\beta^{-1}\mathbf m_N^T\mathbf A^T)\mathbf m_N-\beta\mathbf m_N^T(\mathbf\Phi^T\mathbf\Phi)\mathbf m_N)\\ &\qquad+\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)+\frac12\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N)\\ &=\frac12(-\mathbf m_N^T\mathbf A\mathbf m_N+2\beta(\beta^{-1}\mathbf m_N^T\mathbf A)\mathbf m_N-\beta\mathbf m_N^T(\mathbf\Phi^T\mathbf\Phi)\mathbf m_N)\\ &\qquad+\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)+\frac12\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N)\\ &=\frac12(-\mathbf m_N^T\mathbf A\mathbf m_N+2\mathbf m_N^T\mathbf A\mathbf m_N-\beta\mathbf m_N^T(\mathbf\Phi^T\mathbf\Phi)\mathbf m_N)\\ &\qquad+\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)+\frac12\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N)\\ &=\frac12(\mathbf m_N^T\mathbf A\mathbf m_N-\mathbf m_N^T(\beta\mathbf\Phi^T\mathbf\Phi)\mathbf m_N)\\ &\qquad+\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)+\frac12\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N)\\ &=\frac12\mathbf m_N^T(\alpha\mathbf I)\mathbf m_N+\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)+\frac12\beta(\mathbf t-\mathbf\Phi\mathbf m_N)^T(\mathbf t-\mathbf\Phi\mathbf m_N)\\ &=\frac\alpha2\mathbf m_N^T\mathbf m_N+\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)+\frac\beta2||\mathbf t-\mathbf\Phi\mathbf m_N||^2\\ &=E(\mathbf m_N)+\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N) \end{aligned} \]

其中\(E(\mathbf m_N)=\frac\beta2||\mathbf t-\mathbf\Phi\mathbf m_N||^2+\frac\alpha2\mathbf m_N^T\mathbf m_N\)，此时矩阵\(\mathbf A\)就是误差函数\(E(\mathbf w)\)的二阶导数\(\nabla\nabla E(\mathbf w)\)，称为Hessian矩阵。上述推导过程还得到一个副产品\(\mathbf A=\mathbf S_N^{-1}\)，这给出了方差的数学依据。

现在，关于\(\mathbf w\)的积分\(\int\text{exp}(-E(\mathbf w))d\mathbf w\)可以计算为

\[\begin{aligned} \int\text{exp}(-E(\mathbf w))d\mathbf w&=\text{exp}(E(\mathbf m_N))\int\text{exp}\{\frac12(\mathbf w-\mathbf m_N)^T\mathbf A(\mathbf w-\mathbf m_N)\}d\mathbf w\\ &=\text{exp}(E(\mathbf m_N))\cdot(2\pi)^{M/2}|\mathbf A|^{-1/2} \end{aligned} \]

则边缘似然函数\(p(\mathbf t|\alpha,\beta)\)的对数可以写为

\[\ln p(\mathbf t|\alpha,\beta)=\frac{M}{2}\ln\alpha+\frac{N}{2}\ln\beta-E(\mathbf m_N)-\frac12\ln|\mathbf A|-\frac{N}{2}\ln(2\pi) \]

这就是证据函数的表达式。

现在，如果我们将证据函数关于\(\alpha\)（\(\beta\)）求偏导，那么便可以分析得到\(\alpha\)（\(\beta\)）取何值时，证据函数有极值，也就是说，此时的参数\(\alpha\)（和参数\(\beta\)）是在训练过程中确定的，而\(\frac12\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2+\frac\lambda2\mathbf w^T\mathbf w\)的惩罚项因子\(\lambda\)却是预先确定的，当值选取不合适的时候，模型拟合效果就会很差，在训练过程中不断修正参数值的思路比预先确定参数的值要更好、所得到的模型拟合得也更好。

5.3 最大化证据函数

先考虑边缘似然函数\(p(\mathbf t|\alpha,\beta)\)对参数\(\alpha\)的最大化，在\(\ln p(\mathbf t|\alpha,\beta)\)中，\(\frac{M}{2}\ln\alpha-E(\mathbf m_N)\)可以直接地对\(\alpha\)求偏导，\(\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi)\)与\(\alpha\)无关，所以现在只需要考虑如何对\(\ln|\mathbf A|\)求\(\alpha\)的偏导即可。考虑到\(\mathbf A=\beta\mathbf\Phi^T\mathbf\Phi+\alpha\mathbf I\)，矩阵\(\beta\mathbf\Phi^T\mathbf\Phi\)的特征值满足\((\beta\mathbf\Phi^T\mathbf\Phi)\mathbf u_i=\lambda_i\mathbf u_i\)，因此\(\mathbf A\)的特征值为\(\lambda_i+\alpha\)，因此\(|\mathbf A|=\prod_{i=1}(\lambda_i+\alpha)\)，故驻点满足

\[\begin{aligned} \frac{\partial}{\partial\alpha}\ln p(\mathbf t|\alpha,\beta)&=\frac{M}{2\alpha}-\frac{\partial}{\partial\alpha}E(\mathbf m_N)-\frac12\frac{\partial}{\partial\alpha}\ln|\mathbf A|\\ &=\frac{M}{2\alpha}-\frac12\mathbf m_N^T\mathbf m_N-\frac12\sum_i\frac{1}{\lambda_i+\alpha}=0 \end{aligned} \]

解得

\[\alpha=\frac{\gamma}{\mathbf m_N^T\mathbf m_N},\quad\text{其中}\gamma=\sum_i\frac{\lambda_i}{\lambda_i+\alpha} \]

这是\(\alpha\)的一个隐式解，在实际应用中，我们采用迭代的方法求解：首先选定一个初始的\(\alpha\)的值，使用这个值计算出\(\mathbf m_N=\beta\mathbf S_N\mathbf\Phi^T\mathbf t\)的值，然后计算出此时的\(\gamma\)，从而得到新的\(\alpha\)的值。注意，由于矩阵\(\mathbf\Phi^T\mathbf\Phi\)是固定的，因此可以在最开始计算以此特征值，然后接下来只需要乘以\(\beta\)就可以得到\(\lambda_i\)的值。

此时的参数\(\alpha\)仅通过训练参数集确定的，最极大似然方法不同，最优化模型复杂度不需要单独的数据集。

接下来考虑参数\(\beta\)，\(\ln p(\mathbf t|\alpha,\beta)\)对\(\beta\)求偏导得到

\[\begin{aligned} \frac{\partial}{\partial\beta}\ln p(\mathbf t|\alpha,\beta)&=\frac{N}{2\beta}-\frac{\partial}{\partial\beta}E(\mathbf m_N)-\frac12\frac{\partial}{\partial\beta}\ln|\mathbf A|\\ &=\frac{N}{2\beta}-\frac12\sum_{n=1}^N\{t_n-\mathbf m_N^T\pmb\phi(\mathbf x_n)\}^2-\frac{\gamma}{2\beta}=0 \end{aligned} \]

需要注意，虽然\(\mathbf m_N\)的表达式中仍含有参数\(\beta\)，但在迭代方法中，这个\(\beta\)是预先确定的，因此不需要考虑偏导。解得

\[\frac1\beta=\frac1{N-\gamma}\sum_{n=1}^N\{t_n-\mathbf m_N^T\pmb\phi(\mathbf x_n)\}^2 \]

这也是\(\beta\)的一个隐式解，使用和\(\alpha\)类似的迭代方法可以求解。

5.4 参数的有效数量

先分析下面的一幅图从而得到一些有趣的结论

图中绿线表示似然函数\(p(\mathbf w|\mathbf t)\)的先验分布\(p(\mathbf w)\)的轮廓线（因为我们认为先验分布是零均值的各向同性高斯分布，即前面提到过的\(p(\mathbf w)=\mathcal N(\mathbf w|\mathbf 0,\alpha^{-1}\mathbf I)\)），而红线为似然函数\(p(\mathbf w|\mathbf t)\)的轮廓线，且此时中心\(\mathbf w_{ML}\)是对数似然函数\(\ln p(\mathbf w|\mathbf t)=-\frac\beta2\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2-\frac\alpha2\mathbf w^T\mathbf w+\text{常数}\)在不考虑惩罚项（即\(\alpha=0\)）的条件下的极大似然解（一个通俗的理解为：当不考虑惩罚项时，\(\mathbf w\)距离原点的广义距离\(\mathbf w^T\mathbf w\)不再被考虑，即尽可能符合数据点\(t_n\)，即尽可能使\(\sum_{n=1}^N\{t_n-\mathbf w^T\pmb\phi(\mathbf x_n)\}^2\)小）。\(\mathbf w_{MAP}\)是对数似然函数考虑惩罚项（即\(\alpha\neq0\)）的条件下的极大似然解，因此会比\(\mathbf w_{ML}\)偏移一些。\(\mathbf w_{MAP}\)是我们训练的结果。上图中在引入坐标系时进行了隐式地转换，使得坐标轴与Hessian矩阵的特征向量\(\mathbf u_i\)对齐。在PRML 概率分布中3.1小节我们曾经介绍过二次型与椭球面的对应关系，并指出了二次型的特征向量\(\mathbf u_i\)就是椭球各个轴的方向，当时的特征值\(\lambda_i\)指的是协方差\(\mathbf\Sigma\)的特征值，此时的\(\lambda_i\)越大则椭球在对应的方向\(\mathbf u_i\)上越突出（因为在此方向上的不确定性大）；而这里的特征值\(\lambda_i\)指的是矩阵\(\beta\mathbf\Phi^T\mathbf\Phi\)的特征值，这个矩阵是从\(\mathbf S_N^{-1}=\alpha\mathbf I+\beta\mathbf\Phi^T\mathbf\Phi\)中得到的、即是从协方差矩阵的逆矩阵得到的，因此此时的\(\lambda_i\)越大则椭球在对应方向\(\mathbf u_i\)上越不突出。另外，由于矩阵\(\beta\mathbf\Phi^T\mathbf\Phi\)是正定的，因此比值\(\frac{\lambda_i}{\lambda_i+\alpha}\)介于\(0\)与\(1\)之间，所以\(\gamma=\sum_i\frac{\lambda_i}{\lambda_i+\alpha}\)介于\(0\)与\(M\)之间，如果某方向上的\(\lambda_i>>\alpha\)（即比值\(\frac{\lambda_i}{\lambda_i+\alpha}\)接近\(1\)），那么对应的参数\(w_i\)会与它的极大似然解相近，这样的参数称为良好确定的（well determined），因为它们的值被数据紧紧地限制着。相反，对于\(\lambda_i<<\alpha\)的方向，对应的参数\(w_i\)会与它的先验更加相近（在上图中，即与\(0\)更加相近）。特别地，如果所有的特征值\(\lambda_i\)都特别小，那么我们的训练结果\(\mathbf w_{MAP}\)将会极为接近先验的零均值，在实际意义上，这就相当于我们白训练了、训练基本没什么效果。因此，\(\gamma=\sum_i\frac{\lambda_i}{\lambda_i+\alpha}\)度量了良好确定的参数的有效总数。

对于满足高斯分布的单一变量\(x\)而言，方差的极大似然估计为

\[\sigma_{ML}^2=\frac1N\sum_{n=1}^N(x_n-\mu_{ML})^2 \]

但是这个估计是有偏的，因为均值的极大似然解\(\mu_{ML}\)拟合了数据中的一些噪声。方差的无偏估计为

\[\sigma_{MAP}^2=\frac1{N-1}\sum_{n=1}^N(x_n-\mu_{ML})^2 \]

而对于线性模型的一般结果，目标分布的均值现在由函数\(\mathbf w^T\pmb\phi(\mathbf x)\)给出，这包含了\(M\)个参数，但是由数据良好确定的参数的有效总数仅为\(\gamma\)（而非\(M\)）个，剩余的\(M-\gamma\)个参数应该被先验地设为较小的值（因为此时对应的参数\(w_i\)会与它的先验更加相近，即相当于白训练了，故先验会较大程度地影响最后的结果，所以需要尽可能减小先验对最终结果的影响）。对于极限情况\(N>>M\)（即训练数据集中数据点的数量\(N\)远大于参数的数量\(M\)），那么矩阵\(\beta\mathbf\Phi^T\mathbf\Phi\)的模\(|\beta\mathbf\Phi^T\mathbf\Phi|\)将会变得很大（因为模等于特征值之积），所以现在\(0\leq\gamma\leq M\)中的\(\gamma\)将会大大倾向于\(M\)，在极限情况\(\gamma=M\)的情况下，参数估计为

\[\alpha=\frac{\gamma}{\mathbf m_N^T\mathbf m_N}\sim\frac{M}{2E_W(\mathbf m_N)}\\ \beta=\frac{N-\gamma}{\sum_{n=1}^N\{t_n-\mathbf m_N^T\pmb\phi(\mathbf x_n)\}^2}\sim\frac{N}{2E_D(\mathbf m_N)} \]

其中\(E_W\)和\(E_D\)的定义在前面已经提到过，\(\beta\)的分子本来应该近似为\(N-M\)，但由于\(N>>M\)，因此也可以近似为\(N\)。这些结果可以用作完整的重新估计公式的简化计算的近似，因为它们不需要计算Hessian矩阵的一系列特征值。

6 固定基函数的局限性

在本章中，我们已经关注了由固定的非线性基函数的线性组合组成的模型。我们已经看到，对于参数的线性性质的假设产生了一系列有用的性质，包括最小平方问题的解析解，以及容易计算的贝叶斯方法。此外，对于一个合适的基函数的选择，我们可以建立输入向量到目标值之间的任意非线性映射。在下一章中，我们会研究类似的用于分类的模型。

因此，似乎这样的模型建立的解决模式是识别问题的通用框架。不幸的是，线性模型有一些重要的局限性，这使得我们在后续的章节中要转而关注更加复杂的模型，例如支持向量机和神经网络。

困难的产生主要是因为我们假设了基函数在观测到任何数据之前就被固定了下来，而这正是维数灾难问题的一个表现形式。结果，基函数的数量随着输入空间的维度\(D\)迅速增长（通常是指数方式增长）。

幸运的是，真实数据集有两个性质，可以帮助我们缓解这个问题。第一，数据向量\(\{x_n\}\)通常位于一个非线性流形内部。由于输入变量之间的相关性，这个流形本身的维度小于输入空间的维度。我们将在后面讨论手写数字识别时给出一个例子来说明这一点。如果我们使用局部基函数，那么我们可以让基函数只分布在输入空间中包含数据的区域。这种方法被用在径向基函数网络中，也被用在支持向量机和相关向量机当中。神经网络模型使用可调节的基函数，这些基函数有着sigmoid非线性的性质。神经网络可以通过调节参数，使得在输入空间的区域中基函数会按照数据流形发生变化。第二，目标变量可能只依赖于数据流形中的少量可能的方向。利用这个性质，神经网络可以通过选择输入空间中基函数产生响应的方向。

7 参考资料

Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006
Markus Svensen, Christopher M. Bishop, Pattern Recognition and Machine Learning - Solutions to the Exercises: Tutors’ Edition, Springer, 2009
马春鹏，《模式识别与机器学习》（本文部分名词翻译来自此书），PRML的网传中文版，2014
S函数
双曲函数
偏置-方差分解
数据科学导论 Page47
Delta函数
PRML 模式识别和机器学习从零开始的公式推导 3.5 证据近似 3.5.1 计算证据函数
PRML 模式识别和机器学习从零开始的公式推导 3.5.3参数的有效数量 3.6固定基函数的局限性

你可能感兴趣的:(PRML 回归的线性模型)

再见，Elasticsearch ！码农code之路 elasticsearch 大数据搜索引擎全文检索
新一代搜索引擎，是ES的15倍，号称干翻ES！ManticoreSearch是一个使用C++开发的高性能搜索引擎，创建于2017年，其前身是SphinxSearch。ManticoreSearch充分利用了Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码并保持开源。这一切使ManticoreSearch成为一个现代，快速，轻量级和功能齐全的数据库，具有出色的全文搜索功能。Ma
Mac系统安装 deepxde +VS code + pytorch 积分酱 pytorch python 人工智能机器学习
deepxde在Mac系统安装和学习笔记系列因为换了苹果电脑MacBookPro，所以软件都需要重新安装，记录一下安装过程。我的配置是python+VSCode。打开终端，直接按住command+空格键，输入终端就可以打开了。1.deepxde安装首先输入python3--version查看python版本，我的是Python3.9.13然后输入python3-mpip-V查看自己的pip版本，我
前端知识速记—JS篇：箭头函数无限大. 前端知识速记 javascript 前端开发语言
前端知识速记—JS篇：箭头函数什么是箭头函数？箭头函数是ES6引入的一种新的函数书写方式，其语法更为简洁，常用于替代传统的函数表达式。箭头函数的基本语法如下：constfunctionName=(parameters)=>{//函数体};通过这种方式，开发者可以以更简练的形式定义函数，提高代码的可读性。箭头函数的基本特性1.简化语法箭头函数最直接的优势就是语法简单，特别是在定义短小的函数时，能显著
php yii 微信支付宝,Yii使用easywechat实现微信支付爱吃生菜的鱼 php yii 微信支付宝
您现在的位置是：网站首页>>微信>>微信公众号Yii使用easywechat实现微信支付发布时间：2019-04-3011:43:07作者：wangjian浏览量：1142点赞量：0一：微信公众号申请微信支付申请微信公众号的微信支付申请这里就不进行叙述了二：yii配置支付配置这里我使用的是max-wen/yii2-easy-wechat，所以这里我参考的是3.X版本的文档2：微信支付配置'WECH
微信小程序上传图片到服务器总是失败_微信小程序压缩图片并上传到服务器（拿去即用）... weixin_39665847
这里注意一下，图片压缩后的宽度是画布宽度的一半canvasToTempFilePath创建画布的时候会有一定的时间延迟容易失败，这里加setTimeout来缓冲一下这是单张图片压缩，多张的压缩暂时还没有成功，保存到服务器上后是空白的，如有大神望指点一二(＞人＜；)/**压缩图片*/compressionImage(tempFilePaths,params){letthat=thiswx.getIm
Python入门教程丨3.2 再见Excel！用Python这5个模块，我把3天工作压缩到3分钟凌小添 Python教程 python excel 开发语言
⭐还在用Excel手动算均值方差？还在为海量数据统计熬夜加班？用Python这5把「数据手术刀」写一次代码，就能直接复用，专业报告自动生成！本期内容：模块核心功能应用场景math数学计算几何、物理模拟random生成随机数据游戏、抽样测试statistics统计分析回归分析、市场调研numpy数组与矩阵运算图像处理、机器学习pandas表格数据处理与分析金融分析、数据清洗一、基础数学库1.1mat
Cursor 的 AI 模型：代码生成与理解的原理 drebander AI 编程 Cursor
引言在当今的软件开发领域，人工智能（AI）正在迅速改变开发者的工作方式。Cursor作为一款智能编程助手，通过集成先进的AI模型，为开发者提供了强大的代码生成、补全和优化功能。Cursor的核心竞争力在于其AI模型的能力，这些模型不仅能够理解代码的上下文，还能生成高质量的代码建议。本文将深入探讨Cursor使用的AI模型（如GPT系列或其他定制模型），并解析这些模型如何理解代码上下文并生成高质量的
Android 图片高斯模糊又双㕛叕、 Android
1.RenderScript/***将传入的图片进行高斯模糊**@parammContext上下文*@parambitmap图片对象*@paramradius高斯模糊半径*@return模糊之后的对象*/publicstaticBitmapblur(ContextmContext,Bitmapbitmap,floatradius){longtime=System.currentTimeMillis
Vue.js 组合函数（Composables）轻口味 VUE.JS 入门与实践 vue.js 前端 javascript
Vue.js组合函数（Composables）今天我们来聊聊Vue3中的一个重要概念：组合式函数（Composables）。如果你对如何在Vue3中复用有状态逻辑感兴趣，那么这篇文章将为你解答。什么是组合式函数？在Vue应用中，组合式函数是利用Vue的组合式API（CompositionAPI）来封装和复用有状态逻辑的函数。这使得我们可以将组件的逻辑提取到独立的函数中，从而在不同的组件之间共享和复
鸿蒙应用实战接入高德地图API James吖 harmonyos ux 华为
引言随着鸿蒙系统的不断发展，越来越多的应用开始选择在其平台上部署。为了提升用户体验，开发者常常需要集成地图功能。高德地图作为国内主流的地图服务提供商之一，其丰富的API和稳定的性能受到了广大开发者的青睐。本文将详细介绍如何在鸿蒙应用中实现高德地图功能，帮助开发者快速上手。前提条件在开始之前，请确保你已经具备以下条件：已经创建了鸿蒙应用。在高德开放平台上注册并创建了应用，获取到了AppKey。了解鸿
鸿蒙应用实战接入微信登录 James吖 harmonyos 微信 ux
引言随着鸿蒙系统的不断发展，越来越多的开发者开始关注并投入到鸿蒙生态中。为了提升用户体验，开发者常常会在应用中集成社交登录功能，微信登录便是其中一种常见的方式。本文将详细介绍如何在鸿蒙应用中实现微信登录功能，帮助开发者快速上手。前提条件在开始之前，请确保你已经具备以下条件：已经创建了鸿蒙应用。在微信开放平台上注册并创建了应用，获取到了AppID和AppSecret。了解鸿蒙开发的基本知识。准备工作
鸿蒙应用实战接入微信支付API James吖 harmonyos 微信华为
引言随着鸿蒙系统的普及和发展，越来越多的应用选择在其平台上部署。为了提升用户体验，开发者常常需要集成支付功能。微信支付作为国内主流的支付方式之一，其便捷性和安全性受到了广大用户的青睐。本文将详细介绍如何在鸿蒙应用中实现微信支付功能，帮助开发者快速上手。前提条件在开始之前，请确保你已经具备以下条件：已经创建了鸿蒙应用。在微信支付平台上注册并创建了商户账户，获取到了AppID、MCH_ID和API密钥
android 高斯模糊和毛玻璃效果的实现王虫虫就爱吃 java
一：Glide实现高斯模糊：（还有一种由RenderScript实现的高斯模糊，但在我的实际使用时候会报错，因此弃用了）Glide是一个比较强大也是比较常用的一个图片加载库，Glide中的Transformations用于在图片显示前对图片进行处理，glide-transformations这个库为Glide提供了多种多样的Transformations实现，其中就包括高斯模糊的实现BlurTra
招聘 | 具身智能机器人方向全职作者量子位
关注前沿科技量子位未来同事你好。你知道“具身智能机器人”了吗？是否希望成为这个时代性技术和产品的长期报道者？现在，我们正在招聘这样一位专注于具身智能机器人方向的原创作者。岗位是全职，工作地点base：北京中关村。工作职责：1、关注具身智能领域新动态新进展；2、持续挖掘撰写具身智能独家原创内容；3、与具身智能领域玩家建立良好联系；4、构建体系化认知和行业洞察。岗位要求：1、对具身智能、前沿科技等科技
使用Ollama部署deepseek大模型
使用Ollama部署deepseek大模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama官方版:https://ollama.com/我的显卡在Windows电脑上面所以使用Windows的安装方式去安装若你的显卡是在Linux上面可以使用如下命令安装curl-fsSLhttps://ollama
Jenkins你真的会用吗？我码玄黄运维后端教你一招 jenkins 运维
Jenkins你真的会用吗？前言在现代软件开发中，持续集成和持续交付（CI/CD）已成为不可或缺的一部分。Jenkins作为最流行的CI/CD工具之一，提供了强大的流水线功能，帮助开发者自动化构建、测试和部署流程。Jenkins流水线主要分为声明式流水线和脚本化流水线两种类型。本文将深入探讨这两种流水线的特点、使用场景以及如何在实际项目中灵活运用。1.声明式流水线：简洁与结构化的完美结合声明式流水
Reqable：现代化 API 调试工具我码玄黄运维后端教你一招测试工具后端运维测试
Reqable：现代化API调试工具Reqable是一款专为开发者设计的现代化API调试工具，旨在简化API开发、测试和调试的流程。它支持多种协议（如HTTP、HTTPS、WebSocket等），并提供了丰富的功能，帮助开发者更高效地构建、调试和分析API请求与响应。Reqable以其简洁的设计、强大的功能和卓越的性能，成为越来越多开发者的首选工具。Reqable的核心优势简洁直观的用户界面Req
AI对接之对话API对接指南我码玄黄 AI 探索 AI 工具教你一招人工智能 AI AI对接前端
AI对接之对话API对接指南本系列AI的API对接均以DeepSeek为例，其他大模型的对接方式类似。在人工智能领域，对话系统是连接人与机器的重要桥梁。DeepSeekAPI提供了一个强大的对话补全功能，使得开发者能够轻松地将智能对话集成到自己的应用中。本文将详细介绍如何对接DeepSeek的对话补全API，并展示几种典型的使用形式。1.API概览DeepSeek的对话补全API通过一个POST请
『OpenCV-Python』Trackbar控件的用法
点赞+关注+收藏=学会了推荐关注《OpenCV-Python专栏》在OpenCV中，Trackbar控件（滑块）是一个非常常用的GUI组件，用于在图像处理和计算机视觉任务中进行交互式调整参数。比如说，加载一个图片，通过一个滑块调整图片的亮度，这样便于我们用肉眼观察图片的变化。Trackbar允许用户通过拖动滑块来调整参数的值，并且会实时更新显示结果。比如上图这个例子，创建了3个Trackbar控件
『OpenCV-Python』鼠标事件 opencv
点赞+关注+收藏=学会了在使用OpenCV进行图像处理时，有时需要与图像进行交互，例如选择感兴趣区域（ROI）、标注关键点、调整参数、获取图片指定位置的颜色值等。OpenCV提供了鼠标事件支持，可以在图像窗口中通过鼠标实现丰富的交互功能。推荐《OpenCV专栏》用到的方法是cv2.setMouseCallback(window_name,on_mouse,param=None)，用这个方法监听鼠标
『OpenCV-Python』视频的读取和保存
点赞+关注+收藏=学会了推荐关注《OpenCV-Python专栏》上一讲介绍了OpenCV的读取图片的方法，这一讲简单聊聊OpenCV读取和保存视频。视频的来源主要有2种，一种是本地视频文件，另一种是实时视频流，比如手机和电脑的摄像头。要读取这两种视频的方法都是一样的，只是传的参数不同而已。读取摄像头视频读取摄像头的内容并显示出来需要几步获取摄像头内容逐帧渲染importcv2cap=cv2.Vi
分享一个列表页和详情页数据同步的方案
今天加入了一个新项目，阅读代码的时候发现了一个列表页和详情页数据同步的方案，之前自己还从来没用过，觉得不错，所以记录下。场景描述用户在列表页，点击某条数据，进入详情页。在详情页中，用户会进行一些交互，比如点赞、收藏等等。这时候，如果返回列表页，刚才详情点赞、收藏等等的操作数据需要同步到列表页中。一般的处理方式是重新拉取列表页数据。这样当然也没什么问题，但我们可以改进一下，我们看看改进方案改进方案：
一文看懂Go语言协程的设计与原理「已注销」 golang 后端开发语言 go
首发于微信公众号：【码农在新加坡】，欢迎关注。个人博客网站：一文看懂Go语言协程的设计与原理背景Go语言最大的特色就是从语言层面支持并发（Goroutine），Goroutine是Go中最基本的执行单元。事实上每一个Go程序至少有一个Goroutine：mainGoroutine。Go程序从main包的main()函数开始，在程序启动时，Go程序就会为main()函数创建一个默认的goroutin
AI人工智能代理工作流 AI Agent WorkFlow：在物流与供应链中的应用 AI架构设计之禅大数据AI人工智能 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：在物流与供应链中的应用1.背景介绍1.1物流与供应链行业面临的挑战物流与供应链行业是现代经济的重要组成部分,涉及原材料采购、产品生产、仓储配送、销售等多个环节。随着全球化进程加快,供应链日益复杂,企业面临着成本控制、效率提升、风险管理等诸多挑战。传统的物流与供应链管理模式已难以适应市场变化,亟需引入新技术和创新方法。1.2人工智能在物流供应链中
[python][whl]python模块triton的whl文件下载地址汇总 Java后时代程序员 python linux 开发语言
triton-2.0.0-cp310-cp310-win_amd64.whl下载地址：https://download.csdn.net/download/FL1623863129/88631360triton-2.1.0-cp310-cp310-win-amd64.whl下载地址：https://download.csdn.net/download/FL1623863129/88973905【l
Go语言协程 kawhi794 golang
目录前言一、进程、线程、协程1.进程2.线程3.协程4.协程的优势5.进程、线程、协程的对比二、协程1.协程数据结构2.协程执行过程3.GMP调度模型4.调度策略1.队列轮转2.系统调用3.工作量窃取4.抢占式调度总结前言最近发现go语言大火，越来越多的大厂都开始使用go语言，很多人也开启了学习Go语言，本文就介绍了Go语言中协程的基础内容以及协程的调度模型。一、进程、线程、协程1.进程进程是应用
thinkphp5使用easywechat集成微信扫码支付骑猪行钢线后端语言
微信扫码支付用起来还是很方便的，如果使用微信支付官方的sdk开发也是可以的，不过还是选择了easywechat，主要还是因为easywechat集成了各种功能，基本上和微信相关的接口都做了比较不错的封装，因为要同时使用很多功能，索性微信扫码支付也一并用easywechat做了，而且不得不说使用方法是十分的简单，不多说了直接上步骤：1，使用composer在thinkphp5项目的根目录安装easy
Linux内核中的页面错误处理机制与按需分页技术 109702008 #linux系统编程 #linux内核 linux 人工智能 c语言
在现代操作系统中，内存管理是核心功能之一，而页面错误（PageFault）处理机制是内存管理的重要组成部分。当程序访问一个尚未映射到物理内存的虚拟地址时，CPU会触发页面错误异常，内核需要捕获并处理这种异常，以决定如何响应，例如加载缺失的页面、处理权限错误等。Linux内核通过一系列复杂的函数和机制来处理这些页面错误，确保系统的稳定性和安全性。本文将详细分析Linux内核中处理页面错误的核心机制，
探索人脸识别的奥秘：基于OpenCV和Python的开源项目推荐杭劲钰Majestic
探索人脸识别的奥秘：基于OpenCV和Python的开源项目推荐【下载地址】毕业设计-基于OpenCV和Python的人脸识别本项目源码是针对毕业生设计的一套完整的人脸识别系统，利用先进的OpenCV库结合Python编程语言实现。该项目旨在提供一个易于理解、便于修改和移植的基础框架，非常适合计算机科学及相关专业的学生作为毕业设计或课程项目使用。系统不仅涵盖了基本的人脸检测与识别功能，其简洁的代码
接口自动化测试框架搭建详解互联网杂货铺软件测试测试用例自动化测试职场和发展 postman 测试工具接口测试
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快为什么要做（自动化）接口测试？1、由于现在各个系统的复杂度不断上升，导致传统的测试方法成本上升且测试效率大幅下降，而接口测试相对于UI测试更加稳定，且相对容易实现自动化持续集成，可以减少人工回归测试的时间成本，缩短测试周期。2、接口测试可以更早的介入到项目开发中，一般只要接口定义好了，就可以写代码了。而功能测试必须要等系统提供可测的界面后
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round