Ghy817920

PRML学习总结（10）——Approximate Inference

10.1 Variational Inference

10.1.1 Factorized distributions
10.1.2 Properties of factorized approximations
10.1.3 Example: The univariate Gaussian
10.1.4 Model comparison

10.2. Illustration: Variational Mixture of Gaussians

10.2.1 Variational distribution
10.2.2 Variational lower bound
10.2.3 Predictive density
10.2.4 Determining the number of components
10.2.5 Induced factorizations

10.3 Variational Linear Regression

10.3.1 Variational distribution
10.3.2 Predictive distribution
10.3.3 Lower bound

10.4 Exponential Family Distributions

10.4.1 Variational message passing

10.5. Local Variational Methods
10.6 Variational Logistic Regression

10.6.1 Variational posterior distribution
10.6.2 Optimizing the variational parameters
10.6.3 Inference of hyperparameters

10.7 Expectation Propagation

10.7.1 Example: The clutter problem
10.7.2 Expectation propagation on graphs

在有些情况下，精确推断是难以实现，只能寻求近似推断，根据近似⽅法依赖于随机近似还是确定近似，⽅法⼤体分为两⼤类。随机⽅法，例如第11章介绍的马尔科夫链蒙特卡罗⽅法，使得贝叶斯⽅法能够在许多领域中⼴泛使⽤。这些⽅法通常具有这样的性质：给定⽆限多的计算资源，它们可以⽣成精确的结果，近似的来源是使⽤了有限的处理时间。在实际应⽤中，取样⽅法需要的计算量会相当⼤，经常将这些⽅法的应⽤限制在了⼩规模的问题中。并且，判断⼀种取样⽅法是否⽣成了服从所需的概率分布的独⽴样本是很困难的。
本章中，我们介绍了⼀系列的确定性近似⽅法，有些⽅法对于⼤规模的数据很适⽤。这些⽅法基于对后验概率分布的解析近似，例如通过假设后验概率分布可以通过⼀种特定的⽅式分解，或者假设后验概率分布有⼀个具体的参数形式，例如⾼斯分布。对于这种情况，这些⽅法永远⽆法⽣成精确的解，因此这些⽅法的优点和缺点与取样⽅法是互补的。

10.1 Variational Inference

假设我们有⼀个纯粹的贝叶斯模型，其中每个参数都有⼀个先验概率分布。这个模型也可以有潜在变量以及参数，我们会把所有潜在变量和参数组成的集合记作 $\mathbf Z$ 。类似地，我们会把所有观测变量的集合记作 $\mathbf X$ 。例如，我们可能有 $N$ 个独⽴同分布的数据，其中 $\mathbf{X}=\left\{\mathbf{x}_{1}, \dots, \mathbf{x}_{N}\right\}$ 且 $\mathbf{Z}=\left\{\mathbf{z}_{1}, \dots, \mathbf{z}_{N}\right\}$ 。我们的概率模型确定了联合分布 $p(\mathbf{X}, \mathbf{Z})$ ，我们的目标是寻找后验分布 $p(\mathbf{Z}|\mathbf{X})$ 和模型evidence $p(\mathbf{X})$ 的近似分布，之前在EM算法中介绍了 $\ln p(\mathbf{X})=\mathcal{L}(q)+\mathrm{KL}(q \| p)$ 其中 $\begin{aligned} \mathcal{L}(q) &=\int q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}\right\} \mathrm{d} \mathbf{Z} \\ \mathrm{KL}(q \| p) &=-\int q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{Z} | \mathbf{X})}{q(\mathbf{Z})}\right\} \mathrm{d} \mathbf{Z} \end{aligned}$ 与EM不同的是，参数 $\boldsymbol \theta$ 一起包括在 $\mathbf Z$ 中。和之前的分析一样，当最大化lower bound $\mathcal{L}(q)$ 时，就是在最小化KL部分，也就是说，当 $q(\mathbf Z)$ 足够自由时，KL部分就会消失，从而 $q(\mathbf Z)=p(\mathbf Z|\mathbf X)$ 。但是现在我们考虑的模型十分复杂，真是后验是没法计算的。于是，我们转⽽考虑概率分布 $q(\mathbf Z)$ 的⼀个受限制的类别，然后寻找这个类别中使得KL散度达到最⼩值的概率分布。

10.1.1 Factorized distributions

下面介绍一种平均场理论，也就是将 $q(\mathbf Z)$ 分解为 $q(\mathbf{Z})=\prod_{i=1}^{M} q_{i}\left(\mathbf{Z}_{i}\right)$ 在这种分解的限制下，优化ELBO，只考虑 $q_{j}$ $\begin{aligned} \mathcal{L}(q) &=\int \prod_{i} q_{i}\left\{\ln p(\mathbf{X}, \mathbf{Z})-\sum_{i} \ln q_{i}\right\} \mathrm{d} \mathbf{Z} \\ &=\int q_{j}\left\{\int \ln p(\mathbf{X}, \mathbf{Z}) \prod_{i \neq j} q_{i} \mathrm{d} \mathbf{Z}_{i}\right\} \mathrm{d} \mathbf{Z}_{j}-\int q_{j} \ln q_{j} \mathrm{d} \mathbf{Z}_{j}+\text { const } \\ &=\int q_{j} \ln \widetilde{p}\left(\mathbf{X}, \mathbf{Z}_{j}\right) \mathrm{d} \mathbf{Z}_{j}-\int q_{j} \ln q_{j} \mathrm{d} \mathbf{Z}_{j}+\text { const } \end{aligned}$ 当我们固定 $\left\{q_{i \neq j}\right\}$ 时，可以发现最大ELBO就是在 $q_{j}\left(\mathbf{Z}_{j}\right)=\widetilde{p}\left(\mathbf{X}, \mathbf{Z}_{j}\right)$ 。 $\ln q_{j}^{\star}\left(\mathbf{Z}_{j}\right)=\mathbb{E}_{i \neq j}[\ln p(\mathbf{X}, \mathbf{Z})]+\text { const. }$ 注意的是，const就是一个配比因子，归一化。 $q_{j}^{\star}\left(\mathbf{Z}_{j}\right)=\frac{\exp \left(\mathbb{E}_{i \neq j}[\ln p(\mathbf{X}, \mathbf{Z})]\right)}{\int \exp \left(\mathbb{E}_{i \neq j}[\ln p(\mathbf{X}, \mathbf{Z})]\right) \mathrm{d} \mathbf{Z}_{j}}$ 得到这样的结果，我们就可以采用迭代的方式得到最终结果。

10.1.2 Properties of factorized approximations

我们的变分推断的⽅法基于的是真实后验概率分布的分解近似。让我们现在考虑⼀下使⽤分解概率分布的⽅式近似⼀个⼀般的概率分布的问题。⾸先，我们讨论使⽤分解的⾼斯分布近似⼀个⾼斯分布的问题，这会让我们认识到在使⽤分解近似时会引⼊的不准确性有哪些类型。需要近似的二维高斯分布为 $p(\mathbf{z})=\mathcal{N}\left(\mathbf{z} | \boldsymbol{\mu}, \mathbf{\Lambda}^{-1}\right)$ ，利用 $q(\mathbf{z})=q_{1}\left(z_{1}\right) q_{2}\left(z_{2}\right)$ 近似它。 $\begin{aligned} \ln q_{1}^{\star}\left(z_{1}\right) &=\mathbb{E}_{z_{2}}[\ln p(\mathbf{z})]+\text { const } \\ &=\mathbb{E}_{z_{2}}\left[-\frac{1}{2}\left(z_{1}-\mu_{1}\right)^{2} \Lambda_{11}-\left(z_{1}-\mu_{1}\right) \Lambda_{12}\left(z_{2}-\mu_{2}\right)\right]+\mathrm{const} \\ &=-\frac{1}{2} z_{1}^{2} \Lambda_{11}+z_{1} \mu_{1} \Lambda_{11}-z_{1} \Lambda_{12}\left(\mathbb{E}\left[z_{2}\right]-\mu_{2}\right)+\text { const. } \end{aligned}$ 上式的右边刚好关于 $z_1$ 的二次函数，则说明 $q^{\star}\left(z_{1}\right)$ 刚好也是高斯分布，需要说明的是，平均场理论，我们并没有规定各个分解后的分布的类型，这儿就能推出分布是个什么类型。 $q^{\star}\left(z_{1}\right)=\mathcal{N}\left(z_{1} | m_{1}, \Lambda_{11}^{-1}\right)$ 其中 $m_{1}=\mu_{1}-\Lambda_{11}^{-1} \Lambda_{12}\left(\mathbb{E}\left[z_{2}\right]-\mu_{2}\right)$ 同理可得 $q_{2}^{\star}\left(z_{2}\right)=\mathcal{N}\left(z_{2} | m_{2}, \Lambda_{22}^{-1}\right)$ $m_{2}=\mu_{2}-\Lambda_{22}^{-1} \Lambda_{21}\left(\mathbb{E}\left[z_{1}\right]-\mu_{1}\right)$ 可以发现 $q^{\star}\left(z_{1}\right)$ 和 $q_{2}^{\star}\left(z_{2}\right)$ 相互耦合，即互相包括了期望值，因此可以采用迭代的方式进行求解。通过分析可以发现，最终均值就是 $\mathbb{E}\left[z_{1}\right]=\mu_{1}$ ， $\mathbb{E}\left[z_{2}\right]=\mu_{2}$ 。结果如图10.2(a)，我们看到，均值被正确地描述了，但是 $q(\mathbf z)$ 的⽅差由 $p(\mathbf z)$ 的最⼩⽅差的⽅向所确定，沿着垂直⽅向的⽅差被强烈地低估了。这是⼀个⼀般的结果，即分解变分近似对后验概率分布的近似倾向于过于紧凑。
作为⽐较，假设我们最⼩化相反的Kullback-Leibler散度 $\mathrm{KL}(p \| q)$ 。正如我们将看到的那样，这种形式的KL散度被⽤于另⼀种近似推断的框架中，这种框架被称为期望传播（expectation propagation）。于是，我们考虑⼀般的最⼩化 $\mathrm{KL}(p \| q)$ 的问题，其中 $q(\mathbf Z)$ 是形式为 $q(\mathbf{Z})=\prod_{i=1}^{M} q_{i}\left(\mathbf{Z}_{i}\right)$ 的分解近似。这样，KL散度可以写成 $\mathrm{KL}(p \| q)=-\int p(\mathbf{Z})\left[\sum_{i=1}^{M} \ln q_{i}\left(\mathbf{Z}_{i}\right)\right] \mathrm{d} \mathbf{Z}+\text { const }$ $q_{j}^{\star}\left(\mathbf{Z}_{j}\right)=\int p(\mathbf{Z}) \prod_{i \neq j} \mathrm{d} \mathbf{Z}_{i}=p\left(\mathbf{Z}_{j}\right)$ 以上结果为一个解析解，不需要迭代，结果如图10.2(b)。我们再⼀次看到，对均值的近似是正确的，但是它把相当多的概率质量放到了实际上具有很低的概率的变量空间区域中。之所以会造成这样的不同 $\mathrm{KL}(q \| p)=-\int q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{Z})}{q(\mathbf{Z})}\right\} \mathrm{d} \mathbf{Z}$ 当 $p(\mathbf Z)$ 为0的区域， $q(\mathbf Z)$ 必须也为0，否则会让上式引入一个很大的正数贡献。而反KL散度，当 $p(\mathbf Z)$ 为0的区域，当 $q(\mathbf Z)$ 不为0时，不会引入正数贡献，并且 $p(\mathbf Z)$ 不为0的区域， $q(\mathbf Z)$ 必须不为0。
当用单高斯近似多元高斯时，基于最⼩化 $\mathrm{KL}(q \| p)$ 的变分⽅法倾向于找到这些峰值中的⼀个。相反，如果我们最⼩化 $\mathrm{KL}(p \| q)$ ，那么得到的近似会在所有的均值上取平均。在混合模型问题中，这种⽅法会给出较差的预测分布（因为两个较好的参数值的平均值通常不是⼀个较好的参数值）。可以使⽤ $\mathrm{KL}(p \| q)$ 定义⼀个有⽤的推断步骤，但是这需要⼀种与这⾥讨论的内容相当不同的⽅法。当我们讨论期望传播的时候，我们会仔细讨论这⼀点。
以上两个KL散度其实为alpha家族 $\mathrm{D}_{\alpha}(p \| q)=\frac{4}{1-\alpha^{2}}\left(1-\int p(x)^{(1+\alpha) / 2} q(x)^{(1-\alpha) / 2} \mathrm{d} x\right)$

10.1.3 Example: The univariate Gaussian

考虑一个高斯分布，我们的目标是去近似均值和精度的后验分布。似然为 $p(\mathcal{D} | \mu, \tau)=\left(\frac{\tau}{2 \pi}\right)^{N / 2} \exp \left\{-\frac{\tau}{2} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\}$ 引入共轭先验为 $\begin{aligned} p(\mu | \tau) &=\mathcal{N}\left(\mu | \mu_{0},\left(\lambda_{0} \tau\right)^{-1}\right) \\ p(\tau) &=\operatorname{Gam}\left(\tau | a_{0}, b_{0}\right) \end{aligned}$ 对于这个问题我们能够计算出精确的后验分布，这儿我们采用平均场变分推理 $q(\mu, \tau)=q_{\mu}(\mu) q_{\tau}(\tau)$ 可得 $\begin{aligned} \ln q_{\mu}^{\star}(\mu) &=\mathbb{E}_{\tau}[\ln p(\mathcal{D} | \mu, \tau)+\ln p(\mu | \tau)]+\text { const } \\ &=-\frac{\mathbb{E}[\tau]}{2}\left\{\lambda_{0}\left(\mu-\mu_{0}\right)^{2}+\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\}+\text { const. } \end{aligned}$ 可以发现该分布为一个高斯分布， $\mathcal{N}\left(\mu | \mu_{N}, \lambda_{N}^{-1}\right)$ 其中 $\begin{aligned} \mu_{N} &=\frac{\lambda_{0} \mu_{0}+N \overline{x}}{\lambda_{0}+N} \\ \lambda_{N} &=\left(\lambda_{0}+N\right) \mathbb{E}[\tau] \end{aligned}$ 注意当 $\rightarrow \infty$ 时，就变为了MLE。同样地 $\begin{aligned} \ln q_{\tau}^{\star}(\tau)=& \mathbb{E}_{\mu}[\ln p(\mathcal{D} | \mu, \tau)+\ln p(\mu | \tau)]+\ln p(\tau)+\text { const } \\=&\left(a_{0}-1\right) \ln \tau-b_{0} \tau+\frac{N}{2} \ln \tau \\ &-\frac{\tau}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right]+\text { const } \quad \end{aligned}$ 此时为一个gamma分布 $\operatorname{Gam}\left(\tau | a_{N}, b_{N}\right)$ $\begin{aligned} a_{N} &=a_{0}+\frac{N}{2} \\ b_{N} &=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \end{aligned}$ 需要说明的是，我们并没有事先规定各个分布的类型，而是很自然地推导出。由于以上两个分布相互耦合，同样可以采取迭代的方式

10.1.4 Model comparison

10.2. Illustration: Variational Mixture of Gaussians

这儿讨论的是全贝叶斯的GMM

$p(\mathbf{Z} | \boldsymbol{\pi})=\prod_{n=1}^{N} \prod_{k=1}^{K} \pi_{k}^{z_{n k}}$ $p(\mathbf{X} | \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=\prod_{n=1}^{N} \prod_{k=1}^{K} \mathcal{N}\left(\mathbf{x}_{n} | \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right)^{z_{n k}}$ $p(\boldsymbol{\pi})=\operatorname{Dir}\left(\boldsymbol{\pi} | \boldsymbol{\alpha}_{0}\right)=C\left(\boldsymbol{\alpha}_{0}\right) \prod_{k=1}^{K} \pi_{k}^{\alpha_{0}-1}$ $\begin{aligned} p(\boldsymbol{\mu}, \boldsymbol{\Lambda}) &=p(\boldsymbol{\mu} | \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda}) \\ &=\prod_{k=1}^{K} \mathcal{N}\left(\boldsymbol{\mu}_{k} | \mathbf{m}_{0},\left(\beta_{0} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\boldsymbol{\Lambda}_{k} | \mathbf{W}_{0}, \nu_{0}\right) \end{aligned}$

10.2.1 Variational distribution

首先写成该模型的联合分布 $p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=p(\mathbf{X} | \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\mathbf{Z} | \boldsymbol{\pi}) p(\boldsymbol{\pi}) p(\boldsymbol{\mu} | \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda})$ 利用平均场变分 $q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=q(\mathbf{Z}) q(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})$ 首先更新第一个因子 $\ln q^{\star}(\mathbf{Z})=\mathbb{E}_{\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda}}[\ln p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})]+\text { const. }$ 则 $\ln q^{\star}(\mathbf{Z})=\mathbb{E}_{\pi}[\ln p(\mathbf{Z} | \boldsymbol{\pi})]+\mathbb{E}_{\boldsymbol{\mu}, \boldsymbol{\Lambda}}[\ln p(\mathbf{X} | \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\Lambda})]+\text { const. }$ 进一步 $\ln q^{\star}(\mathbf{Z})=\sum_{n=1}^{N} \sum_{k=1}^{K} z_{n k} \ln \rho_{n k}+\text { const }$ 其中 $\begin{aligned} \ln \rho_{n k}=& \mathbb{E}\left[\ln \pi_{k}\right]+\frac{1}{2} \mathbb{E}\left[\ln \left|\boldsymbol{\Lambda}_{k}\right|\right]-\frac{D}{2} \ln (2 \pi) \\ &-\frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \end{aligned}$ 从而 $q^{\star}(\mathbf{Z}) \propto \prod_{n=1}^{N} \prod_{k=1}^{K} \rho_{n k}^{z_{n k}}$ 归一化后 $q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}}$ 其中 $r_{n k}=\frac{\rho_{n k}}{\sum_{j=1}^{K} \rho_{n j}}$ 有 $\mathbb{E}\left[z_{n k}\right]=r_{n k}$ 预先定义 $\begin{aligned} N_{k} &=\sum_{n=1}^{N} r_{n k} \\ \overline{\mathbf{x}}_{k} &=\frac{1}{N_{k}} \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \\ \mathbf{S}_{k} &=\frac{1}{N_{k}} \sum_{n=1}^{N} r_{n k}\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)^{\mathrm{T}} \end{aligned}$ 考虑第二个因子 $q(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})$ ， $\begin{array}{c}{\ln q^{\star}(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=\ln p(\boldsymbol{\pi})+\sum_{k=1}^{K} \ln p\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right)+\mathbb{E}_{\mathbf{Z}}[\ln p(\mathbf{Z} | \boldsymbol{\pi})]} {\quad+\sum_{k=1}^{K} \sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_{n} | \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right)+\text { const. }}\end{array}$ 可以看到一些项只与 $\boldsymbol \pi$ 有关，有些与 $\boldsymbol \mu, \boldsymbol \Lambda$ 有关，说明可以将该因子进一步分解为 $q(\boldsymbol{\pi}) q(\boldsymbol{\mu}, \boldsymbol{\Lambda})$ ， $q(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=q(\boldsymbol{\pi}) \prod_{k=1}^{K} q\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right)$ 从而可得 $\ln q^{\star}(\boldsymbol{\pi})=\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \pi_{k}+\sum_{k=1}^{K} \sum_{n=1}^{N} r_{n k} \ln \pi_{k}+\text { const }$ 整理后 $q^{\star}(\boldsymbol{\pi})=\operatorname{Dir}(\boldsymbol{\pi} | \boldsymbol{\alpha})$ 其中 $\alpha_{k}=\alpha_{0}+N_{k}$ 最后，变分后验概率分布 $q^{\star}\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right)$ ⽆法分解成边缘概率分布的乘积，但是我们总可以使⽤概率的乘积规则，将其写成 $q^{\star}\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right)=q^{\star}\left(\boldsymbol{\mu}_{k} | \boldsymbol{\Lambda}_{k}\right) q^{\star}\left(\boldsymbol{\Lambda}_{k}\right)$ 。跟预期地一样 $q^{\star}\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} | \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\boldsymbol{\Lambda}_{k} | \mathbf{W}_{k}, \nu_{k}\right)$ 其中 $\begin{aligned} \beta_{k} &=\beta_{0}+N_{k} \\ \mathbf{m}_{k} &=\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right) \\ \mathbf{W}_{k}^{-1} &=\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{\beta_{0} N_{k}}{\beta_{0}+N_{k}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \\ \nu_{k} &=\nu_{0}+N_{k} \end{aligned}$ 之前在使用“责任” $\boldsymbol{r}_{n k}$ ，又涉及计算 $\begin{aligned} \mathbb{E}_{\mu_{k}, \Lambda_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\=& D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right) \\ \ln \widetilde{\Lambda}_{k} \equiv \mathbb{E}\left[\ln \left|\boldsymbol{\Lambda}_{k}\right|\right]=\sum_{i=1}^{D} \psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right| \\ \ln \widetilde{\pi}_{k} \equiv \mathbb{E}\left[\ln \pi_{k}\right]=\psi\left(\alpha_{k}\right)-\psi(\widehat{\alpha}) \end{aligned}$ 这两部分是相互耦合的，当把上面的再代入 $\boldsymbol{r}_{n k}$ $r_{n k} \propto \widetilde{\pi}_{k} \widetilde{\Lambda}_{k}^{1 / 2} \exp \left\{-\frac{D}{2 \beta_{k}}-\frac{\nu_{k}}{2}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right\}$ 在最大似然EM中，有 $r_{n k} \propto \pi_{k}\left|\boldsymbol{\Lambda}_{k}\right|^{1 / 2} \exp \left\{-\frac{1}{2}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right\}$ 可以发现变分贝叶斯也是两个步迭代优化。

可以发现优化后，并不会出现GMM的奇点。我们看到，在收敛之后，只有两个分量的混合系数的期望值可以与它们的先验值（先验设置为一个很小的数）区分开。这种效果可以根据贝叶斯模型中数据拟合与模型复杂度之间的折中来定性地理解。这种模型中的复杂度惩罚的来源是参数被推离了它们的先验值。对于解释数据点没有作⽤的分量满⾜ $r_{n k} \simeq 0$ ，从而 $N_{k} \simeq 0$ ，那么有些退化为先验值 $\alpha_{k} \simeq \alpha_{0}$ 。原则上，这些分量会微⼩地适应于数据点，但是对于⼀⼤类先验分布来说，这种微⼩的调整的效果太⼩了，以⾄于⽆法在数值上看出来。对于⾼斯混合模型，后验概率分布中的混合系数的期望值为 $\mathbb{E}\left[\pi_{k}\right]=\frac{\alpha_{k}+N_{k}}{K \alpha_{0}+N}$ 考虑某个退化的分量 $N_{k} \simeq 0$ and $\alpha_{k} \simeq \alpha_{0}$ ，当 $\alpha_{0} \rightarrow 0,$ then $\mathbb{E}\left[\pi_{k}\right] \rightarrow 0$ ，此时该分量就不起作用，而 $\alpha_{0} \rightarrow \infty,$ then $\mathbb{E}\left[\pi_{k}\right] \rightarrow 1/K$ 。之前狄利克雷分布的参数表示，当越小，则倾向让某些分量为0，从而本实验设置为 $\alpha_{0}=10^{-3}$ 。

10.2.2 Variational lower bound

在实际应⽤中，能够在重新估计期间监视模型的下界是很有⽤的，这可以⽤来检测是否收敛。它也可以为解的数学表达式和它们的软件执⾏提供⼀个有价值的检查，因为在迭代重新估计的每个步骤中，这个下界的值应该不会减⼩。我们可以进⼀步地使⽤变分下界检查更新⽅程的数学推导和它们的软件执⾏的正确性，⽅法是使⽤有限差来检查每次更新确实给出了下界的⼀个（具有限制条件的）极⼤值。 $\begin{aligned} \mathcal{L}=& \sum_{\mathbf{Z}} \iiint q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})}{q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})}\right\} \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda} \\=& \mathbb{E}[\ln p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\mu}, \boldsymbol{\Lambda})]-\mathbb{E}[\ln q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})] \\=& \mathbb{E}[\ln p(\mathbf{X} | \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \boldsymbol{\Lambda})] \end{aligned}$
对于这些期望，由于模型有共轭先验，因此变分后验分布的函数形式是已知的。通过使⽤这些分布的⼀般的参数形式，我们可以推导出下界的形式，将下界作为概率分布的参数的函数。关于这些参数最⼤化下界就会得到所需的重估计⽅程。

10.2.3 Predictive density

为了得到预测分布，即预测 $\widehat{\mathbf{x}}$ ， $p(\widehat{\mathbf{x}} | \mathbf{X})=\sum_{\hat{\mathbf{z}}} \iiint p(\widehat{\mathbf{x}} | \widehat{\mathbf{z}}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\widehat{\mathbf{z}} | \boldsymbol{\pi}) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} | \mathbf{X}) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}$ 其中 $p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} | \mathbf{X})$ 是未知的真实后验分布， $p(\widehat{\mathbf{x}} | \mathbf{X})=\sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} | \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} | \mathbf{X}) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}$ 可以将真实后验用变分后验代替 $p(\widehat{\mathbf{x}} | \mathbf{X})=\sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} | \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) q(\boldsymbol{\pi}) q\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{d} \boldsymbol{\Lambda}_{k}$ 从而可得一个student分布 $p(\widehat{\mathbf{x}} | \mathbf{X})=\frac{1}{\widehat{\alpha}} \sum_{k=1}^{K} \alpha_{k} \operatorname{St}\left(\widehat{\mathbf{x}} | \mathbf{m}_{k}, \mathbf{L}_{k}, \nu_{k}+1-D\right)$ 其中 $\mathbf{L}_{k}=\frac{\left(\nu_{k}+1-D\right) \beta_{k}}{\left(1+\beta_{k}\right)} \mathbf{W}_{k}$

10.2.4 Determining the number of components

10.2.5 Induced factorizations

再推导变分更新时，一开始仅仅考虑 $q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=q(\mathbf{Z}) q(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})$ 但是最优的结果又推导出一些新的分解 $q(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=q(\boldsymbol{\pi}) \prod_{k=1}^{K} q\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right)$ 这些额外的分解的产⽣原因是假定的分解⽅式与真实分布的条件独⽴性质相互作⽤的结果，正如图模型所告诉的那样

我们会把这些额外的分解⽅式成为诱导分解（induced factorizations），因为它们产⽣于在变分后验分布中假定的分解⽅式与真实联合概率分布的条件独⽴性质之间的相互作⽤。在变分⽅法的数值实现中，考虑这些附加的分解⽅式很重要。例如，对于⼀组变量上的⾼斯分布来说，如果分布的最优形式的精度矩阵总是对⾓矩阵（对应于关于由那个⾼斯分布独⽴描述的变量的分解⽅式），那么在计算过程中始终保留⼀个完整的精度矩阵是⼀种很低效的做法。
使⽤⼀种基于d-划分的简单的图检测⽅法，这种诱导的分解⽅式可以很容易地被检测到。我们将潜在变量划分为三个互斥的组 $\mathbf{A}, \mathbf{B}, \mathbf{C}$ ，然后让我们假定我们可以在变量 $\mathbf{C}$ 与剩余变量之间进⾏分解，即 $q(\mathbf{A}, \mathbf{B}, \mathbf{C})=q(\mathbf{A}, \mathbf{B}) q(\mathbf{C})$ 则 $\begin{aligned} \ln q^{\star}(\mathbf{A}, \mathbf{B}) &=\mathbb{E}_{\mathbf{C}}[\ln p(\mathbf{X}, \mathbf{A}, \mathbf{B}, \mathbf{C})]+\text { const } \\ &=\mathbb{E}_{\mathbf{C}}[\ln p(\mathbf{A}, \mathbf{B} | \mathbf{X}, \mathbf{C})]+\text { const } \end{aligned}$ 那么此处我们可以考虑是否存在 $q^{\star}(\mathbf{A}, \mathbf{B})=q^{\star}(\mathbf{A}) q^{\star}(\mathbf{B})$ ，这仅仅发生在 $\ln p(\mathbf{A}, \mathbf{B} | \mathbf{X}, \mathbf{C})=\ln p(\mathbf{A} | \mathbf{X}, \mathbf{C})+\ln p(\mathbf{B} | \mathbf{X}, \mathbf{C})$ ，也就是说 $\mathbf{A} \perp \mathbf{B} | \mathbf{X}, \mathbf{C}$

10.3 Variational Linear Regression

作为变分推断的第⼆个例⼦，我们回到3.3节的贝叶斯线性回归模型中。在模型证据框架中，我们通过使⽤最⼤化似然函数的⽅法进⾏点估计，从⽽近似了在 $\alpha$ 和 $\beta$ 上的积分。⼀个纯粹的贝叶斯⽅法会对所有的超参数和参数进⾏积分。虽然精确的积分是⽆法计算的，但是我们可以使⽤变分⽅法来找到⼀个可以处理的近似。为了简化讨论，我们会假设噪声精度参数 $\beta$ 已知，并且固定于它的真实值，虽然这个框架很容易扩展来包含 $\beta$ 上的概率分布。对于线性回归模型来说，可以证明变分⽅法等价于模型证据的框架。 $\begin{aligned} p(\mathbf{t} | \mathbf{w}) &=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} | \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}, \beta^{-1}\right) \\ p(\mathbf{w} | \alpha) &=\mathcal{N}\left(\mathbf{w} | \mathbf{0}, \alpha^{-1} \mathbf{I}\right) \end{aligned}$ 其中 $\phi_{n}=\phi\left(\mathbf{x}_{n}\right)$ ，取 $\alpha$ 的共轭先验 $p(\alpha)=\operatorname{Gam}\left(\alpha | a_{0}, b_{0}\right)$ 则 $p(\mathbf{t}, \mathbf{w}, \alpha)=p(\mathbf{t} | \mathbf{w}) p(\mathbf{w} | \alpha) p(\alpha)$

10.3.1 Variational distribution

首要目标是找到一个对后验分布 $p(\mathbf{w}, \alpha | \mathbf{t})$ 的近似，采用的变分分解为 $q(\mathbf{w}, \alpha)=q(\mathbf{w}) q(\alpha)$ 对 $\alpha$ 有 $\begin{array}{l}{\ln q^{\star}(\alpha)=\ln p(\alpha)+\mathbb{E}_{\mathbf{w}}[\ln p(\mathbf{w} | \alpha)]+\text { const }} \\ {\quad=\left(a_{0}-1\right) \ln \alpha-b_{0} \alpha+\frac{M}{2} \ln \alpha-\frac{\alpha}{2} \mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right]+\mathrm{const.}}\end{array}$ 刚好为 $q^{\star}(\alpha)=\operatorname{Gam}\left(\alpha | a_{N}, b_{N}\right)$ 其中 $\begin{aligned} a_{N} &=a_{0}+\frac{M}{2} \\ b_{N} &=b_{0}+\frac{1}{2} \mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right] \end{aligned}$ 同理有 $\begin{aligned} \ln q^{\star}(\mathbf{w}) &=\ln p(\mathbf{t} | \mathbf{w})+\mathbb{E}_{\alpha}[\ln p(\mathbf{w} | \alpha)]+\mathrm{const} \\ &=-\frac{\beta}{2} \sum_{n=1}^{N}\left\{\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}-t_{n}\right\}^{2}-\frac{1}{2} \mathbb{E}[\alpha] \mathbf{w}^{\mathrm{T}} \mathbf{w}+\text { const } \\ &=-\frac{1}{2} \mathbf{w}^{\mathrm{T}}\left(\mathbb{E}[\alpha] \mathbf{I}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right) \mathbf{w}+\beta \mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}+\text { const. } \end{aligned}$ 刚好为高斯 $q^{\star}(\mathbf{w})=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \mathbf{S}_{N}\right)$ 其中 $\begin{aligned} \mathbf{m}_{N} &=\beta \mathbf{S}_{N} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \\ \mathbf{S}_{N} &=\left(\mathbb{E}[\alpha] \mathbf{I}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \end{aligned}$ 注意这个结果与 $\alpha$ 被当成固定参数时得到的后验概率分布 $\mathbf{S}_{N}^{-1}=\alpha \mathbf{I}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{\Phi}$ 相似。又因 $\begin{aligned} \mathbb{E}[\alpha] &=a_{N} / b_{N} \\ \mathbb{E}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right] &=\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}+\mathbf{S}_{N} \end{aligned}$ 这样就可以迭代地更新变分后验。
当 $a_{0}=b_{0}=0$ 时，对应于一个无限宽的 $\alpha$ 先验，那么 $\mathbb{E}[\alpha]=\frac{a_{N}}{b_{N}}=\frac{M / 2}{\mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right] / 2}=\frac{M}{\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}+\operatorname{Tr}\left(\mathbf{S}_{N}\right)}$ 变分⽅法得到的解与使⽤EM算法最⼤化模型证据函数的⽅法得到的解完全相同，唯⼀的区别是 $\alpha$ 的点估计被替换为了它的期望值。由于分布 $q(\mathbf{w})$ 只通过期望 $\mathbb{E}[\alpha]$ 对 $q(\alpha)$ 产⽣依赖，因此我们看到这两种⽅法对于⽆限宽的先验概率分布会给出相同的结果。

10.3.2 Predictive distribution

$\begin{aligned} p(t | \mathbf{x}, \mathbf{t}) &=\int p(t | \mathbf{x}, \mathbf{w}) p(\mathbf{w} | \mathbf{t}) \mathrm{d} \mathbf{w} \\ & \simeq \int p(t | \mathbf{x}, \mathbf{w}) q(\mathbf{w}) \mathrm{d} \mathbf{w} \\ &=\int \mathcal{N}\left(t | \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1}\right) \mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \mathbf{S}_{N}\right) \mathrm{d} \mathbf{w} \\ &=\mathcal{N}\left(t | \mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \sigma^{2}(\mathbf{x})\right) \end{aligned}$ 其中 $\sigma^{2}(\mathbf{x})=\frac{1}{\beta}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}(\mathbf{x})$

10.3.3 Lower bound

另⼀个很重要的量是下界 $\begin{aligned} \mathcal{L}(q)=& \mathbb{E}[\ln p(\mathbf{w}, \alpha, \mathbf{t})]-\mathbb{E}[\ln q(\mathbf{w}, \alpha)] \\=& \mathbb{E}_{\mathbf{w}}[\ln p(\mathbf{t} | \mathbf{w})]+\mathbb{E}_{\mathbf{w}, \alpha}[\ln p(\mathbf{w} | \alpha)]+\mathbb{E}_{\alpha}[\ln p(\alpha)] \\ &-\mathbb{E}_{\alpha}[\ln q(\mathbf{w})]_{\mathbf{w}}-\mathbb{E}[\ln q(\alpha)] \end{aligned}$ 使⽤之前章节得到的结果，计算各项的值是很容易的，结果为 $\begin{aligned} \mathbb{E}[\ln p(\mathbf{t} | \mathbf{w})]_{\mathbf{w}}=& \frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+\beta \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \\ &-\frac{\beta}{2} \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\left(\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}+\mathbf{S}_{N}\right)\right] \end{aligned}$ $\begin{aligned} \mathbb{E}[\ln p(\mathbf{w} | \alpha)]_{\mathbf{w}, \alpha}=&-\frac{M}{2} \ln (2 \pi)+\frac{M}{2}\left(\psi\left(a_{N}\right)-\ln b_{N}\right) \\ &-\frac{a_{N}}{2 b_{N}}\left[\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}+\operatorname{Tr}\left(\mathbf{S}_{N}\right)\right] \end{aligned}$ $\begin{aligned} \mathbb{E}[\ln p(\alpha)]_{\alpha}=& a_{0} \ln b_{0}+\left(a_{0}-1\right)\left[\psi\left(a_{N}\right)-\ln b_{N}\right] \\ &-b_{0} \frac{a_{N}}{b_{N}}-\ln \Gamma\left(a_{N}\right) \end{aligned}$ $\begin{aligned}-\mathbb{E}[\ln q(\mathbf{w})]_{\mathbf{w}} &=\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{M}{2}[1+\ln (2 \pi)] \\-\mathbb{E}[\ln q(\alpha)]_{\alpha} &=\ln \Gamma\left(a_{N}\right)-\left(a_{N}-1\right) \psi\left(a_{N}\right)-\ln b_{N}+a_{N} \end{aligned}$ 给出了下界 $\mathcal{L}(q)$ 与多项式模型的阶数的关系图像，数据集是从⼀个三阶多项式中⼈⼯⽣成的。这⾥，先验参数被设置为 $a_{0}=b_{0}=0$ ，对应于⽆信息先验 $p(\alpha) \propto 1 / \alpha$ 。根据2.3.6节的讨论，它是 $ln\alpha$ 上的均匀分布。正如我们在10.1节看到的那样， $\mathcal{L}$ 表⽰模型的对数边缘似然函数 $\mathbf{t})$ 的下界。因此，变分框架将最⾼的概率赋予了 $M = 3$ 的模型。这与最⼤似然的结果相反。最⼤似然⽅法通过增加模型的复杂度尽可能地让误差变⼩，直到误差趋于零，这导致了最⼤似然⽅法倾向于选择具有严重过拟合现象的模型。

10.4 Exponential Family Distributions

考虑独⽴同分布数据的情形。我们将数据的值记作 $\mathbf{X}=\left\{\mathbf{x}_{n}\right\}$ ，其相应的隐变量为 $\mathbf{Z}=\left\{\mathbf{z}_{n}\right\}$ ，它们为指数族分布 $p(\mathbf{X}, \mathbf{Z} | \boldsymbol{\eta})=\prod_{n=1}^{N} h\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right) g(\boldsymbol{\eta}) \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \mathbf{u}\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right)\right\}$ 引入共轭先验 $p\left(\boldsymbol{\eta} | \nu_{0}, \boldsymbol{\chi}_{0}\right)=f\left(\nu_{0}, \boldsymbol{\chi}_{0}\right) g(\boldsymbol{\eta})^{\nu_{0}} \exp \left\{\nu_{o} \boldsymbol{\eta}^{\mathrm{T}} \boldsymbol{\chi}_{0}\right\}$ 考虑变分分解为 $q(\mathbf{Z}, \boldsymbol{\eta})=q(\mathbf{Z}) q(\boldsymbol{\eta})$ 则 $\begin{aligned} \ln q^{\star}(\mathbf{Z}) &=\mathbb{E}_{\eta}[\ln p(\mathbf{X}, \mathbf{Z} | \boldsymbol{\eta})]+\text { const } \\ &=\sum_{n=1}^{N}\left\{\ln h\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right)+\mathbb{E}\left[\boldsymbol{\eta}^{\mathrm{T}}\right] \mathbf{u}\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right)\right\}+\mathrm{const.} \end{aligned}$ 那么可以诱导分解为 $q^{\star}(\mathbf{Z})=\prod_{n} q^{\star}\left(\mathbf{z}_{n}\right)$ 即 $q^{\star}\left(\mathbf{z}_{n}\right)=h\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right) g(\mathbb{E}[\boldsymbol{\eta}]) \exp \left\{\mathbb{E}\left[\boldsymbol{\eta}^{\mathrm{T}}\right] \mathbf{u}\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right)\right\}$ 同样地 $\begin{aligned} & \ln q^{\star}(\boldsymbol{\eta})=\ln p\left(\boldsymbol{\eta} | \nu_{0}, \boldsymbol{\chi}_{0}\right)+\mathbb{E}_{\mathbf{Z}}[\ln p(\mathbf{X}, \mathbf{Z} | \boldsymbol{\eta})]+\text { const } \\=& \nu_{0} \ln g(\boldsymbol{\eta})+\boldsymbol{\eta}^{\mathrm{T}} \boldsymbol{\chi}_{0}+\sum_{n=1}^{N}\left\{\ln g(\boldsymbol{\eta})+\boldsymbol{\eta}^{\mathrm{T}} \mathbb{E}_{\mathbf{z}_{n}}\left[\mathbf{u}\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right)\right]\right\}+\mathrm{const.} \end{aligned}$ 进而 $q^{\star}(\boldsymbol{\eta})=f\left(\nu_{N}, \boldsymbol{\chi}_{N}\right) g(\boldsymbol{\eta})^{\nu_{N}} \exp \left\{\boldsymbol{\eta}^{\mathrm{T}} \boldsymbol{\chi}_{N}\right\}$ 其中 $\begin{aligned} \nu_{N} &=\nu_{0}+N \\ \chi_{N} &=\chi_{0}+\sum_{n=1}^{N} \mathbb{E}_{\mathbf{z}_{n}}\left[\mathbf{u}\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right)\right] \end{aligned}$ 所以可以迭代地更新这两个变分分布。

10.4.1 Variational message passing

我们通过详细讨论⼀个具体的模型来说明变分⽅法的应⽤，这个模型是⾼斯模型的贝叶斯混合。这个模型可以被表⽰为有向图。这⾥我们从更⼀般的⾓度来讨论由有向图描述的模型中对变分⽅法的使⽤，推导出⼀些具有⼴泛适⽤性的结果。
对于有向图有 $p(\mathbf{x})=\prod_{i} p\left(\mathbf{x}_{i} | \mathrm{pa}_{i}\right)$ 其中 $\mathbf x_i$ 可能为观测变量也可能为隐变量，现在考虑一个变分近似 $q(\mathbf{x})=\prod_{i} q_{i}\left(\mathbf{x}_{i}\right)$ 注意，对于观测结点，在变分分布中没有因⼦ $q_i(\mathbf x_i)$ 。那么 $\ln q_{j}^{\star}\left(\mathrm{x}_{j}\right)=\mathbb{E}_{i \neq j}\left[\sum_{i} \ln p\left(\mathrm{x}_{i} | \mathrm{pa}_{i}\right)\right]+\mathrm{const.}$ $q_{j}^{\star}\left(\mathrm{x}_{j}\right)$ 所依赖的所有结点组成的集合对应于结点 $\mathbf x_j$ 的马尔科夫毯。也就是更新某一个节点只需要进行局部的计算即可。如果我们现在确定模型的形式，其中所有的条件概率分布都有⼀个共轭-指数族的结构，那么变分推断的过程可以被转化为局部信息传递算法（Winn and Bishop, 2005）。特别地，对于⼀个特定的结点来说，⼀旦它接收到了来⾃所有的⽗结点和所有的⼦结点的信息，那么与这个结点相关联的概率分布就可以被更新。这反过来需要⼦结点从它们的同⽗结点已经接收完毕信息。下界的计算也可以得到简化，因为许多必要的值已经作为信息传递框架的⼀部分计算完毕。分布的信息传递形式有很好的缩放性质，对于⼤的⽹络很合适。

10.5. Local Variational Methods

10.1节和10.2节讨论的变分框架可以被看做“全局”⽅法。之所以这样说，是因为它直接寻找所有随机变量上的完整的后验概率分布的近似。另⼀种“局部”的⽅法涉及到寻找模型中的单独的变量或者变量组上定义的函数的界限。
对于凹函数有 $\begin{aligned} f(x) &=\max _{\lambda}\{\lambda x-g(\lambda)\} \\ g(\lambda) &=\max _{x}\{\lambda x-f(x)\} \end{aligned}$ 凸函数有 $\begin{aligned} f(x) &=\min _{\lambda}\{\lambda x-g(\lambda)\} \\ g(\lambda) &=\min _{x}\{\lambda x-f(x)\} \end{aligned}$

你可能感兴趣的:(PRML学习总结,PRML学习总结)

(学习总结15)C++11小语法与拷贝问题瞌睡不来学习 c++c++STL
C++11小语法与拷贝问题auto关键字范围forinitializer_list深拷贝与浅拷贝写时拷贝以下代码环境为VS2022C++。auto关键字在早期C/C++中auto的含义是：使用auto修饰的变量，是具有自动存储器的局部变量，不过一般都会隐藏，导致后来不重要了。C++11中，标准委员会赋予了auto全新的含义，即：auto不再是一个存储类型指示符，而是作为一个新的类型指示符来指示编译
【战盟第二期智家集训班】房康
沈阳-有住-浑南店-房康12月6日一、学习总结：1.今天的主要学习内容是上午刘总给我们讲解了未来的发展方向和一些未来的机遇，让我对做海尔智家更有信心，山丽丽老师讲解的企业文化也让我讲解到我们海尔是一个非常诚信的企业和为用户着想的企业只有这样企业才能做的更大更强走的更长远。蒋老师讲的卡萨帝品牌也让我了解到卡萨帝不单单是一件电器也是一件艺术品。2.通过下午的系统学习让我懂得了如何做一个合格的智家设计师
我们在进行前后端联调的时候如何避免数据丢失拿不到返回数据查看不了状态信息等问题？朱道阳底层原理面试八股回归前端 npm git python
最近在进行前后端联调开发的全栈开发工作但是这时候会出现很多问题比如说前端拿不到数据获得的状态码可能是正确的传的值却是null我进行了学习总结出一下几点一、数据校验前端程序员必须对后端提供的数据进行严格的数据校验。数据校验的目的是确保接收到的数据符合预期的格式和类型。在JavaScript中，可以使用typeof操作符或Array.isArray()方法进行基本的类型检查。更复杂的数据结构，可以使用
JavaScript之OOP基础概念学习总结一：scopes gaoshu883
这个系列的文章是去年在搭架完静态博客后撰写的（博客已经不再维护啦，哦还能访问）↓最近在探究JavaScript中的scopes概念。经过一番研究，我觉得要从Interpreter的角度，才能更好地理解这个概念。毕竟程序员主要是编写指令，而Interpreter则是把程序员编写的代码一行一行读下去并翻译出来（执行出来），最终结果就会直接反映在Web浏览器的页面上。不过还要注意的是，并不是所有的sco
《分科学习总结暨学员分享会》之感肖丽好
图片发自App今晚，很荣幸可以在线上跟全国各地的青椒伙伴们分享自己的学习心得。很兴奋，也很紧张。图片发自App这，是一份认可，是一种荣誉，同时也是一股压力。还是有些许遗憾吧，因为紧张导致多处卡壳、口误。虽然老师们都给予了极大的鼓励与支持，但是这并不能作为自己准备不够充分的心安理得的托辞。看到那么多第一次视屏分享的伙伴们在镜头前是那么的从容不迫，再反观自己的手足无措，这才真的发现了自己跟真正的“优秀
Python暑假学习总结小龙夏 python 学习
通过系统地学习Python基础知识、函数、高级特性、函数式编程、模块和面向对象编程等方面，我对Python有了更深入的理解和掌握。在这篇学习总结中，我将分享我在学习Python过程中的体会和经验。一、python基础1、输出print(),输入input()，#注释；2、了解了数据类型和变量（and,or,not)、字符串和编码、使用list和tuple、条件判断(if...elif...else
浏览器渲染流程解析 dqqbl
前言大家可能经常会听到css动画比js动画性能更好这样的论断，或者是“硬件加速”，“层提升”这样的字眼；要了解这些内容就需要对浏览器的渲染流程有个大致的了解，本文就是我个人对这些内容的一个总结梳理需要注意的是：本文仅个人学习总结梳理，如有错漏，望指正本文以谷歌浏览器Blink内核为例，参考内容链接大多需要科学上网随着谷歌浏览器的更新迭代，有些渲染流程或对象名词可能发生变化（如，RenderObje
学会总结 Fiona张芳
昨晚在区域经理面前做了场分享，结束后主任要求写篇学习总结，这样我的机会便来了，我在肯德基边啃汉堡，边一手拿着手机敲字，学习总结很快的时间便完成了，本想修改下的，手一滑发送出去了，算了就发出去吧，长舒一口气，又完成了一件事项。后面看到主任留言总结写的很好，继续加油。今天早晨八点钟周例会，主任特意说了我们去恒隆学习的情况，说我们的学习总结写的非常好，特别是张芳的，还把我的学习总结读了出来，例外说了句，
Python自动化：Python操作Excel的多种方式Pandas+openpyxl+xlrd 长风清留扬 Python excel python pandas 自动化 Python办公自动化数据分析开发语言
在Python中，操作Excel数据通常可以通过几个流行的库来实现，比如pandas、openpyxl、xlrd等。下面会分别介绍这三个流行库来实现对Excel的操作。博客主页：长风清留扬-CSDN博客每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论推荐阅读：Python入门最全基础Python
6月14日关于条文11.73至11.76讲解及天门冬的药性一学习总结（韦爱琪）韦爱琪
当归四逆汤的主证抓法：1.有没有血虚，有当归四逆汤证的话，血循环一定很差，尤其末梢，会有嘴唇惨白，脸色不红润。2.体质是冷的，也有例外是发炎的情况，什么红斑狼疮，硬皮病。3.抓痛。4.推扩用法：坐骨神经痛，腰痛不能弯腰，肝病到水肿，以及各类循环到末梢的问题，什么皮肤病，起疹子，水肿。过敏，淋巴坨拉。厥阴篇条文11.73至11.76讲解1.脉忽然沉掉，手脚发冷，下利清谷，发高烧脉沉用四逆汤。2.高烧
Maxwell 学习总结暮色里de白雪檐 #maxwell binlog maxwell 数据库 mysql kafka
修改my.cnf文件，配置binlog修改/etc/my.cnf文件，在[mysqld]模块下添加如下内容：[mysqld]server_id=1#binlog文件前缀log-bin=mysql-bin#binlog模式binlog_format=row#需要生成binlog的库，有几个库需要生成binlog则添加几行，如果不做该配置，则所有库都会生成binlogbinlog-do-db=sys_
数学建模之插值算法阿米诺s 数学建模数学建模算法
注：本文面向应用，参考了清风大大的资料以及司守奎老师的《数学建模算法与应用》，属作者的个人学习总结。一.算法应用背景当已知函数点非常少的时候，我们经常要模拟产生一些新的函数值来支撑后续数据分析。这就是插值算法的应用目的。*插值算法还可以用来实现短期预测，但我们往往使用拟合算法以及时间序列算法来实现预测。二.插值问题的分类插值问题一般分为一维插值问题和多维插值问题。三.插值法(一)数学定义设函数f(
Django----Form的来龙去脉（-）使用篇墨痕_777 python
Django----Form的来龙去脉（-）使用篇（注：个人学习总结，仅供参考）####Form表单的功能自动生成HTML表单元素检查表单数据的合法性如果验证错误，重新显示表单（数据不会重置）数据类型转换（字符类型的数据转换成相应的Python类型）####Form相关的对象包括Widget：用来渲染成HTML元素的工具，如：forms.Textarea对应HTML中的标签Field：Form对象
FPGA学习总结1 - 电源引脚那小妞好白 fpga开发学习笔记 fpga
FPGA学习总结1-电源引脚文章目录前言1.VCCINT：内核电压2.VCCBRAM：BlockRAM电压3.VCCAUX：辅助电压4.VCCAUX_IO_G#：辅助IO电压5.VCCO_#：IO电压6.VCCBATT_0：BatteryBackupSupply7.MGTAVCC_G#：8.MGTAVTT_G#：9.MGTVCCAUX_G#：10.RSVDGND：IO电压11.VREF：12.Su
小晓智慧连载3《养成好习惯之――助人为乐》小晓智慧会发光
帮助他人，是快速成长的捷径。晚上下班，00后小朋友发来信息，实名感谢，并与我分享收获。学习总结规划目标改变习惯立马行动自从有了利他思维，就改变了我事不关己的态度。做人，有格局，有大爱，才能有所成就。
Vue3学习总结-v-if与v-show的使用案例和区别风清扬雨前端Vue3 学习 vue.js 前端前端框架
Vue3实战：v-if与v-show在用户界面切换中的应用在Vue.js中，v-if和v-show是两种常用的条件渲染指令，它们允许我们根据表达式的值来动态地显示或隐藏DOM元素。这两种指令虽然看起来相似，但在内部实现和性能方面有所不同。下面我们将通过一个具体的案例来演示如何在Vue3中合理使用v-if和v-show，并探讨它们在实际项目中的应用。案例背景假设我们需要构建一个简单的待办事项列表应用
golang学习总结--函数小罗tongxue golang golang
1.go函数声明语法：func函数名(参数列表)(返回值列表){}funcadd()(){}2.golang函数特点（1）不支持重载：一个包中不能有两个函数名称一样的函数，即使参数列表不同（2）多返回值（3）匿名函数（4）函数是一种类型，也可以赋值给一个变量（5）函数名大小写敏感，函数名首字母表示该函数可跨包调用，小写表示不可跨包调用packagemainimport("fmt")typeop_f
内蒙古王顺莲参加湾柳树网络学院第四期文化自信与乡村振兴网络学习班学习总结！ 73b6cb599636
内蒙古王顺莲参加湾柳树网络学院第四期文化自信与乡村振兴网络学习班学习总结！尊敬的宋瑞书记！尊敬赵宗瑞老师一家！尊敬的尹子文老师！王国霞老师！尊敬的湾柳树的所有义工老师！尊敬的第四期网络学习班的所有老师大家好！首先我要感恩宋瑞书记！感恩尹子文老师！感恩王国霞老师！是你们的大爱付出！为我们大家搭建了这么好的网络学习平台。引领大家共同学习共同成长，使很多家人们有了转变和收获。通过这些日子的网络学习使自己
CSAPP全书学习总结 %d%d2 体系结构学习
CSAPP(1.计算机系统漫游)学习笔记-CSDN博客CSAPP（第二章信息的表示和处理，附上datalab解析_datalab调整数据位置-CSDN博客CSAPP（第三章：程序的机器级表示-CSDN博客
webpack4手动搭建Vue项目 YUELEI118 前端 vue.js 前端 webpack
小满视频很多解释使用通义灵码搜的,通义灵码的搜索结果也是有错误的全程使用pnpm包管理工具，和npm的用法基本一样学习总结1.多看看webpack官网2.webpack的作用：配置一堆东西，达到运行程序的目的3.无论什么东西都转成js，然后插入到一个空空的html文件中运行4.webpack就是个管理者，管理着一堆loader，一堆loader的作用就是把自己负责的东西弄成js手动搭建Vue项目,
css基础学习总结(一) 晚睡早起₍˄·͈༝·͈˄*₎◞ ̑̑ 前端 css 学习前端
文章目录一.选择器1.标签选择器2.类选择器3.ID选择器4.分组选择器5.派生与子元素选择器6.属性选择器7.伪类选择器8.伪对象选择器9.选择器的优先级别css优先级的6大分类一.选择器1.标签选择器选择器例子描述elementp/div/span选择所有含有指定标签的元素Documentdiv{color:red;}span{color:blue;}p{color:green;}HelloW
Python大数据之Python爬虫学习总结——day16 数据可视化笨小孩124 Python爬虫学习总结信息可视化 python 大数据
数据可视化Map_地图基础地图知识点:基础示例:实战练习:知识点:自定义模块:制作中国地图data1.txt文件内容python代码示例制作区域地图data2.txt文件内容python代码示例Line_折线图基础折线图实战练习:Bar_柱状图基础柱状图反转以及主题设置Json数据python数据转为json数据知识点:示例:json数据转为python数据知识点:json文件:示例:Map_地图
使用Page对list进行手动分页-后端（完全可用） stars_online java 手动分页 list java
经过学习总结出的-----使用page手动对list进行分页的方法：数据装入list之后Pagepage=newPage(pageable.getPageNumber()+1,pageable.getPageSize());//获取list的大小inttotal=list.size();page.setTotal(total);intstartIndex=pageable.getPageNumbe
8.19~8.25学习总结 weixin_30825581
本周主要学习了高数，准备开学后的补考，用在学习上30小时，代码仅2小时左右完成两个pta例子，其余时间主要用于观看高书教学视频以及做高数题。下周补考完学习Java以及Javaweb，同时看一些制作微信小程序的视频。本周问题是高数知识遗忘过多转载于:https://www.cnblogs.com/wyppaa/p/11406926.html
6月20日关于橘柚的药性及条文10.19至10.21讲解一学习总结（韦爱琪）韦爱琪
一、橘柚的药性1.桔子皮，味辛温，主治胸中瘕热逆气。2.陈皮，行气药或者说化痰药。3.通常放橘子皮的汤，以中药的原理来讲，比较补，而且补的走得比较慢，要让它不要塞住，就会加橘子皮。4.胸口这样塞住闷住，用橘皮枳实生姜汤；哕逆，就一直打嗝，气冲上来用橘皮竹茹汤。胸中闷，塞用橘子皮。5.“瘕”身体里面多出来的一坨东西，好像是今天有明天又没有的那样的感觉，并不是一个固定不动的固体的肉块，固定不动的肉块叫
MySql阶段Sql语句学习总结(1) 2401_84103512 程序员 mysql sql 学习
idint,–编号namevarchar(20),–姓名ageint,–年龄sexvarchar(5),–性别addressvarchar(100),–地址mathdouble(5,2),–数学成绩englishdouble(5,2),–英语成绩hire_datedate–入学时间);3、修改表的结构1、修改表名altertable修改前的表名renameto修改后的表名2、添加列altertab
安卓第一阶段学习总结 pithia
为什么决定来学习参加完东哥的讲座之后了解到这个课程，起初对于这个课程也不是很感兴趣。因为初高中的时候已经上了太多太多课外的培训了，想着大学应该是更加自由的氛围，该是随着自己的兴趣去学习的阶段。本来这个专业也不是我预想中的专业，对于计算机之类的也没什么兴趣。然后去问了我们部门的大二同专业的学姐，她就给我推了上一届参加过这个课程的学姐，询问了以下这个课具体教些什么，会不会耽误学校的课程啊之类的，令我印
Java并发编程学习总结 Aries_Li
关于并发并发在开发中广泛的应用，非常的重要，最近在读《Java并发编程的艺术》艺术，希望写一些东西来记录和巩固。上下文切换、死锁上下文切换频繁的上下文切换不仅不能加快程序的运行，还会降低程序的性能。文中提到了一些方法减少上下文切换的方法：无锁并发编程通过将数据分段，使用不同线程处理不同的数据。CAS算法Java的Atomic包使用CAS算法来更新数据，而不需要加锁。使用最小线程避免创建不需要的线程
【可视化大屏系列】DataV的使用元气满满的大咸鱼可视化大屏系列可视化大屏数据看板 DataV
以下内容为近期个人学习总结，若有错误之处，欢迎指出！可视化大屏开发系列——DataV的使用一、介绍二、注意事项1、技术支持2、兼容性3、状态更新三、实现效果四、使用（在vue2项目中）1.npm安装2.main.js中引入3.开启愉快地玩耍（1）全屏容器（2）边框（3）装饰（4）图表（5）其它图表推荐A.水位图B.轮播表C.胶囊柱图D.排名轮播表E.锥形柱图一、介绍DataV是一款用来做大屏数据展
day01学习总结 __e145
1.markdown标题：文字前加1到6个·markdownmarkdownmarkdownmarkdownmarkdown2.代码引用(键盘波浪号)print('hellopython')你好你好二级应用howareyou欢迎来到千锋学习python一个*之间倾斜两个加粗三个```间引用3.分割线---或***4.图片！5.超链接[文字](网络地址)百度一下6.列表PythonH5JavaUI/
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><