萌新待开发

PRML第二章

2 概率分布

2.1 二元变量

2.1.1 Beta分布

2.2 多项式变量

2.2.1 狄利克雷分布

2.3 高斯分布

2.3.1 条件高斯分布

2.3.2 边缘高斯分布

2.3.3 高斯变量的贝叶斯定理

2.3.4 高斯分布的最大似然估计

2.3.5 顺序估计

2.3.6 高斯分布的贝叶斯推断

2.3.7 学生t分布

2.3.8 周期变量

2.3.9 高斯混合模型

2.4 指数分布

2.4.1 最大似然与充分统计量

2.4.2 共轭先验

2.4.3 无信息先验

2.5 非参数估计

2.5.1 核密度估计

2.5.2 邻近方法

2 概率分布

本章学习各种特殊的概率分布。讨论的概率分布的一个作用：在有限观测下，对 p(x) 进行建模-----密度估计（假设每次取样都是独立同分布的）。

我们用离散随机变量的二项分布和多项式分布，连续随机变量的高斯分布的参数估计。

引入两种观点：

频率派计算似然函数之类的确定参数。
贝叶斯派引入参数的先验，来计算后验。

还有个重要的概念：共轭先验：后验概率和先验概率分布的函数形式相同。

也会介绍非参数密度估计的方法。

2.1 二元变量

1.一个二元随机变量，即x只能取0或1。取x=1的概率是那么：

(2.1)

其中 ,所以。概率分布为：

$Bern(x|\mu)=\mu^x(1-\mu)^{1-x}$ (2.2)

这就是伯努利分布。

2.伯努利分布是归一化的。均值和方差为：

(2.3)

(2.4)

3，如果观测值是 ,每次观测都是在中抽取。则似然函数有：

$p(D|\mu)=\prod ^N_{n=1}p(x_n|\mu)=\prod ^N_{n=1}\mu^{x_n}(1-\mu)^{1-x_n}$ (2.5)

4.频率派：最大化似然函数来估计参数=》最大化对数似然（伯努利分布）：

$ln\:p(D|\mu)=\sum^N_{n=1}lnp(x_n|\mu)=\sum^N_{n=1}\left \{ x_nln\mu+(1-x_n)ln(1-\mu) \right \}$ (2.6)

这个只用N次观测结果得到的似然函数，也叫充分统计量。令其导数为零，我们有最大似然的估计值时的：

$\mu_{ML}=\frac{1}{N}\sum^N_{n=1}x_n$ (2.7)

这也叫做样本均值。如果把 x=1 的观测次数记录为m，则（2.7）可以写成：

$\mu_{ML}=\frac{m}{N}$ (2.8)

但这个只用观测可能不靠谱，仍硬币三次刚好都是正面 N=m=3，则会判断未来观测都是正面。

所以一般引入的先验分布来解决。

5.换一个角度，在给定数据集规模 N 的条件下， x=1 的观测出现数量 m 的概率分布叫做：二项分布。

6.根据公式（2.5）可以看到，这个概率正比于的，就是每次扔硬币的结果叠乘得到的。

并且需要归一化常熟：N 次抛掷中，m 个正面向上的次数的组合 $C^\textbf{m}_\textbf{N}$ 为归一化常熟，因此二项分布(似然函数)可以写成：

$Bin(m|N,\mu)=\binom{N}{m}\mu^m(1-\mu)^{N-m}$ (2.9)

其中：

$\binom{N}{m}\equiv \frac{N!}{(N-m)!m!}$ (2.10)

是从总数为 N 的完全相同的物体中选择 m 个物体的方式的总数。图 2.1 给出了 N=10、=0.25 情况下的二项分布示意图：

7.二项分布的均值和方差可以使用练习 1.10 的结果得到：加和的均值是均值的加和，加和的方差是方差的加和：

由于 $m=x_1+\cdots +x_N$ ,并且对于每次观察，均值和方差都分别由公式（2.3）和（2.4）给出，因此我们有：期望=值 x 概率

$E[m]\equiv \sum^N_{m=0}m\, Bin(m|N,\mu)\equiv N\mu$ (2.11)

$var[m]=\sum^N_{m=0}(m-E[m])^2Bin(m|N,\mu)=N\mu(1-\mu)$ (2.12)

2.1.1 Beta分布

1.直接用最大似然，如果是小数据集会过拟合，因此引入一个关于的先验概率分布来解决。

2.似然是一个的乘积形式。我们选择先验也是这样的形式的话，后验也会是这样的形式，这叫做共轭性。所以我们选择先验为 Beta 分布：

(2.13)

其中，是由（1.141）定义的 Gamma 函数：

$\Gamma (x) \equiv \int^\infty_0\mu^{x-1}e^{-\mu}\, du$

满足归一化：

$\int_0^1 Beta(\mu|a,b)d\mu = 1$ (2.14)

Beta 分布的均值和方差：参数a和b经常被称为超参数（hyperparameter），因为它们控制了参数µ的概率分布,图2.2给出了不同的超参数值对应的Beta分布的图像。

$E[\mu]=\frac{a}{a+b}$ (2.15)

$var[\mu]=\frac{ab}{(a+b)^2(a+b+1)}$ (2.16)

证明：

3. $\mu$ 的后验概率分布: Beta先验(2.13)和二项似然函数(2.9)相乘，归一化，可得到：

$p(\mu|m,l,a,b) \propto \mu^{m+a-1}(1-\mu)^{l+b-1}$ (2.17)

其中，即对应 x=0 的样本数量。关于µ的函数形式和先验分布的形式相同。先验关于似然函数的共轭性质。对比(2.13)就可以得到归一化系数:

$p(\mu|m,l,a,b) = \frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}$ (2.18)

从先验到后验，a的值增加了m，b的值增加了。超参数a和b叫有效观测数。再进行新的观测，这里的后验又变成下次观测的先验。

4.先验为Beta分布，a=2,b=2,似然是2.9,其中N=m=1，后验概率是Beta分布，变成a=3,b=2.这样顺序学习，每次有新数据，用更新过的先验来处理就可以，不需要之前的数据。

5.如果我们目标是尽可能好地进行预测下一次数据，那么在给定观测数据D的情况下，x的预测分布就是：

$p(x=1|D) = \int_0^1p(x=1|\mu)p(\mu|D)d\mu = \int_0^1\mu p(\mu|D)d\mu = \mathbb{E}[\mu|D]$ (2.19)

根据(2.18)和(2.13)的形式对应。和(2.15)对比，我们可以得到：

$p(x=1|D) = \frac{m+a}{m+a+l+b}$ (2.20)

当m,l趋近于无限大，(2.20)变成最大似然的结果(2.8).贝叶斯后验和最大似然结果在数据趋近于无穷的情况会统一（不仅仅在beta分布下成立，在其他分布也有这样性质）。数据没那么多，μ的后验均值在先验均值和公式(2.7)给出的最大似然之间。(折中)

在图中，当观测数量增多，后验分布更尖了。2.16的公式给出的方差也可以看出，a或b趋近于无穷的时候，方差就趋于零。观测点增加，后验的不确定性下降

6.我们用频率学角度证明这点。考虑一个贝叶斯推断，参数为 $\theta$ 并且观测了一个数据集 D ，由联合分布表示：

$\mathbb{E}_\theta[\theta] = \mathbb{E}_D[\: \: \mathbb{E}_\theta[\theta|D]\: \: ]$ (2.21)

其中：

$\mathbb{E}_\theta[\theta] = \int p(\theta)\theta d\theta$ (2.22)

$\mathbb{E}_{\mathcal{D}}\left[\: \: \mathbb{E}_{\boldsymbol{\theta}}[\boldsymbol{\theta} \mid \mathcal{D} ]\: \:\right] \equiv \int\left\{\int \boldsymbol{\theta} p(\boldsymbol{\theta} \mid \mathcal{D}) \mathrm{d} \boldsymbol{\theta}\right\} p(\mathcal{D}) \mathrm{d} \mathcal{D}$ (2.23)

$\theta$ 的后验均值（在产生数据集的分布上的平均）等于 $\theta$ 的先验均值。同样的我们可以得到：(2.23)

$var_{\theta}[\theta] = \mathbb{E}_{\mathcal{D}}\left[ var_\theta[\theta|\mathcal{D}]\right] +var_{\mathcal{D}}\left[\mathbb{E}_\theta[\theta|\mathcal{D}]\right]$ (2.24)

公式（2.24）中左边是θ的先验方差。右边的第一项是θ的后验方差的均值。第二项是θ的后验均值的方差。因为方差是一个正的量（第二项大于零），所以一般来说，θ的后验方差小于先验方差。后验均值的方差越大，这个差值的就越大。注意，这个结果只在通常情况下成立，对于特定的观测数据集，后验方差有可能大于先验方差。

2.2 多项式变量

1.二元变量：2个状态中取某一种的量。推广到 k 个互斥状态，用 one-hot 表示。比如 K=6， :

(2.25)

这样向量满足。如果用参数来标记的概率，那么我们就得到的分布：

$p(x|\mu) = \prod\limits_{k=1}^K\mu_k^{x_k}$ (2.26)

其中，由于参数表示概率，所以需要满足且。

公式（2.26）分布可以看作伯努利分布在多于两种输出时的泛化。很容易证明这个分布是标准化的：

(2.27)

并且：

$\mathbb{E}[x|\mu] = \sum\limits_xp(x|\mu)x = (\mu_1,...,\mu_M)^T = \mu$ (2.28)

2.考虑一个有个独立观测值的数据集。其对应的似然函数的形式为:

(2.29)

令：

(2.30)

它表示观测到的次数。这被称为这个分布的充分统计量。

求最大似然解，我们需要在的和等于1的约束下，关于最大化。这可以通过拉格朗日乘数法得到，即:

$\sum\limits_{k=1}^{K}m_k\ln\mu_k + \lambda(\sum\limits_{k=1}^K\mu_k - 1 )$ (2.31)

对公式（2.31）关于 $\mu_k$ 求导并使之等于0得到：

$\mu_k = -m_k / \lambda$ (2.32)

把公式（2.32）代入限制条件，可得。所以我们的最大似然解：

$\mu_k^{ML} = \frac{m_k}{N}$ (2.33)

就是观测出现占总观测的比例。

3.考虑在参数 $\mu$ 和观测总数N条件下联合分布。通过公式（2.29）得到：

$Mult(m_1,...,m_k|\mu,N) = \binom{N}{m_1m_2...m_k}\prod\limits_{k=1}^K\mu_k^{m_k}$ (2.34)

这就是多项式分布。标准化系数是把N个物体分成大小为的K组的方案总数，定义为：

$\binom{N}{m_1m_2...m_k} = \frac{N!}{m_1!m_2!...m_k!}$ (2.35)

满足下面的约束：

$\sum\limits_{k=1}^Km_k = N$ (2.36)

2.2.1 狄利克雷分布

1.多项式分布（2.34）的参数的一组先验分布。观察多项式分布的公式，得到共轭先验：

$p(\mu|\alpha) \propto \prod\limits_{k=1}^{K}\mu_k^{\alpha_k - 1}$ (2.37)

其中，，记作是分布的参数。注意，由于总和的限制，空间上的分布被限制在维的单纯形中。图2.4展示了的情形。

归一化得到:(归纳法，习题2.9有思路)狄利克雷分布：

$Dir(\mu|\alpha) = \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)...\Gamma(\alpha_K)}\prod\limits_{k=1}^K\mu_k^{\alpha_k - 1}$ (2.38)

而且：

$\alpha_0 = \sum\limits_{k=1}^K\alpha_k$ (2.39)

图2.5给出了在不同的参数αk的情况下，单纯形上的狄利克雷分布的图像，分布对应：

${\alpha_k} = 0.1, {\alpha_k} = 1, {\alpha_k} = 10$

2.用似然（2.34）乘先验（2.38）就得到后验分布，形式为：

$p(\mu|D,\alpha) \propto p(D|\mu)p(\mu|\alpha) \propto \prod\limits_{k=1}^K\mu_k^{\alpha_k + m_k - 1}$ (2.40)

因为形式与先验相同，对比写出归一化系数：

$p(\mu|D, \alpha) = Dir(\mu|\alpha + m) \ = \frac{\Gamma(\alpha_0 + N)}{\Gamma(\alpha_1+m_1)...+\Gamma(\alpha_K+m_K)}\prod\limits_{k=1}^K\mu_k^{\alpha_k + m_k - 1}$ (2.41)

其中。与二项分布的beta先验一样，可以把狄利克雷分布参数当成观测到的数量。而二元变量就是多项式变量的一个特例。

2.3 高斯分布

1.单变量（⼀元变量）x：

$\mathcal{N}\left(x | \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{1}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}$ (2.42)

2.D维向量x:

$\mathcal{N}(x|\mu, \Sigma) = \frac{1}{(2\pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x - \mu)\}$ (2.43)

$\mu$ 是一个D维均值向量，是一个 DxD 的协方差矩阵，是的行列式。

3.不同理解角度：

熵取得最大值的是高斯分布。

一组随机变量之和，概率分布随着项（随机变量个数）增加趋近于高斯分布。（拉普拉斯中心极限定理）比如均匀分布还有之前的二项分布。

4.高斯分布的几何形式，高斯对于x的依赖是通过下面二次型的形式：

$\Delta^2 = (X-\mu)^T\Sigma^{-1}(X-\mu)$ (2.44)

这里 $\Delta$ 就是和 $\mu$ 之间的马氏距离。当是单位矩阵时候就是欧式距离。 x空间中这个二次型是常熟曲面，高斯分布是常熟。

矩阵 $\Sigma$ 可以取为对称矩阵，而不失去一般性，以为任何非对称项都会从指数中消失。

现在考虑协方差矩阵的特征向量方程(Av=λv)：

$\Sigma u_i = \lambda_iu_i$ (2.45)

其中。因为是实对称矩阵，所以他的特征值也是实数（下图推导），特征向量可以是单位正交（下图推导），得到：

$u_i^Tu_j = I_{ij}$ (2.46)

其中 $I_{ij}$ 是单位矩阵的第个元素，满足：

$I_{i j}=\left\{\begin{array}{ll} 1, \: \: if \: \: i=j \\ 0, \:\:else\:\: \end{array}\right.$ (2.47)

也就是相同为1，不同为0.

协方差矩阵 $\Sigma$ 可以表示成特征向量的展开的形式：

$\Sigma = \sum\limits_{i=1}^D\lambda_iu_iu_i^T$ (2.48)

同样的协方差的逆矩阵 $\Sigma^{-1}$ 可以表示为：

$\Sigma^{-1} = \sum\limits_{i=1}^D\frac{1}{\lambda_i}u_iu_i^T$ (2.49)

5.把公式（2.49）代入公式（2.44），二次型就变成了：

$\Delta^2 = \sum\limits_{i=1}^D \frac{y_i^2}{\lambda_i}$ (2.50)

其中：

$y_i = u_i^T(x - \mu)$ (2.51)

我们可以把解释为由正交向量关于原来的坐标系平移和旋转之后得到的新坐标系。记 ,可得：

$Y = U(X - \mu)$ (2.52)

其中是由行向量组成的。根据公式（2.46）可得是正交矩阵，即它满足，其中是单位矩阵。

6.如果公式（2.50）是常数时，那么二次型和高斯密度在曲面上为常熟。如果所有特征值都是正的，那么这些曲面是中心位于，轴方向为，轴方向的缩放比例为的椭球面，如图2.7所示：

7.协方差矩阵的所有特征值都严格大于零，这是为了正确归一化，这就是正定矩阵（2.57解释）。

如果所有特征值都是非负的，就是半正定矩阵。

8.现在考虑定义下的高斯分布形式，就是进行了一次坐标变化，Jacobian矩阵的元素为：

$J_{ij} = \frac{\partial x_i}{\partial y_j} = U_{ji}$ (2.53)

其中是矩阵的元素。由矩阵的正交性，可得：

(2.54)

由此可得 .且协方差矩阵的行列式可以写成特征值的乘积：

$|\Sigma|^{1/2} = \prod\limits_{j=1}^D \lambda_j^{1/2}$ (2.55)

因此在坐标系中，高斯分布的形式为：

$p(\boldsymbol{y})=p(\boldsymbol{x})|\boldsymbol{J}|=\prod_{j=1}^{D} \frac{1}{\left(2 \pi \lambda_{j}\right)^{\frac{1}{2}}} \exp \left\{-\frac{y_{j}^{2}}{2 \lambda_{j}}\right\}$ (2.56)

它具有归一化：

$\int p(\boldsymbol{y}) \mathrm{d} \boldsymbol{y}=\prod_{j=1}^{D} \int_{-\infty}^{\infty} \frac{1}{\left(2 \pi \lambda_{j}\right)^{\frac{1}{2}}} \exp \left\{-\frac{y_{j}^{2}}{2 \lambda_{j}}\right\} \mathrm{d} y_{j}=1$ (2.57)

期望：

$\begin{aligned} \mathbb{E}[\boldsymbol{x}] &=\frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\mathbf{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \mathrm{d} \boldsymbol{x} \\ &=\frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2} \boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\}(\boldsymbol{z}+\boldsymbol{\mu}) \mathrm{d} \boldsymbol{z} \end{aligned}$ (2.58)

用 $z=x-\mu$ 替换：

$\mathbb{E}[X] = \mu$ (2.59)

二阶矩是：

$\begin{aligned} \mathbb{E}\left[\boldsymbol{x} \boldsymbol{x}^{T}\right] &=\frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\mathbf{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \boldsymbol{x}^{T} \mathrm{d} \boldsymbol{x} \\ &=\frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2} \boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} z\right\}(\boldsymbol{z}+\boldsymbol{\mu})(\boldsymbol{z}+\boldsymbol{\mu})^{T} \mathrm{d} \boldsymbol{z} \end{aligned}$

也用 $z=x-\mu$ 来替换。交叉项 $\mu z^T$ 和 $z\mu^T$ 因为对称性抵消， $\mu\mu^T$ 为常数可以拿出，本身又是单位向量被归一化。对于项，我们可以得到：

$z = \sum\limits_{j=1}^Dy_ju_j$ (2.60)

其中

推出：

$\begin{aligned} \frac{1}{(2 \pi)^{\frac{D}{2}}} & \frac{1}{|\mathbf{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2} \boldsymbol{z}^{T} \mathbf{\Sigma}^{-1} \boldsymbol{z}\right\} \boldsymbol{z} \boldsymbol{z}^{T} \mathrm{d} \boldsymbol{z} \\ &=\frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\mathbf{\Sigma}|^{\frac{1}{2}}} \sum_{i=1}^{D} \sum_{j=1}^{D} \boldsymbol{u}_{i} \boldsymbol{u}_{j}^{T} \int \exp \left\{-\sum_{k=1}^{D} \frac{y_{k}^{2}}{2 \lambda_{k}}\right\} y_{i} y_{j} \mathrm{d} \boldsymbol{y} \\ &=\sum_{i=1}^{D} \boldsymbol{u}_{i} \boldsymbol{u}_{i}^{T} \lambda_{i}=\boldsymbol{\Sigma} \end{aligned}$ (2.61)

所以：

$\mathbb{E}[XX^T] = \mu\mu^T + \Sigma$ (2.62)

所以：

$var[X] = \mathbb{E}[(X - \mathbb{E}[X])(X - \mathbb{E}[X])^T]$ (2.63)

9.高斯分布的问题，参数太多，平方增长，无法求逆：

一个对称协方差 $\Sigma$ 有个参数，有 D 个参数，一共个参数。
一个对角协方差矩阵，一共 2D 个参数
再正比于单位矩阵，一共 D+1 个参数。常数概率密度轮廓线如下

坐标变换

轮廓线说明：

常熟概率密度轮廓线：

10.另一局限性是单峰的，不能近似多峰问题，可以近似的概率有限。

11.引入潜在变量，来解决 >HMM ,卡尔曼滤波器，马尔科夫随机场之类的。

2.3.1 条件高斯分布

1.多元高斯性质：如果两个变量的联合高斯分布，那么一个变量为条件的高斯分布也是高斯分布。边缘高斯分布也是高斯分布

2.假设是服从高斯分布的维向量，把划分为两个不相交的子集。令为的前 M 个分量，令为剩下的个分量，得到：

$\boldsymbol{x}=\left(\begin{array}{l} \boldsymbol{x}_{a} \\ \boldsymbol{x}_{b} \end{array}\right)$ (2.65)

$\boldsymbol{\mu}=\left(\begin{array}{l} \boldsymbol{\mu}_{a} \\ \boldsymbol{\mu}_{b} \end{array}\right)$ (2.66)

$\boldsymbol{\Sigma}=\left(\begin{array}{cc} \boldsymbol{\Sigma}_{a a} & \boldsymbol{\Sigma}_{a b} \\ \boldsymbol{\Sigma}_{b a} & \boldsymbol{\Sigma}_{b b} \end{array}\right)$ (2.67)

协方差矩阵是对称的，即，可得也是对称的。

有时候使用协方差的逆矩阵会比较方便：

$\Lambda\equiv \Sigma^{-1}$ (2.68)

这被称为精度矩阵。精度矩阵的划分形式：

$\boldsymbol{\Lambda}=\left(\begin{array}{cc} \boldsymbol{\Lambda}_{a a} & \boldsymbol{\Lambda}_{a b} \\ \boldsymbol{\Lambda}_{b a} & \boldsymbol{\Lambda}_{b b} \end{array}\right)$ (2.69)

,需要强调的一点是：不单单是对求逆这么简单。

3.首先，找到条件分布的条件分布。根据概率的乘法规则，由联合分布通过把固定为观测到的值，然后标准化所得到的表达式就可以得到上的有效概率。

4，简单说就是先算二次型，再算系数。确定均值和方差。

5.如果我们使⽤公式（2.65）、公式（2.66）和公式（2.69）的划分⽅式，我们有一个二次型：

$-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) = -\frac{1}{2}(x_a - \mu_a)^T\Lambda_{aa}(x_a - \mu_a) -\frac{1}{2}(x_a - \mu_a)^T\Lambda_{ab}(x_b - \mu_b) -\frac{1}{2}(x_b - \mu_b)^T\Lambda_{ba}(x_a - \mu_a) -\frac{1}{2}(x_b - \mu_b)^T\Lambda_{bb}(x_b - \mu_b)$ (2.70)

把它看成的函数，这又是一个二次型，可以推出对应的条件分布是高斯分布。

6.一个通用的高斯分布的指数项可以写成：

$-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) = -\frac{1}{2}x^T\Sigma^{-1}x + x^T\Sigma^{-1}\mu + const$ (2.71)

const为常数，表示与无关的项。（2.71）可以直接对应系数就可以求得均值和方差。

7.条件高斯分布的指数项的二次型由公式（2.70）给出，我们把这个分布的均值和协方差分别记作和。考虑公式（2.70）对的函数依赖关系，其中被当成常数。如果我们选出所有的二阶项，那么：

$-\frac{1}{2}x_a^T\Lambda _{aa}x_a$ (2.72)

可以看出的协方差（精度矩阵的逆矩阵）为：

$\Sigma_{a|b}=\Lambda ^{-1}_{aa}$ (2.73)

现在考虑公式（2.70）中所有的常数项：

$x_a^T \left \{ \Lambda _{aa}\mu_a-\Lambda_{ab}(x_b-\mu_b) \right \}$ (2.74)

其中，我们使用了这个等式，根据我们对一般形式（2.71）的讨论，这个表达式中的系数一定等于 ,因此：

$\mu_{a|b}=\Sigma_{a|b}\left \{ \Lambda_{aa}\mu_a-\Lambda_{ab}(x_b-\mu_b) \right \}=\mu_a-\Lambda^{-a}_{aa}\Lambda_{ab}(x_b-\mu_b)$ (2.75)

然后将精度矩阵替换回协方差矩阵，使用下面的关于分块矩阵的逆矩阵的恒等式：

$\begin{pmatrix} A &B \\ C & D \end{pmatrix}^{-1}=\begin{pmatrix} M &-MBD^{-1} \\ -D^{-1}CM & D^{-1}+D^{-1}CMBD^{-1} \end{pmatrix}$ (2.76)

其中我们已经定义了：

$M=(A-BD^{-1}C)^{-1}$ (2.77)

被称为公式（2.76）左侧矩阵关于子矩阵的舒尔补。使用定义：

$\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab} \\ \Sigma_{ba}&\Sigma_{bb} \end{pmatrix}^{-1}=\begin{pmatrix} \Lambda_{aa}&\Lambda_{ab} \\ \Lambda_{ba}&\Lambda_{bb} \end{pmatrix}$ (2.78)

使用公式（2.76），我们有：

$\Lambda_{aa}=(\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba})^{-1}$ (2.79)

$\Lambda_{ab}=-(\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba})^{-1}\Sigma_{ab}\Sigma_{bb}^{-1}$ (2.80)

从这些结果中，我们可以得到条件概率分布的均值和协方差的表达式：

$\mu_{a|b}=\mu_a+\Sigma_{aa}\Sigma_{bb}^{-1}(x_b-\mu_b)$ (2.81)

$\Sigma_{a|b}=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}$ (2.82)

对比（2.73）和（2.83），看到条件概率分布如果使用分块精度矩阵而不是分块协方差矩阵表示，那么他的形式会更简单。注意，条件概率分布的均值（2.81 给出）是的线性函数，协方差（2.82）与入关。这是线性高斯模型的一个例子。

2.3.2 边缘高斯分布

1.如果联合分布是高斯分布，那么条件概率分布也是高斯分布：

$p(x_a)=\int p(x_a,x_b)dx_b$

利用二次型也可以来确定均值和方差。

联合概率的二次型可以确定条件分布，边缘分布的二次型的原因。系数也是相同。

目标是积掉，只提出（2.70）里面的项，然后配方：

$-\frac{1}{2}x^T_b\Lambda_{bb}x_b+x^T_bm=-\frac{1}{2}(x_b-\Lambda^{-1}_{bb}m)^T\Lambda_{bb}(x_b-\Lambda^{-1}_{bb}m)+\frac{1}{2}m^T\Lambda^{-1}_{bb}m$ (2.84)

其中，我们定义了：

$m=\Lambda_{bb}\mu_b-\Lambda_{ba}(x_a-\mu_a)$ (2.85)

代入（2.83），然后先只看有项，得到未归一化的高斯形式与均值无关：

$\int exp\left \{ -\frac{1}{2}(x_b-\Lambda^{-1}_{bb}m)^T\Lambda_{bb}(x_b-\Lambda^{-1}_{bb}m) \right \}dx_b$ (2.86)

就积分积掉了，再看剩余的第二项，与（2.70）中相关的集合，写出：

$\frac{1}{2}\left[\Lambda_{bb}\mu_b - \Lambda_{ba}(x_a - \mu_a)\right]^T\Lambda_{bb}^{-1}\left[\Lambda_{bb}\mu_b - \Lambda_{ba}(x_a - \mu_a)\right] -\frac{1}{2}x_a^T\Lambda_{aa}x_a + x_a^T(\Lambda_{aa}\mu_a + \Lambda_{ab}\mu_b) + const= -\frac{1}{2}x_a^T(\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})x_a + x_a^T(\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1}\mu_a + const$ (2.87)

其中，”常数“表示与无关的量。

与（2.71）比较写出均值和协方差：

$\Sigma_a = (\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1}$ (2.88)

$\Sigma_a(\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})\mu_a = \mu_a$ (2.89) $p(x_a) = \mathcal{N}(x_a|\mu_a, \Sigma_{aa})$

再将精度矩阵换回协方差矩阵：

$\mathbb{E}\left[\boldsymbol{x}_{a}\right] =\boldsymbol{\mu}_{a}$ (2.92)

$cov\left[\boldsymbol{x}_{a}\right] =\Sigma_{aa}$ (2.93)

2.关于分块高斯的边缘分布和条件分布的结果可以总结如下：

对于联合高斯分布 ,如果拆成两块。

条件分布：

$p(x_a|x_b) = \mathcal{N}(x|\mu_{a|b}, \Lambda_{aa}^{-1})$ (2.96)

$\mu_{a|b} = \mu_a - \Lambda_{aa}^{-1}\Lambda_{ab}(x_a - \mu_b)$ (2.97)

边缘分布：

$p(x_a) = \mathcal{N}(x_a|\mu_a, \Sigma_{aa})$ (2.98)

3.图2.9展示涉及到两个变量的多元高斯分布的条件概率分布和边缘概率分布：

2.3.3 高斯变量的贝叶斯定理

1.假设给定高斯边缘分布和均值是关于x的线性函数且方差与 x 无关的高斯条件分布。这是线性高斯模型（linear Gaussian model）的一个例子。

2.把边缘和条件分布记为：

$p(\boldsymbol{x})=\mathcal{N}\left(\boldsymbol{x} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}\right)$ (2.99)

$p(\boldsymbol{y} \mid \boldsymbol{x})=\mathcal{N}\left(\boldsymbol{y} \mid \boldsymbol{A} \boldsymbol{x}+\boldsymbol{b}, \boldsymbol{L}^{-1}\right)$ (2.100)

其中，和是控制均值的参数，和是精度矩阵。如果的维度为M，y的维度为D，那么矩阵的大小为 .

3.首先求 x,y 的联合分布：

$z=\begin{pmatrix} x\\ y \end{pmatrix}$ (2.101)

求其对数：

$\ln p(z) = \ln p(x) + \ln p(y|x) = -\frac{1}{2}(x - \mu)^T\Lambda(x-\mu) -\frac{1}{2}(y-Ax-b)^TL(y-Ax-b) + const$

常数是与x，y无关的项。这是z的分量的二次函数-》是一个高斯函数。

4.为了计算高斯分布的精度，看二阶项：

$-\frac{1}{2} \boldsymbol{x}^{T}\left(\boldsymbol{\Lambda}+\boldsymbol{A}^{T} \boldsymbol{L} \boldsymbol{A}\right) \boldsymbol{x}-\frac{1}{2} \boldsymbol{y}^{T} \boldsymbol{L} \boldsymbol{y}+\frac{1}{2} \boldsymbol{y}^{T} \boldsymbol{L} \boldsymbol{A} \boldsymbol{x}+\frac{1}{2} \boldsymbol{x}^{T} \boldsymbol{A}^{T} \boldsymbol{L} \boldsymbol{y}=-\frac{1}{2}\left(\begin{array}{c} \boldsymbol{x} \\ \boldsymbol{y} \end{array}\right)^{T}\left(\begin{array}{cc} \boldsymbol{\Lambda}+\boldsymbol{A}^{T} \boldsymbol{L} \boldsymbol{A} & -\boldsymbol{A}^{T} \boldsymbol{L} \\ -\boldsymbol{L} \boldsymbol{A} & \boldsymbol{L} \end{array}\right)\left(\begin{array}{l} \boldsymbol{x} \\ \boldsymbol{y} \end{array}\right)=-\frac{1}{2} \boldsymbol{z}^{T} \boldsymbol{R} \boldsymbol{z}$ (2.103)

R就是精度矩阵：

$R=\left(\begin{array}{cc} \boldsymbol{\Lambda}+\boldsymbol{A}^{T} \boldsymbol{L} \boldsymbol{A} & -\boldsymbol{A}^{T} \boldsymbol{L} \\ -\boldsymbol{L} \boldsymbol{A} & \boldsymbol{L} \end{array}\right)$ (2.104)

通过取精度矩阵的逆矩阵，得到协方差矩阵：

$cov[z] = R^{-1} = \left( \begin{array}{cc} \Lambda^{-1} & \Lambda^{-1}A^T \\ A\Lambda^{-1} & L^{-1} + A\Lambda^{-1}A^T \end{array} \right)$ (2.105)

用（2.102）的一阶项计算 z 的均值，先找到一阶项：

$x^T\Lambda\mu - x^TA^TLb + y^TLb = \left( \begin{array}{c} x \\ y \end{array} \right)^T \left( \begin{array}{c} \Lambda\mu - A^TLb \\ Lb \end{array} \right)$ (2.106)

跟（2.71）对比求出均值表达式：

$\mathbb{E}[z] = R^{-1} \left( \begin{array}{c} \Lambda\mu - A^TLb \\ Lb \end{array} \right)$ (2.107)

（2.71）

用（2.106）带入计算结果：

$\mathbb{E}[z] = \left( \begin{array}{c} \mu \\ A\mu + b \end{array} \right)$ (2.108)

计算边缘分布 y 的表达式。直接利用（2.92）和（2.93）就可得到结果：

$\mathbb{E}[y] = A\mu + b$ (2.109)

$cov[y] = L^{-1} + A\Lambda^{-1}A^T$ (2.110)

5.当 $\mathbf{A}=\textbf{I}$ ,均值就是两个之和（是均值为和 b 的两个高斯分布之和），方差也是两个之和

6.最后，求 ,用（2.73）和（2.75）来对比（2.105）和（2.108）得到方差和均值：

$\mathbb{E}[\boldsymbol{x} \mid \boldsymbol{y}]=\left(\boldsymbol{\Lambda}+\boldsymbol{A}^{T} \boldsymbol{L} \boldsymbol{A}\right)^{-1}\left\{\boldsymbol{A}^{T} \boldsymbol{L}(\boldsymbol{y}-\boldsymbol{b})+\boldsymbol{\Lambda} \boldsymbol{\mu}\right\}$ (2.111)

$\operatorname{cov}[\boldsymbol{x} \mid \boldsymbol{y}]=\left(\boldsymbol{\Lambda}+\boldsymbol{A}^{T} \boldsymbol{L} \boldsymbol{A}\right)^{-1}$ (2.112)

7.总结：

对于 x 的边缘高斯分布和 y关于x的条件高斯分布：

$p(x) = \mathcal{N}(x|\mu,\Lambda^{-1})$ (2.113)

$p(y|x) = \mathcal{N}(y|Ax + b,L^{-1})$ (2.114)

那么 y 的边缘分布和 x关于y的条件高斯分布为：

$p(y) = \mathcal{N}(y|A\mu + b,L^{-1} + A\Lambda^{-1}A^T)$ (2.115)

$p(x|y) = \mathcal{N}(x|\Sigma\left\{A^TL(y-b) + \Lambda\mu \right\},\Sigma)$ (2.116)

其中：

$\Sigma = (\Lambda + A^TLA)^{-1}$ (2.117)

2.3.4 高斯分布的最大似然估计

1.准备：给定一个数据集，使用最大似然法估计分布的参数。对数似然函数为：

$\ln p(X|\mu, \Sigma) = -\frac{ND}{2}\ln(2\pi)-\frac{N}{2}\ln |\Sigma| - \frac{1}{2}\sum\limits_{n=1}^{N}(x_n - \mu)^T\Sigma^{-1}(x_n - \mu)$ （2.118)

整理一下，最大似然只依赖于数据集的两个量，叫充分统计量：

$\sum\limits_{n=1}^Nx_n\: \: ,\: \: \sum\limits_{n=1}^Nx_nx_n^T$ (2.119)

对求导（C.19）:

$\frac{\partial}{\partial\mu}\ln p(X|\mu,\Sigma) = \sum\limits_{n=1}^N\Sigma^{-1}(x_n - \mu)$ (2.120)

导数为0，得到均值的最大似然估计：

$\mu_{ML} = \frac{1}{N}\sum\limits_{n=1}^Nx_n$ （2.121）

我们还可以计算得到方差：

$\Sigma_{ML} = \frac{1}{N}\sum\limits_{n=1}^N(x_n - \mu_{ML})(x_n - \mu_{ML})^T$ (2.122)

2.如果我们估计真实概率分布，可以得到有偏的结果。协方差期望小于真实值：

$\mathbb{E}[\mu_{ML}] =\mu$ (2.123)

$\mathbb{E}[\Sigma_{ML}] = \frac{N - 1}{N}\Sigma$ (2.124)

所以需要补正：

$\widetilde{\Sigma} = \frac{1}{N-1}\sum\limits_{n=1}^N(x_n - \mu_{ML})(x_n - \mu_{ML})^T$ (2.125)

2.3.5 顺序估计

1.顺序的方法允许每次处理一个数据点，整合进模型，处理完就丢掉。

2.考虑最大似然估计：

$\mu_{ML} = \frac{1}{N}\sum\limits_{n=1}^Nx_n$ （2.121）

把第 N 个观察量的估计记作，就可以写成：

$\mu_{ML}^{(N)} = \frac{1}{N}\sum\limits_{n=1}^Nx_n \ = \frac{1}{N}x_N + \frac{1}{N}\sum\limits_{n=1}^{N-1}x_n \ = \frac{1}{N}x_N + \frac{N-1}{N}\mu_{ML}^{(N-1)} = \mu_{ML}^{(N-1)} + \frac{1}{N}(x_N - \mu_{ML}^{(N-1)})$ (2.126)

就可以看得到结果了。随着N增加，修正量的影响也在变小。

3.推广到通用层面： Robbins-Monro算法：

考虑一对有联合分布控制的随机变量。上的的条件期望由由确定函数给出：

$f(\theta) \equiv \mathbb{E}[z|\theta] = \int zp(z|\theta) dz$ (2.127)

称之为回归函数。我们假定的目标时找到的根

如果有大量数据，我们可以直接建模，然后估计根的值。但我们一次只有一个 z 观测值，我们需要用顺序估计求根。也就是 Robbins-Monro算法。

4.首先假定z的条件方差是有限的：

$\mathbb{E}[(z-f)^2|\theta] < \infty$ (2.128)

假设：当时；当时。跟图（2.10）画的一样。

那么根的顺序估计就是：

$\theta^{(N)} = \theta^{(N-1)} + a_{N-1}z(\theta^{(N-1)})$ (2.129)

其中是当取时的观测值。系数表示一个满足下列条件的正数序列：

$\lim\limits_{N \to \infty}a_N = 0$ (2.130)

$\sum\limits_{N=1}^\infty a_N = \infty$ (2.131)

$\sum\limits_{N=1}^\infty a_N^2 < \infty$ (2.132)

5.（2.129）以概率1收敛于根。（2.130）保证修正越来越小，（2.131）保证不会收敛到不根的值（阻止太快收束），（2.132）保证累计噪声是有限的（抑制noise发散），会收敛。

6.我们来应用，解决一般的顺序最大似然。根据定义，最大似然解是对数似然函数的驻点。因此满足：

$\left.\frac{\partial}{\partial \theta}\left\{\frac{1}{N} \sum_{n=1}^{N}-\ln p\left(x_{n} \mid \theta\right)\right\}\right|_{\theta_{M L}}=0$ (2.133)

交换求导与求和顺序，且令极限得到：

$\lim\limits_{N \to \infty}\frac{1}{N}\sum\limits_{n=1}^N\frac{\partial}{\partial\theta}\ln p(x_n|\theta) = \mathbb{E}_x\left[\frac{\partial}{\partial\theta}\ln p(x_n|\theta)\right]$ (2.134)

最大似然的解就是回归函数的根。

7.用Robbins-Monro算法：

$\theta^{(N)} = \theta^{(N-1)} + a_{N-1}\frac{\partial}{\partial\theta^{(N-1)}}\ln p(x_N|\theta^{(N-1)})$ (2.135)

将参数是高斯分布均值替换。有：

$z = \frac{\partial}{\partial\mu_{ML}}\ln p(x|\mu_{ML}, \sigma^2) = \frac{1}{\sigma^2}(x-\mu_{ML})$ (2.136)

因此是均值为的高斯分布，如图2.11展示：

8.把式（2.136）代入式（2.135）得到具有参数的一元变量形式的（2.126）。虽然我们只讨论了一元变量的情形，同样的技术，以及式（2.130）-（2.132）给出的关于系数的限制，同样适用于多元变量的情形。

2.3.6 高斯分布的贝叶斯推断

1.我们通过最大似然，可以求均值和方差，现在通过贝叶斯方法引入他们的先验。

2.首先，看一个一元高斯分布，方差是已知的。我们希望通过N次观测，推断出均值。似然：

$p(\mathbf{x} \mid \mu)=\prod_{n=1}^{N} p\left(x_{n} \mid \mu\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{N}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\}$ (2.137)

似然是一个的二次型，那我们把先验也先择高斯分布，他就是似然的共轭分布，从而后验就是两个的二次型的乘积，也是高斯。令先验：

$p(\mu) = \mathcal{N}(\mu|\mu_0, \sigma_0^2)$ (2.138)

且后验分布由：

$p(\mu|X) \propto p(X|\mu)p(\mu)$ (2.139)

给出。通过简单的配出指数中二次项的操作，可以得到的后验分布为：

$p(\mu|X) = \mathcal{N}(\mu|\mu_N, \sigma_N^2)$ (2.140)

其中：

$\mu_N = \frac{\sigma^2}{N\sigma_0^2+\sigma^2}\mu_0 + \frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_{ML}$ (2.141)

$\frac{1}{\sigma_N^2} = \frac{1}{\sigma_0^2} + \frac{N}{\sigma^2}$ (2.142）

其中是的最大似然解，由样本均值给出：

$\mu_{ML} = \frac{1}{N}\sum\limits_{n=1}^Nx_n$ (2.143)

3.观察有几个结论：

（2.141）：后验的均值是先验和似然的折中。（2.20推导的时候也有这一点）如果N=0，就变成先验；N趋近无穷大，变成似然。
（2.142）：精度是可以叠加的。每个观测精度之和+先验精度就是后验精度。N趋近于无穷大，后验精度趋近于零，在最大似然附近变成尖峰。
（2.143）：当数据点无穷大，最大似然可以精确地由贝叶斯公式回复（）（通过后验可以计算出来）。
对于有限的N,如果，先验的方差无穷大，（2.141）后验均值就是最大似然，（2.142）方差变为。

4.上节顺序估计讲了最大似然问题可以转化为顺序更新问题：N个数据点的均值：N-1个数据点的均值和一个数据点的贡献

这里我们看后验分布可以写成：

$p(\mu|D) \propto \left[p(\mu)\prod\limits_{n=1}^{N-1}p(x_n|\mu)\right]p(x_N|\mu)$ (2.144)

方括号里的是观测N-1个数据点后的后验分布（忽略归一化系数）可以被看作一个先验分布。

5，假设均值是已知的，推断方差。同样选择先验是共轭的。定义精度进行计算是最方便的。

关于的似然函数为：

$p(\mathbf{x} \mid \lambda)=\prod_{n=1}^{N} \mathcal{N}\left(x_{n} \mid \mu, \lambda^{-1}\right) \propto \lambda^{\frac{N}{2}} \exp \left\{-\frac{\lambda}{2} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\}$ (2.145)

因此，对应的共轭先验正比于的幂指数和的线性函数的指数。这就是Gamma分布，定义为：

$Gam(\lambda|a,b) = \frac{1}{\Gamma(a)}b^a\lambda^{a-1}exp(-b\lambda)$ (2.146)

其中是归一化系数。如果那么gamma分布积分是有穷的；如果,那么分布本身是有穷的。图2.13展示了不同的的情况下分布。

归一化：

6.Gamma分布的均值和方差为：

$\mathbb{E}[\lambda] =\frac{a}{b}$ （2.147)

$var[\lambda] = \frac{a}{b^2}$ (2.148)

7.然后假设先验为,如果乘以似然函数（2.145），那么就得到后验分布：

$p(\lambda \mid \mathbf{x}) \propto \lambda^{a_{0}-1} \lambda^{\frac{N}{2}} \exp \left\{-b_{0} \lambda-\frac{\lambda}{2} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\}$ (2.149)

整理一下，看成的Gamma分布，其中：

$a_N = a_0 + \frac{N}{2}$ (2.150)

$b_N = b_0 + \frac{1}{2}\sum\limits_{n=1}^N(x_n - \mu)^2 = b_0 + \frac{N}{2}\sigma_{ML}^2$ (2.151）

其中是对方差的最大似然估计。

8.观察有几个结论：

（2.150）：N个数据点的效果是使增加了。因此我们可以把先验分布的参数看成个“有效”先验观测。
（2.151）：N个数据点为参数b贡献了其中是方差，所以把先验中的参数解释为：个方差为“有效”的先验观测的效果。

9.回忆一下，我们在Dirichlet先验中做过类似的有效观测数的解释。这些分布是指数族的例子，我们将会看到，把共轭先验解释为有效的虚拟数据点是指数族分布的一种通用方法。

10.我们可以不使用精度进行计算，而是考虑方差本身。这种情况下共轭先验被称为逆Gamma分布。但是我们不会详细地讨论这个分布，因为我们发现使用精度来计算更加方便。

11.现在，假设均值和精度都是未知的。为了找到共轭先验，考虑似然函数对的依赖：

$p(\mathbf{x} \mid \mu, \lambda)=\prod_{n=1}^{N}\left(\frac{\lambda}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\lambda}{2}\left(x_{n}-\mu\right)^{2}\right\} \\ \propto\left[\lambda^{\frac{1}{2}} \exp \left(-\frac{\lambda \mu^{2}}{2}\right)\right]^{N} \exp \left\{\lambda \mu \sum_{n=1}^{N} x_{n}-\frac{\lambda}{2} \sum_{n=1}^{N} x_{n}^{2}\right\}$ (2.152)

现在，我们在想找到一个对于的依赖与似然函数有着相同的函数形式的先验分布因此，假设形式：

$p(\mu, \lambda) \propto\left[\lambda^{\frac{1}{2}} \exp \left(-\frac{\lambda \mu^{2}}{2}\right)\right]^{\beta} \exp \{c \lambda \mu-d \lambda\} \\ =\exp \left\{-\frac{\beta \lambda}{2}\left(\mu-\frac{c}{\beta}\right)^{2}\right\} \lambda^{\frac{\beta}{2}} \exp \left\{-\left(d-\frac{c^{2}}{2 \beta}\right) \lambda\right\}$ (2.153)

其中，是常数，由于总有，我们可以通过观察找到。特别的，是一个精度为关于的线性函数的高斯分布，是一个Gamma分布时，得到的标准化的先验形式为：

$p(\mu,\lambda) = \mathcal{N}(\mu|\mu_0,(\beta\lambda)^{-1})Gam(\lambda|a,b)$ (2.154)

其中，我们的新常数为（对比就可以得到）。式（2.154）的分布被称为正太-gamma(normal-gamma)或高斯-gamma（Gaussian-gamma）分布，并在图2.14中展示。

注意，这不是两个独立的高斯和gamma分布的乘积。因为的精度是的线性函数。会互相影响。

12.对于维向量的多元高斯分布,假设精度已知，那么均值共轭先验还是高斯分布。对于已知的均值，未知的精度矩阵，共轭先验是Wishart分布：

$\mathcal{W}(\Lambda|W, v) = B|\Lambda|^{(v-D-1)/2}exp\left(-\frac{1}{2}Tr(W^{-1}\Lambda)\right)$ (2.155)

其中是分布的自由度，是的伸缩矩阵，记为迹。标准化常量为：

$B(W,v) = |W|^{-v/2}\left(2^{vD/2}\pi^{D(D-1)/4}\prod\limits_{i=1}^D\Gamma\left(\frac{v+1-i}{2}\right)\right)^{-1}$ (2.156)

同样的，用协方差矩阵本身(而不是精度)定义的先验分布也可行的，这会推导出逆Wishart分布，但是我们不会详细讨论这一点。如果均值和精度同时未知，那么，和一元变量类似的推理得到共轭先验：

$p(\mu,\Lambda|\mu_0,\beta,W,v) = \mathcal{N}(\mu|\mu_0,(\beta\Lambda)^{-1})\mathcal{W}(\Lambda|W,v)$ (2.157)

这被称为正态-Wishart分布或高斯-Wishart分布。

2.3.7 学生t分布

1.我们已经证明高斯分布的精度的共轭先验是gamma分布。如果把一元高斯和Gamma先验结合一起并积分掉精度，得到的边缘分布形式：

$p(x \mid \mu, a, b) =\int_{0}^{\infty} \mathcal{N}\left(x \mid \mu, \tau^{-1}\right) \operatorname{Gam}(\tau \mid a, b) \mathrm{d} \tau \\ =\int_{0}^{\infty} \frac{b^{a} e^{(-b \tau)} \tau^{a-1}}{\Gamma(a)}\left(\frac{\tau}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\tau}{2}(x-\mu)^{2}\right\} \mathrm{d} \tau \\ =\frac{b^{a}}{\Gamma(a)}\left(\frac{1}{2 \pi}\right)^{\frac{1}{2}}\left[b+\frac{(x-\mu)^{2}}{2}\right]^{-a-\frac{1}{2}} \Gamma\left(a+\frac{1}{2}\right)$ （2.158）

其中我们使用了变量替换

2.为了方便，我们定义了新变量，那么分布就可以写成：

$St(x|\mu,\lambda,v) = \frac{\Gamma(v/2+1/2)}{\Gamma(v/2)}\left(\frac{\lambda}{\pi v}\right)^{1/2}\left[1+\frac{\lambda(x-\mu)^2}{v}\right]^{-v/2-1/2}$ （2.159）

这就是学生t分布。参数 $\lambda$ 有时被称为t分布的精度，虽然它并不总是等于方差的逆。参数表示自由度，图2.15展示了它的影响。

v=1,t分布退化成柯西分布；
，t分布变成高斯分布

3.（2.158）学生t分布是由无穷多个相同均值不同精度高斯分布相加而成的。(Gamma分布积分后的部分是归一化系数)，高斯混合。结果是一个通常有着比高斯分布更长的“尾巴”的概率分布，正如图2.15展示的。

4.这给出了t分布的一个叫做鲁棒性（robustness）的重要性质，这表示对于数据集里存在几个离群点（outlier），t分布不会像高斯分布那样敏感。图2.16展示了t分布的鲁棒性，并对比了高斯分布和t分布的最大似然解

5.t分布的最大似然可以用EM算法求解。如果数据有误标记或者本身就是长尾概率的时候，就会派上用场（比一般的高斯分布好）。

6.如果我们回到式（2.158）并代入参数，得到t分布可以写成：

$St(x|\mu,\lambda,v) = \int\limits_0^\infty\mathcal{N}(x|\mu,(\eta\lambda)^{-1})Gam(\eta|v/2,v/2)d\eta$ （2.160）

7.可以把它推广到多元高斯来得到对应的多元t分布：

$St(x|\mu,\Lambda,v) = \int\limits_0^\infty\mathcal{N}(x|\mu,(\eta\Lambda)^{-1})Gam(\eta|v/2,v/2)d\eta$ （2.161）

使用与一元变量相同的方法，求解这个积分，得：

$St(x|\mu,\Lambda,v) = \frac{\Gamma(D/2+v/2)}{\Gamma(v/2)}\frac{|\Lambda|^{1/2}}{(\pi v)^{D/2}}\left[1+\frac{\Delta^2}{v}\right]^{-D/2-v/2}$ （2.162）

其中是向量得维数，是由：

$\Delta^2 = (x-\mu)^T\Lambda(x-\mu)$ （2.163）

定义得马氏距离（Mahalanobis distance）的平方。

这个形式的多元t分布满足下面这些性质：

$\mathbb{E}[x] = \mu, \, \, \, \, \, \, \, \text{if } v > 1$ (2.164)

$cov[x] = \frac{v}{(v-2)}\Lambda^{-1},\, \, \, \, \, \, \, \, \text{if } v > 2$ (2.165)

$mode[x] = \mu$ (2.166)

对应地，可以得到一元变量的结果。

2.3.8 周期变量

1.实际生活中有周期变量。比如风向或者日历，按照年、天、小时等周期循环。用极坐标建模就很方便。

2.我们可能选取一个方向作为原点，然后应用传统的概率分布（例如高斯分布）来处理。但是，这种方法得出的结果会强烈依赖于原点得选择。例如，假设我们有两个观测，分别位于，然后我们使用标准一元高斯分布建模。

如果把原点选择在，那么这个数据集的样本均值为，标准差在。
如果把原点选择在，那么均值为，标准差为。

(不好的原因：均值方差大小依赖原点的选择)

2.让我们考虑估计周期观测集合的均值问题。从现在开始，我们用表示弧度。我们已经看到，简单的平均值非常依赖于坐标系的选择。为了给均值找到一个不变的度量，我们发现观测可以被看做单位圆上的点。因此，可以用二维单位向量来其中来描述，如图2.17所示。

2.3.9 高斯混合模型

1.实际数据直接高斯建模有局限性。如图2.21忠实泉的问题:

横轴持续喷发分钟，纵轴下次喷发间隔时间。单一高斯不好，多个高斯线性叠加更好。多个基本概率分布线性组合的方式叫混合分布。图2.22三合一：

足够多的高斯组合可以拟合几乎任意连续概率密度函数，比方说k个：

$p(x) = \sum\limits_{k=1}^K \pi_k \mathcal{N}(x|\mu_k, \Sigma_k)$ （2.188）

这被叫做混合高斯。如图2.23，混合模型还有其他线性组合在9.3.3有伯努利分布的混合：

2.这里被称为混合系数。如果我们同时在两边对进行积分，（注意和单独的高斯组件都是标准化的），得到：

$\sum\limits_{k=1}^K \pi_k = 1$ （2.189）

且，这些条件隐含的对于任意都有。结合条件（2.189）得到：

$0 \leq \pi_k \leq 1$ （2.190）

因此，我们看到混合系数满足成为概率的要求。

3.根据加法和乘法规则，得到边缘密度为：

$p(x) = \sum\limits_{k=1}^Kp(k)p(x|k)$ （2.191）

其中，把看成使用第个组件的先验概率，把密度看成以为条件的的概率，这就等于式（2.188）.

4.后验概率有时也被称为责任（responsibilities）,起着很重要的作用。根据贝叶斯定理，后验概率：

$\gamma_k(x) \equiv p(k|x) \ = \frac{p(k)p(x|k)}{\sum_lp(l)p(x|l)} \ = \frac{\pi_k\mathcal{N}(x|\mu_k, \Sigma_k)}{\sum_l\pi_l\mathcal{N}(x|\mu_l, \Sigma_l)}$ （2.192）

将在第9章比较详细地讨论混合分布的概率意义。（分量k对于“解释”观测值 x 的“责任”）

5.控制混合高斯分布的参数，被记为：

。确定这些参数值的一种方法是使用最大似然。根据公式（2.188）得到对数似然函数：

$p(\boldsymbol{X} \mid \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Sigma})=\sum_{n=1}^{N} \ln \left\{\sum_{k=1}^{K} \pi_{k} \mathcal{N}\left(\boldsymbol{x}_{n} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right)\right\}$ (2.193)

其中，因为对数中存在一个根据的求和公式，这比一元高斯分布复杂得多。这导致参数的最大似然解不再是一个封闭形式的解析解。最大化这个似然函数的一种方法是使用迭代数值优化法（梯度下降，牛顿法之类的吧）。另一种方法是使用一种被称为期望最大化（Em算法）的强大的框架，将在第9章详细讨论。

2.4 指数分布

1.到目前学到的各种概率分布（除了高斯混合）都是指数族分布下的特殊例子，有共同性质。比如：

给定参数的上的指数族分布是具有：

$p(x|\eta) = h(x)g(\eta)exp\{\eta^Tu(x)\}$ (2.194)

形式的概率分布的集合。其中可以是标量也可以是向量，可以是连续的也可以是离散的。是分布的自然参数（natural parameters）,是关于的某个函数。函数可以解释为是为了保证分布标准化的系数，且满足：

$g(\eta)\int h(x)exp\{\eta^Tu(x)\}dx = 1$ （2.195）

其中，对于离散变量积分就变成求和。

2.首先，给出一些本章之前讨论的一些分布，然后证明这些分布确实是指数族分布。首先考虑伯努利分布：

$p(x|\mu) = Bern(x|\mu) = \mu^x(1-\mu)^{1-x}$ （2.196）

把右侧表示成对数的指数形式，得到：（合并x项）

$p(x \mid \mu) =\exp \{x \ln \mu+(1-x) \ln (1-\mu)\} \\ =(1-\mu) \exp \left\{\ln \left(\frac{\mu}{1-\mu}\right) x\right\}$ （2.197）

与公式（2.194）对照，得到：

$\eta = \ln\left(\frac{\mu}{1-\mu}\right)$ （2.198）

然后就可以解出（反过来表示），其中：

$\sigma (\eta) = \frac{1}{1+exp(-\eta)}$ （2.199）

这就是logistic sigmoid 函数。因此可以把伯努利分布写成式（2.194）的标准形式：（上下同乘exp(x)）

$p(x|\eta) = \sigma(-\eta)exp(\eta x)$ (2.200)

其中使用了可以从式（2.199）中很容易证明的，对比公式（2.194）得到：

(2.201)

(2.202)

$g(\eta) = \sigma(-\eta)$ (2.202)

3.接下来，考虑单观测值的多项式分布：

$p(\boldsymbol{x} \mid \boldsymbol{\mu})=\prod_{k=1}^{M} \mu_{k}^{x_{k}}=\exp \left\{\sum_{k=1}^{M} x_{k} \ln \mu_{k}\right\}$ (2.204)

其中同样的，可以写成式（2.194）的标准形式：

$p(x|\eta) = exp(\eta^Tx)$ （2.205）

其中，且定义了。同样，对比式（2.194）得到：

（2.206）

（2.207）

$g(\eta) = 1$ （2.208）

4.注意，因为参数要满足(一个事件有k个状态，表示对应状态出现的概率):

$\sum\limits_{k=1}^M\mu_k = 1$ (2.209)

所以给定任意个参数剩下的参数就固定了，因此参数不是相互独立的。在某些情况下，去掉这个限制，只用个参数来表示分布会比较方便。可以使用式（2.209）中的关系，用来表示最后的，这样就只剩下个参数了。注意，剩余的参数仍然要满足：

$0 \leq \mu_k \leq 1, \sum\limits_{k=1}^{M-1}\mu_k \leq 1$ (2.210)

使用式（2.209）的约束，这种表达方式下多项式分布变成：

$\exp \left\{\sum_{k=1}^{M} x_{k} \ln \mu_{k}\right\} \\ =\exp \left\{\sum_{k=1}^{M-1} x_{k} \ln \mu_{k}+\left(1-\sum_{k=1}^{M-1} x_{k}\right) \ln \left(1-\sum_{k=1}^{M-1} \mu_{k}\right)\right\} \\ =\exp \left\{\sum_{k=1}^{M-1} x_{k} \ln \left(\frac{\mu_{k}}{1-\sum_{j=1}^{M-1}\mu_j}\right)+\ln \left(1-\sum_{k=1}^{M-1} \mu_{k}\right)\right\}$ (2.211)

现在，确定:

$\ln\left(\frac{\mu_k}{1-\sum_j\mu_j}\right)=\eta_k$ (2.212)

首先两边对求和，然后重新整理，回带，就可以解出:

$\mu_k = \frac{exp(\eta_k)}{1+\sum_jexp(\eta_j)}$ (2.213)

这被称为softmax函数，或标准化指数（normalized exponential）。

5.在这种表达方式下，多项式分布具有：

$p(x|\eta) = \left(1 + \sum\limits_{k=1}^{M-1}exp(\eta_k)\right)^{-1} exp(\eta^Tx)$ (2.214)

这是具有参数向量的指数族的标准形式。其中：

（2.215）

（2.216）

$g(\eta) = \left(1+\sum\limits_{k=1}^{M-1}exp(\eta_k)\right)^{-1}$ (2.217)

6.最后，考察高斯分布。对于一元高斯有：

$p\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{1}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} \\ =\frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{1}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}} x^{2}+\frac{\mu}{\sigma^{2}} x-\frac{1}{2 \sigma^{2}} \mu^{2}\right\}$ (2.218 , 2.219)

经过一些简单的重排列之后，可以转化为式（2.194）给出的标准指数族分布的形式，其中：

$\eta = \left( \begin{array}{c} \mu/\sigma^2 \\ -1/2\sigma^2 \end{array} \right)$ (2.220)

$u(x) = \left( \begin{array}{c} x \\ x^2 \end{array} \right)$ (2.221)

$h(x) = (2\pi)^{-1/2}$ (2.222)

$g(\eta) = (-2\eta_2)^{1/2}exp\left(\frac{\eta_1^2}{4\eta_2}\right)$ (2.223)

2.4.1 最大似然与充分统计量

1.现在对于最大似然，首先标准形式是：

$p(x|\eta) = h(x)g(\eta)exp\{\eta^Tu(x)\}$ （2.194）

我们对（2.195）两边取梯度，有：

$g(\eta)\int h(x)exp\{\eta^Tu(x)\}dx = 1$ （2.195）

$\nabla g(\eta)\int h(x)exp\{\eta^Tu(x)\}dx \ + g(\eta)\int h(x)exp\{\eta^Tu(x)\}u(x)dx = 0$ （2.224）

整理有：

$-\frac{1}{g(\eta)}\nabla g(\eta) = g(\eta)\int h(x)exp\{\eta^Tu(x)\}u(x)dx = \mathbb{E}[u(x)]$ (2.225)

其中使用了式（2.195）.于是得到：

$-\nabla\ln g(\eta) = \mathbb{E}[u(x)]$ (2.226)

注意，的协方差可以由的二阶导数来表示。对于高阶矩以此类推。因此，如果一个来自指数族的分布可以被归一化（有），那么就可以通过简单的微分来找到它的矩（一阶：期望，二阶：方差）。

2.现在考虑一组独立同分布的数据，它的似然函数为：

$p(\boldsymbol{X} \mid \boldsymbol{\eta})=\left(\prod_{n=1}^{N} h\left(\boldsymbol{x}_{n}\right)\right) g(\boldsymbol{\eta})^{N} \exp \left\{\boldsymbol{\eta}^{T} \sum_{n=1}^{N} \boldsymbol{u}\left(\boldsymbol{x}_{n}\right)\right\}$ (2.227)

令关于的导数等于零，我们可以得到最大似然估计满足的条件（类比2.224可以计算）：

$-\nabla \ln g(\eta_{ML}) = \frac{1}{N}\sum\limits_{n=1}^N u(x_n)$ (2.228)

最大似然解仅仅关于相关，这就是充分统计量。我们不用存数据集而保存充分统计量就行。举个例子，对于伯努利分布，函数就是，因此我们只需要存储数据点的和。而对于高斯分布，因此我们应该同时存储的和。

3.如果考虑极限，那么式（2.228）的右手边就变成，并与式（2.226）比较得到在这个极限下等于真实的的值。实际上，这种充分性对于贝叶斯推断也成立（第八章）

2.4.2 共轭先验

1.我们已经在伯努利分布（共轭先验是beta分布）和高斯分布（均值的共轭先验是高斯，精度的共轭先验是Wishart分布 2.3.6gamma分布最后），碰到过几次共轭先验的概念。通常来说，对于给定的分布，可以找到与似然函数共轭的先验，因此，后验分布与先验有同样的函数形式。对于任意的式（2.194）的指数族成员，都有一个可以写成：

$p(\eta|\boldsymbol{X},v) = f(\boldsymbol{X},v)g(\eta)^vexp\{v\eta^T\boldsymbol{X}\}$ （2.229）

其中是标准化系数，且和出现在式（2.194）中的是同一个函数。为了证明这实际是共轭的，让先验（2.229）乘以似然函数（2.227）来获取后验分布，忽略标准化系数，得到：

$p(\boldsymbol{\eta} \mid \boldsymbol{X}, \boldsymbol{\chi}, \nu) \propto g(\boldsymbol{\eta})^{\nu+N} \exp \left\{\boldsymbol{\eta}^{T}\left(\sum_{n=1}^{N} \boldsymbol{u}\left(\boldsymbol{x}_{n}\right)+\nu \boldsymbol{\chi}\right)\right\}$ （2.230）

这同样与先验（2.229）具有相同的函数形式，确认是共轭的。此外，参数可以解释为先验分布中伪观测数量，给定下每个伪观测都对充分统计量有贡献。

2.4.3 无信息先验

1.在一些概率推断应用中，我们可能会有能用先验分布方便的表达出来的先验知识。例如，如果先验令变量的一些值的概率为0，那么不论后续观测到什么数据，后验分布都会令这些值的概率为0。但是，在许多情形下，我们几乎不知道分布应该具有的形式。这时，我们可能需找一种被称为无信息先验（noninformative prior）的先验分布。这种先验分布的目的是尽可能的后验分布产生小的影响，这有时也被称为“让数据自己说话”。

2.如果一个有参数控制的分布。对于先验，最简单的提出是合适的先验。如果是有个状态的离散变量，这相当于简单的设置每个状态的概率为。然而，在连续参数的情况下，这种方法有两个潜在的困难。

第一个是：如果的定义域域是无界的，这时关于的积分是发散的，所以先验分布不能被正确的标准化。这样的先验被称作非正常的（improper）。实际应用中，如果对应的后验分布是正常的（proper），即它可以正确地标准化，那么可以使用这个非正常的先验。例如，如果假设高斯分布的均值的先验为均匀分布，一旦我们观测到至少一个数据点，均值的后验就会是正常的。参考2.3.6节：

似然：

关系：

$p(\mu|X) \propto p(X|\mu)p(\mu)$ （2.139）

第二个困难来自于变量的非线性改变下的概率密度变换行为，由式（1.27）给出：这里:

$p_{y}(y)=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right|=p_{x}(g(y))\left|g^{\prime}(y)\right|$ （1.27）

如果函数是常数，且进行变量替换，那么也会常数。但是，如果选择密度等于常数，那么根据式（1.27），的概率密度为：

$p_\eta(\eta) = p_\lambda(\lambda)\Bigg\vert\frac{d\lambda}{d\eta}\Bigg\vert = p_\lambda(\eta^2)2\eta \propto \eta$ （2.231）

这时的概率密度就不再是常数了（矛盾了）。由于似然函数是关于的简单函数，所以这个问题不会出现在最大似然中，所以可以自由的使用任意方便的参数化方法。如果选择了常数作为先验分布，那么必须注意对参数要使用一个合适的表达法。

3.这里考虑两个无信息先验的简单例子（Berger, 1985）。首先，概率密度形式为：

$p(x|\mu) = f(x-\mu)$ （2.232）

其中被称为位置参数（location parameter）。因为如果我们把平移一个常数，得到，那么:

$p(\hat{x}|\hat{\mu}) = f(\hat{x} - \hat{\mu})$ （2.233）

其中，所以这类密度具有平移不变性。所以新变量的概率密度的形式与原变量相同，因此密度与原点的选择无关。我们想要选择一个反映这个平移不变性的先验分布，所以我们选择一个赋予区间与区间相同的概率质量的先验。这隐含：

$\int_A^Bp(\mu)d\mu = \int_{A-c}^{B-c}p(\mu)d\mu = \int_A^Bp(\mu-c)d\mu$ （2.234）

而且这对于任意的选择都成立，所以得到：

$p(\mu - c) = p(\mu)$ （2.235）

这隐含了是一个常数。

4.位置参数的一个例子是高斯分布的均值。正如我们已经看到的，这种情况下的的共轭先验分布是一个高斯，然后取极限得到一个无信息先验(高斯函数变平，像均匀函数)。事实上，从式（2.141）和（2.142）可以知道，在这种极限情况下，得到的的后验分布中，先验的贡献消失了。

$\mu_N = \frac{\sigma^2}{N\sigma_0^2+\sigma^2}\mu_0 + \frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_{ML}$ （2.141）

$\frac{1}{\sigma_N^2} = \frac{1}{\sigma_0^2} + \frac{N}{\sigma^2}$ （2.142）

5.第二个例子，考虑密度形式：

$p(x|\sigma) = \frac{1}{\sigma}f\left(\frac{x}{\sigma}\right)$ （2.236）

其中。注意，如果被正确的标准化，那么这是一个标准化的密度。参数是伸缩参数（scale parameter）。如果我们把缩放一个常数即，有:

$p(\hat{x}|\hat{\sigma}) = \frac{1}{\hat{\sigma}}f\left(\frac{\hat{x}}{\hat{\sigma}}\right)$ (2.237)

其中，这就是概率密度的伸缩不变性（scale invariance）。这个变换对应单位的变化，例如，长度的单位从米变成了千米，我们想要选择一个反映这个伸缩不变性的先验分布。如果我们考虑区间和伸缩伸缩区间，对两个区间赋予相同的概率质量。得到：

$\int_A^Bp(\sigma)d\sigma = \int_{A/c}^{B/c}p(\sigma)d\sigma = \int_A^Bp\left(\frac{1}{c}\sigma\right)\frac{1}{c}d\sigma$ (2.238)

因为这对于任意的选择都成立，所以得到：

$p(\sigma) = p\left(\frac{1}{c}\sigma\right)\frac{1}{c}$ (2.239)

得到。由于分布在的积分是发散的，所以这是一个非正常先验。有时把缩放参数的先验分布用参数的对数的概率密度表达更方便。使用公式（1.27）的概率密度变换规则，我们看到。因此，对于这个先验分布，在区间和区和以及区和上具有相同的概率质量。

缩放参数的一个例子是高斯分布的标准差，在我们确定了位置参数之后。由于:

$\mathcal{N}(x|\mu,\sigma^2) \propto \sigma^{-1} exp\{-(\tilde{x}/\sigma)^2\}$ (2.240)

其中。就如之前讨论的，使用精度会比方便的多。使用密度的变换规则，得到分布对应上的分布形式。我们已经知道的共轭先验是式（2.146）给出的gamma分布。无信息先验在的特殊情况下得到。同样的，如果检查式（2.150）和式（2.151）给出的的后验分布的结果，得到对于，后验分布只与数据相关，而与先验分布无关。

$Gam(\lambda|a,b) = \frac{1}{\Gamma(a)}b^a\lambda^{a-1}exp(-b\lambda)$ (2.146)

$a_N = a_0 + \frac{N}{2}$ (2.147)

$b_N = b_0 + \frac{1}{2}\sum\limits_{n=1}^N(x_n - \mu)^2 = b_0 + \frac{N}{2}\sigma_{ML}^2$ (2.148)

2.5 非参数估计

1.一般的参数化的模型有个局限性：对于生成数据来说，可能选了一个很差的模型去拟合。比方说一个多峰数据的生成过程就很难被单峰的高斯模型来捕捉到。所以看看简单频度学家的非参数估计。

2.之前我们也有用过：图1.11说明边缘分布和条件分布

3.图2.6 中心极限定理。均值随数据量增加的变化。

4.探索一元连续变量下的直方图密度估计的性质。标准的直方图简单地把划分成宽度为的不同箱子，然后对落在第个箱子中的的观测数量进行计数。为了把这种计数转换成标准化的概率密度，简单地把观测数量除以观测的总数，再除以箱子的宽度，得到每个箱子的概率的值（直方图中）：

$p_i = \frac{n_i}{N\Delta_i}$ (2.241)

从中显然可得。这就给出了一个对于每个箱子的密度是常数的模型，通常会选择相同宽度的箱子，即。

5.这展示了三种不同的箱子宽度的选择的情况。

当非常小的时候（最上面的图）得到的密度模型是非常尖的，有很多结构没有出现在生成数据的概率分布中。
当过大（最下面的图），那么最终的概率模型会过于平滑，结果无法扑捉绿色曲线的双峰性质。
当取一个中等大小的值时（中间的图），可以得到最好的结果。原则上，一个直方图概率密度模型也依赖于箱子边缘位置的选择，但是这对于结果的影响通常会小于的值的选择。（不是非参数估计，又有参数？？？）

6.优势：

直方图画出，数据就可以丢弃了。（大量数据情况有利）
直观显示一维和二维数据。

7.缺点：

箱子边缘造成概率密度不连续性；
维数灾难。如果我们把维空间的每一维的变量都划分到个箱子中，那么箱子的总数为。这种对于的指数放大是维度灾难的一个例子。在高维空间中，想对于局部概率密度进行有意义的估计，需要的数据量是不可接受的。

8.重要点：

为了估计在某个特定位置的概率密度，需要考虑位于那个点的某个邻域内的数据点。注意，局部性的概念要求我们假设某种形式的距离度量，这里我们假设的是欧几里得距离。对于直方图，这种邻域的性质由箱子定义，且有一个自然的“平滑”参数描述局部区域的空间扩展，即这里的箱子宽度。
为了获得好的结果，平滑参数的值既不能太大也不能太小。这让我们回忆起了第1章讨论过的多项式曲线拟合问题中对于模型复杂度的选择。那里是多项式的阶数或者正则化参数，被优化成了某些中等大小的值，既不太大也不太小。（太小采样没采集）

有了这些认识，让我们讨论密度估计的两个广泛使用的非参数化方法：核估计以及近邻估计。与简单的直方图方法相比，这两种方法能更好的处理维度放大的情况。

2.5.1 核密度估计

1.假设观测是D维空间未知概率分布p(x),希望估计。看包含x的小区域R，概率密度是：

$P = \int_Rp(x)dx$ （2.242）

2.假设收集了R内部的K个数据点，服从二项分布：x落在区域R中被观测到，数量为K个的概率：

$Bin(K|N,P) = \frac{N!}{K!(N-K)!}P^K(1-P)^{N-K}$ （2.243）

3.使用（2.11，2.12）(在给定数据集规模N的条件下，x=1的观测出现数量m的概率分布的期望和方差)：

$\mathbb{E}[m] \equiv \sum_{m=0}^{N} m \operatorname{Bin}(m \mid N, \mu)=N \mu$ （2.11）

$\mathbb{E}[m] \equiv \sum_{m=0}^{N} (m-E[m])^2 \operatorname{Bin}(m \mid N, \mu)=N \mu(1-\mu)$ （2.12）

得到落在区域内部的数据点的平均比例（mean fraction）为，同时引用式（2.12）得到这个均值的方差为

4.对于大的值，这个分布将会在均值附近产生尖峰(方差变小)，且：

$K \simeq NP$ (2.244)

但是，如果同时假定区域R足够小，使得在这个区域内的概率密度p(x)大致为常数，那么就有:

$P \simeq p(x)V$ (2.245)

其中是的体积。结合式（2.244）和（2.245）得到密度估计的形式：

$p(x) = \frac{K}{NV}$ (2.246)

注意，式（2.246）的成立依赖于两个相互矛盾的假设，即区域要足够小，使得这个区域内的概率密度近似为常数，但是也要足够大（关于密度的值），使得落在这个区域内的数据点的数量足够让二项分布达到尖峰。(太少就没点在区域里)

5.因为p(x)概率函数和N是数据点。我们有两种思路：

固定K，通过数据确定V，就是k邻近算法。
固定V，通过数据确定K的值，就是核方法。

可以证明在极限下，V随N的增加而收缩，K随N的增加而增大。最终两种方法得到的概率密度都会收敛于真实的概率密度。(Duda and Hart, 1973)。

6.首先是核方法，我们把区域取成以想确定概率密度的点为中心的小超立方体。为了统计落在这个区域内的数据点的数量，定义函数:

$k(\boldsymbol{u})=\left\{\begin{array}{ll} 1, & \left|u_{i}\right| \leq \frac{1}{2}, \quad i=1, \ldots, D \\ 0, & \text { Other cases } \end{array}\right.$ (2.247)

这表示一个以原点为中心的单位立方体。函数k(u)就是核函数的一个例子。从式（2.247），如果数据点位于以为中心的边长为的立方体中，那么量等于1，否则它的值为0。位于这个立方体内的数据点的总数为：

$K = \sum\limits_{n=1}^Nk\left(\frac{x-x_n}{h}\right)$ (2.248)

7.把这个表达式代入式（2.246），可以得到点处的概率密度估计:

$p(x) = \frac{1}{N}\sum\limits_{n=1}^N\frac{1}{h^D}k\left(\frac{x-x_n}{h}\right)$ (2.249)

使用函数的对称性（两点距离计算），可以重新解读这个等式为以个数据点为中心的个立方体的和，而不是解读为以为中心的一个立方体。

8.但问题跟直方图一样，非连续性。（不是1就是0）.这个是由密度估计中立方体的边界带来的。如果我们选择一个平滑的核函数，那么就可以得到一个更加光滑的模型。一个常用的选择是高斯核函数，它给出:

$p(\boldsymbol{x})=\frac{1}{N} \sum_{n=1}^{N} \frac{1}{\left(2 \pi h^{2}\right)^{\frac{D}{2}}} \exp \left\{-\frac{\left\|\boldsymbol{x}-\boldsymbol{x}_{n}\right\|^{2}}{2 h^{2}}\right\}$ (2.250)

其中表示高斯分布的标准差。这个密度模型是通过使每个数据点服从高斯，然后把它们的贡献加起来得到的，之后除以，使得概率密度被正确的标准化。图2.25中展示了把模型（2.250）应用于之前用来说明直方图方法的数据集上的图像。

9.看到，和我们期望的一样，参数担当平滑参数的角色，且需要在，小的会造成模型对噪声过于敏感,而大的会造成过度平滑间做一个权衡。同样的，对的优化是一个模型复杂度的问题，类似于直方图密度估计中对于箱子宽度的选择，也类似于曲线拟合问题中的多项式阶数。

10.其实可以选择任何（2.249）的核函数，只要满足条件：

$k(u) \geq 0$ （2.251）

$\int k(u)du = 1$ （2.252）

这确保了最终求得的概率分布在处处都是非负的，且积分等于1。式（2.249）给出的这类密度模型被称为核密度估计，或Parzen估计。它的一个很大的优点是：因为“训练”阶段只需要存储训练集即可，所以它不需要进行“训练”阶段的计算（只需要写个方程）。然而，这也是一个巨大的缺点，因为密度估计的计算代价随着数据集的规模线性增长（每个点都参与了计算）。

2.5.2 邻近方法

1.密度估计的核方法的一个问题是控制核宽度的参数对于所有核都是固定的。在高数据密度区域，大的值可能会导致过于平滑，且破坏了本应从数据中提取出的结构。但是，减小的值可能导致数据空间中低密度区域估计的噪声（本来是连续的，采集不到点）。所以的最优选择依赖于数据空间中的位置。这个问题可以由密度估计的近邻算法来解决。

2.因此，回到局部密度估计的一般结果（2.246），与之前固定然后从数据中确定的值不同，我们考虑固定的值然后使用数据来确定合适的值。为了达到这个目的，考虑一个以点为中心的小球体，我们希望估计密度，且允许球体的半径可以自由增加，直到它精确地包含个数据点。概率密度的估计就由式（2.246）给出，其中等于得到的球体的体积。这就是K近邻算法。图2.26展示了与图2.24、2.25相同的数据集下不同的K的选择。

3.我们看到现在的值控制了光滑的程度，且与之前一样，的最优选择既不能太大也不能太小。注意，由于对所有空间的积分是发散的，所以K近邻算法产生的模型不是真正的密度模型。(图中，特别高的值)

4.最后，将k近邻估计推广到分类问题。为此，对每个独立的类别应用K近邻估计，然后使用贝叶斯定理。

假设有类别的数据点个，总共个点的数据集，即。如果想确定新数据点的分类，那么我们画一个以为中心的，正好包含个不论属于哪个类别的数据点的球体。这样，式（2.246）为每个类别提供了密度估计：

$p(x|C_k) = \frac{K_k}{N_kV}$ (2.253)

同样的，无条件概率密度为:

$p(x) = \frac{K}{NV}$ (2.254)

其中类别的先验是由:

$p(C_k) = \frac{N_k}{N}$ (2.255)

给出。现在使用贝叶斯定理将式（2.253）、（2.254）和（2.255）结合起来，得到类别的后验概率：

$p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)} = \frac{K_k}{K}$ (2.256)

5.如果希望误分类的概率最小，那么可以把测试点分配给有着最大后验概率的类别，对应着最大的。含义就是为了给新的数据点分类，我们从训练数据中选择个最近的数据点，然后把新的数据点分配为这个集合中数量最多的点的类别。特例，因为简单地把测试点分类为训练数据集里距离最近的数据点的类别，所以被称为最近邻规则(nearest-neighbour rule)，。图2.27展示了这些概念。

6.在图2.28中，展示了第一章中介绍的石油流数据集在不同的值下的近邻算法的结果。如我们期望的那样,K控制着光滑度，即小的值会使得每个类别有许多小区域，而大的值会产生数量较少面积较大的区域。

7.最近邻(K = 1)分类器的一个有趣的性质是在极限的情况下，它的错误率不会超过最优分类器（即真实概率分布的分类器）可以达到的最小错误率的二倍（Cover and Hart, 1967）。（也不错，等于真实）

8.正如到目前为止讨论的那样，K近邻方法和核密度估计方法都需要存储整个训练数据，这导致计算大数据集会非常昂贵。通过一种基于树的探索结果，可以一次额外的计算来，不遍历整个数据集高效地找到（近似）近邻。尽管这样，这些非参数化方法然有很大的局限性。

9.另一方面，我们已经看到，简单的参数化模型非常受限，只能表示某一种形式的概率分布。因此我们需要寻找一种非常灵活概率密度模型，且它的复杂度可以被控制为与训练数据的规模无关。在后续章节中将会看到如何找到这种概率密度模型。

参考文献：

https://www.bilibili.com/video/BV1HE411N7p6?from=search&seid=15578013898088571208
https://www.youtube.com/watch?v=EGWP8-bHvEk

你可能感兴趣的:(⑉་,机器学习及实践（书）,་⑉,机器学习,PRML,模式识别,人工智能)

开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
LRU Cache Mr_Xuhhh c++c语言算法开发语言 python
LRUCache定义缓存算法（LeastRecentlyUsed)核心思想最近最少使用或最久未使用。当缓存空间不足时，它会优先淘汰最长时间没有访问的数据项类比：图书馆的书架管理，经常被借阅的书放在最前面方便取用，而长期无人问津的书会被移到后面或下架数据结构选择与设计1）双向链表1.用于维护元素的访问顺序，最近访问的元素放在链表头部，最久未被访问的放在尾部2.支持O（1）时间复杂度的任意位置插入和删
【机器学习笔记Ⅰ】7 向量化巴伦是只猫机器学习机器学习笔记人工智能
向量化（Vectorization）详解向量化是将数据或操作转换为向量（或矩阵）形式，并利用并行计算高效处理的技术。它是机器学习和数值计算中的核心优化手段，能显著提升代码运行效率（尤其在Python中避免显式循环）。1.为什么需要向量化？(1)传统循环的缺陷低效：Python的for循环逐元素操作，速度慢。代码冗长：需手动处理每个元素。示例：计算两个数组的点积（非向量化）a=[1,2,3]b=[4
Python知识点：如何使用memory_profiler进行内存分析
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用memory_profiler进行Python代码内存分析在开发高性能的Python应用程序时，理解和优化内存使用是至关重要的。memory_profiler是一个强大的工具，它可以帮助你监控Python代码的内存使用情况。本文将介绍如何使用memory_profiler来分
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
条件概率：不确定性决策的基石大千AI助手人工智能 Python #OTHER 决策树算法机器学习人工智能条件概率概率论
条件概率是概率论中的核心概念，用于描述在已知某一事件发生的条件下，另一事件发生的概率。它量化了事件之间的关联性，是贝叶斯推理、统计建模和机器学习的基础。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、定义与公式设(A)和(B)是两个随机事件，且(P(B)>0)：条件概率(P(A\midB))表示
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1