冬之晓东

多元高斯分布（三）——高斯过程

注意，本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中部分的内容进行翻译学习。

高斯过程

介绍

我们在本课程上半部分讨论的许多经典机器学习算法都符合以下模式：给定一组从未知分布中采样的独立同分布的示例训练样本集：

求解一个凸优化问题，以确定数据单一的“最佳拟合”模型，并
使用这个估计模型对未来的测试输入点做出“最佳猜测”的预测。

在本节的笔记中，我们将讨论一种不同的学习算法，称为贝叶斯方法。 与经典的学习算法不同，贝叶斯算法并不试图识别数据的“最佳匹配”模型（或者类似地，对新的测试输入做出“最佳猜测”的预测）。相反，其计算模型上的后验分布（或者类似地，计算新的输出的测试数据的后验预测分布）。这些分布提供了一种有用的方法来量化模型估计中的不确定性，并利用我们对这种不确定性的知识来对新的测试点做出更可靠的预测。

我们来关注下回归问题，即：目标是学习从某个 $n$ 维向量的输入空间 $\mathcal{X} = R^n$ 到实值目标的输出空间 $\mathcal{Y} = R$ 的映射。特别地，我们将讨论一个基于核的完全贝叶斯回归算法，称为高斯过程回归。本节的笔记中涉及的内容主要包括我们之前在课堂上讨论过的许多不同主题（即线性回归 $^1$ 的概率解释、贝叶斯方法 $^2$ 、核方法 $^3$ 和多元高斯 $^4$ 的性质）。

1 参见“监督学习，判别算法”课程讲义。

2 参见“正则化和模型选择”课程讲义。

3 参见“支持向量机”课程讲义。

4 参见“因子分析”课程讲义。

本节的笔记后续内容的组织如下。在第1小节中，我们简要回顾了多元高斯分布及其性质。在第2小节中，我们简要回顾了贝叶斯方法在概率线性回归中的应用。第3小节给出了高斯过程的中心思想，第4小节给出了完整的高斯过程回归模型。

1. 多元高斯分布

我们称一个概率密度函数是一个均值为 $\mu\in R^n$ ，协方差矩阵为 $\Sigma\in S_{++}^n$ 的一个多元正态分布（或高斯分布）(multivariate normal (or Gaussian) distribution)， 其随机变量是向量值 $x\in R^n$ ，该概率密度函数可以通过下式表达：

$p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)\qquad\qquad(1)$

我们可以写作 $x\sim\mathcal{N}(\mu,\Sigma)$ 。这里，回想一下线性代数的笔记中 $S_{++}^n$ 指的是对称正定 $n\times n$ 矩阵 $^5$ 的空间。

5 实际上，在某些情况下，我们需要处理的多元高斯分布的 $\Sigma$ 是正半定而非正定（即， $\Sigma$ 不满秩）。在这种情况下， $\Sigma^{-1}$ 不存在，所以 $(1)$ 式中给出的高斯概率密度函数的定义并不适用。例子可以参阅“因子分析”课程讲义。

一般来说，高斯随机变量在机器学习和统计中非常有用，主要有两个原因。首先，它们在统计算法中建模“噪声”时非常常见。通常，噪声可以被认为是影响测量过程的大量独立的小随机扰动的累积；根据中心极限定理，独立随机变量的和趋于高斯分布。其次，高斯随机变量对于许多分析操作都很方便，因为许多涉及高斯分布的积分实际上都有简单的闭式解。在本小节的其余部分，我们将回顾多元高斯分布的一些有用性质。

给定随机向量 $\in R^{n}$ 服从多元高斯分布 $x\sim\mathcal{N}(\mu,\Sigma)$ 。假设 $x$ 中的变量被分成两个集合 $x_{A}=\left[x_{1} \cdots x_{r}\right]^{T} \in R^{r}$ 和 $x_{B}=\left[x_{r+1} \cdots x_{n}\right]^{T} \in R^{n-r}$ （对于 $\mu$ 和 $\Sigma$ 也进行同样的拆分），则有：

$x=\left[ \begin{array}{c}{x_{A}} \\ {x_{B}}\end{array}\right] \qquad \mu=\left[ \begin{array}{c}{\mu_{A}} \\ {\mu_{B}}\end{array}\right] \qquad \Sigma=\left[ \begin{array}{cc}{\sum_{A A}} & {\sum_{A B}} \\ {\Sigma_{B A}} & {\Sigma_{B B}}\end{array}\right]$

因为 $\Sigma=E\left[(x-\mu)(x-\mu)^{T}\right]=\Sigma^{T}$ ，所以上式中有 $\Sigma_{A B}=\Sigma_{B A}^{T}$ 。下列性质适用：

规范性。 概率密度函数的归一化，即：

$\int_{x} p(x ; \mu, \Sigma) dx = 1$

这个特性乍一看似乎微不足道，但实际上对于计算各种积分非常有用，即使是那些看起来与概率分布完全无关的积分（参见附录A.1）！

边缘性。 边缘概率密度函数：

$\begin{aligned} p\left(x_{A}\right) &=\int_{x_{B}} p\left(x_{A} , x_{B} ; \mu, \Sigma\right) d x_{B} \\ p\left(x_{B}\right) &=\int_{x_{A}} p\left(x_{A}, x_{B} ; \mu,\Sigma\right) d x_{A} \end{aligned}$

是高斯分布：

$\begin{aligned} x_{A} & \sim \mathcal{N}\left(\mu_{A}, \Sigma_{A A}\right) \\ x_{B} & \sim \mathcal{N}\left(\mu_{B}, \Sigma_{B B}\right) \end{aligned}$

条件性。 条件概率密度函数：

$\begin{aligned} p\left(x_{A} | x_{B}\right) &=\frac{p\left(x_{A}, x_{B} ; \mu, \Sigma\right)}{\int_{x_{A}} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{A}} \\ p\left(x_{B} | x_{A}\right) &=\frac{p\left(x_{A}, x_{B} ; \mu, \Sigma\right)}{\int_{x_{B}} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{B}} \end{aligned}$

是高斯分布：

$x_{A} | x_{B} \sim \mathcal{N}\left(\mu_{A}+\Sigma_{A B} \Sigma_{B B}^{-1}\left(x_{B}-\mu_{B}\right), \Sigma_{A A}-\Sigma_{A B} \Sigma_{B B}^{-1} \Sigma_{B A}\right) \\ x_{B} | x_{A} \sim \mathcal{N}\left(\mu_{B}+\Sigma_{B A} \Sigma_{A A}^{-1}\left(x_{A}-\mu_{A}\right), \Sigma_{B B}-\Sigma_{B A} \Sigma_{A A}^{-1} \Sigma_{A B}\right)$

附录A.2给出了这一性质的证明。（参见附录A.3的更简单的派生版本。）

求和性。 （相同维数的）独立高斯随机变量 $\sim \mathcal{N}(\mu, \Sigma)$ 和 $\sim \mathcal{N}\left(\mu^{\prime}, \Sigma^{\prime}\right)$ 之和同样是高斯分布：

$\sim \mathcal{N}\left(\mu+\mu^{\prime}, \Sigma+\Sigma^{\prime}\right)$

2. 贝叶斯线性回归

设 $S=\left\{\left(x^{(i)}, y^{(i)}\right)\right\}_{i=1}^{m}$ 是一组来自未知分布的满足独立同分布的训练集。线性回归的标准概率解释的公式说明了这一点：

$y^{(i)}=\theta^{T} x^{(i)}+\varepsilon^{(i)}, \quad i=1, \dots, m$

其中 $\varepsilon^{(i)}$ 是独立同分布的“噪声”变量并且服从分布 $\mathcal{N}(0,\Sigma^2)$ ，由此可见 $y^{(i)}-\theta^{T} x^{(i)} \sim \mathcal{N}\left(0, \sigma^{2}\right)$ ，或等价表示为：

$P\left(y^{(i)} | x^{(i)}, \theta\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$

为了方便标记，我们定义了：

$X=\left[ \begin{array}{c}{-\left(x^{(1)}\right)^{T}-} \\ {-\left(x^{(2)}\right)^{T}-} \\ {\vdots} \\ {-\left(x^{(m)}\right)^{T}-}\end{array}\right] \in \mathbf{R}^{m \times n} \qquad \vec{y}=\left[ \begin{array}{c}{y^{(1)}} \\ {y^{(2)}} \\ {\vdots} \\ {y^{(m)}}\end{array}\right] \in \mathbf{R}^{m} \qquad \overrightarrow{\varepsilon}=\left[ \begin{array}{c}{\varepsilon^{(1)}} \\ {\varepsilon^{(2)}} \\ {\vdots} \\ {\varepsilon^{(m)}}\end{array}\right] \in \mathbf{R}^{m}$

在贝叶斯线性回归中，我们假设参数的先验分布也是给定的；例如，一个典型的选择是 $\theta \sim \mathcal{N}\left(0, \tau^{2} I\right)$ 。使用贝叶斯规则可以得到后验参数：

$p(\theta | S)=\frac{p(\theta) p(S | \theta)}{\int_{\theta^{\prime}} p\left(\theta^{\prime}\right) p\left(S | \theta^{\prime}\right) d \theta^{\prime}}=\frac{p(\theta) \prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)}, \theta\right)}{\int_{\theta^{\prime}} p\left(\theta^{\prime}\right) \prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)}, \theta^{\prime}\right) d \theta^{\prime}}\qquad\qquad(2)$

假设测试点上的噪声模型与我们的训练点上的噪声模型相同，那么贝叶斯线性回归在一个新的测试点 $x_*$ 上的“输出”不只是一个猜测 $y_*$ ，而可能是输出的整个概率分布，称为后验预测分布：

$p\left(y_{*} | x_{*}, S\right)=\int_{\theta} p\left(y_{*} | x_{*}, \theta\right) p(\theta | S) d \theta \qquad\qquad(3)$

对于许多类型的模型， $(2)$ 和 $(3)$ 中的积分是很难计算的，因此，我们经常使用近似的方法，例如MAP估计（参见正则化和模型选择的课程讲义）。

然而，在贝叶斯线性回归的情况下，积分实际上是可处理的！特别是对于贝叶斯线性回归，（在做了大量工作之后！）我们可以证明：

$\theta | S \sim \mathcal{N}\left(\frac{1}{\sigma^{2}} A^{-1} X^{T} \vec{y}, A^{-1}\right) \\ y_{*} | x_{*}, S \sim \mathcal{N}\left(\frac{1}{\sigma^{2}} x_{*}^{T} A^{-1} X^{T} \vec{y}, x_{*}^{T} A^{-1} x_{*}+\sigma^{2}\right)$

其中 $A=\frac{1}{\sigma^{2}} X^{T} X+\frac{1}{\tau^{2}} I$ 。这些公式的推导有点复杂。 $^6$ 但是从这些方程中，我们至少可以大致了解贝叶斯方法的含义：对于测试输入 $x_*$ ，测试输出 $y_*$ 的后验分布是高斯分布——这个分布反映了在我们预测 $y_{*}=\theta^{T} x_{*}+\varepsilon_{*}$ 时，由 $\epsilon_*$ 的随机性以及我们选择参数 $\theta$ 的不确定而导致预测结果的不确定性。相反，古典概率线性回归模型直接从训练数据估计参数 $\theta$ ，但没有提供估计这些参数的可靠性（参见图1）。

6 有关完整的推导，可以参考[1]注：参考资料[1]见文章最下方。或者参考附录，其中给出了一些基于平方补全技巧的参数，请自己推导这个公式！

图1：一维线性回归问题的贝叶斯线性回归 $y^{(i)}=\theta x^{(i)}+\epsilon^{(i)}$ ，其中噪音独立同分布的服从 $\epsilon^{(i)}\sim \mathcal{N}(0,1)$ 。绿色区域表示模型预测的 $95\%$ 置信区间。注意，绿色区域的（垂直）宽度在末端最大，但在中部最窄。这个区域反映了参数 $\theta$ 估计的不确定性。与之相反，经典线性回归模型会显示一个等宽的置信区域，在输出中只反映噪声服从 $\mathcal{N}(0,\sigma^2)$ 。

3. 高斯过程

如第 $1$ 节所述，多元高斯分布由于其良好的分析性质，对于实值变量的有限集合建模是有用的。高斯过程是多元高斯函数的推广，适用于无穷大小的实值变量集合。特别地，这个扩展将允许我们把高斯过程看作不仅仅是随机向量上的分布，而实际上是随机函数上的分布。

7 令 $\mathcal{H}$ 是一类 $\mathcal{X}\rightarrow\mathcal{Y}$ 的函数映射。一个来自 $\mathcal{H}$ 的随机函数 $f(\cdot)$ 代表根据 $\mathcal{H}$ 的概率分布随机从 $\mathcal{H}$ 中选择一个函数。一个潜在的困惑是：你可能倾向于认为随机函数的输出在某种程度上是随机的；事实并非如此。一个随机函数 $f(\cdot)$ ，一旦有概率的从 $\mathcal{H}$ 中选择，则表示从输入 $\mathcal{X}$ 到输出 $\mathcal{Y}$ 的确定性映射。

3.1 有限域函数上的概率分布

要了解如何对函数上的概率分布进行参数化，请考虑下面的简单示例。设 $\mathcal{X}=\left\{x_{1}, \dots, x_{m}\right\}$ 为任何有限元素集。现在，考虑集合 $\mathcal{H}$ ，该集合代表所有可能的从 $\mathcal{X}$ 到 $R$ 的函数映射。例如，可以给出如下的函数 $f_0(\cdot)\in\mathcal{H}$ 的例子：

$f_{0}\left(x_{1}\right)=5, \quad f_{0}\left(x_{2}\right)=2.3, \quad f_{0}\left(x_{2}\right)=-7, \quad \ldots, \quad f_{0}\left(x_{m-1}\right)=-\pi, \quad f_{0}\left(x_{m}\right)=8$

因为任意函数 $f(\cdot) \in \mathcal{H}$ 的定义域仅有 $m$ 个元素，所以我们可以简介的使用 $m$ 维向量 $\vec{f}=\left[f\left(x_{1}\right) \quad f\left(x_{2}\right) \quad \cdots \quad f\left(x_{m}\right)\right]^{T}$ 表达 $f(\cdot)$ 。为了指定函数 $f(\cdot) \in \mathcal{H}$ 上的概率分布，我们必须把一些“概率密度”与 $\mathcal{H}$ 中的每个函数联系起来。一种自然的方法是利用函数 $f(\cdot) \in \mathcal{H}$ 和他们的向量表示 $\vec{f}$ 之间的一一对应关系。特别是，如果我们指定 $\vec{f} \sim \mathcal{N}\left(\overrightarrow{\mu}, \sigma^{2} I\right)$ ，则意味着函数 $f(\cdot)$ 上的概率分布，其中函数 $f(\cdot)$ 的概率密度函数可以通过下面的式子给出：

$p(h)=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{1}{2 \sigma^{2}}\left(f\left(x_{i}\right)-\mu_{i}\right)^{2}\right)$

在上面的例子中，我们证明了有限域函数上的概率分布可以用函数输出 $f\left(x_{1}\right), \ldots, f\left(x_{m}\right)$ 的有限数量的输入点 $x_{1}, \dots, x_{m}$ 上的有限维多元高斯分布来表示。当定义域的大小可能是无穷大时，我们如何指定函数上的概率分布？为此，我们转向一种更奇特的概率分布类型，称为高斯过程。

3.2 无限域函数上的概率分布

随机过程是随机变量的集合 $\{f(x) : x \in \mathcal{X}\}$ ，其来自某个集合 $\mathcal{X}$ 的元素索引，称为索引集。 $^8$ 高斯过程是一个随机过程，任何有限子集合的随机变量都有一个多元高斯分布。

8 通常，当 $\mathcal{X} = R$ 时，可以将标识符 $x\in \mathcal{X}$ 解释为表示时间，因此变量 $f (x)$ 表示随时间的随机量的时间演化。然而，在高斯过程回归模型中，将标识符集作为回归问题的输入空间。

特别是一组随机变量集合 $\{f(x) : x \in \mathcal{X}\}$ 被称为来自于一个具有平均函数 $m(\cdot)$ 和协方差函数 $k(\cdot, \cdot)$ 的高斯过程，满足对于任意元素是 $x_{1}, \ldots, x_{m} \in \mathcal{X}$ 有限集合，相关的有限随机变量集 $f\left(x_{1}\right), \ldots, f\left(x_{m}\right)$ 具有如下分布：

$\left[ \begin{array}{c}{f\left(x_{1}\right)} \\ {\vdots} \\ {f\left(x_{m}\right)}\end{array}\right]\sim \mathcal{N}\left(\left[ \begin{array}{c}{m\left(x_{1}\right)} \\ {\vdots} \\ {m\left(x_{m}\right)}\end{array}\right], \left[ \begin{array}{ccc}{k\left(x_{1}, x_{1}\right)} & {\cdots} & {k\left(x_{1}, x_{m}\right)} \\ {\vdots} & {\ddots} & {\vdots} \\ {k\left(x_{m}, x_{1}\right)} & {\cdots} & {k\left(x_{m}, x_{m}\right)}\end{array}\right]\right)$

我们用下面的符号来表示：

$f(\cdot) \sim \mathcal{G P}(m(\cdot), k(\cdot, \cdot))$

注意，均值函数和协方差函数的名称很恰当，因为上述性质意味着：

$\begin{aligned} m(x) &=E[x] \\ k\left(x, x^{\prime}\right) &=E\left[(x-m(x))\left(x^{\prime}-m\left(x^{\prime}\right)\right)\right.\end{aligned}$

对于任意 $x,x'\in\mathcal{X}$ 。

直观地说，我们可以把从高斯过程中得到的函数 $f(\cdot)$ 看作是由高维多元高斯函数得到的高维向量。这里，高斯函数的每个维数对应于标识符集合 $\mathcal{X}$ 中的一个元素 $x$ ，随机向量的对应分量表示 $f (x)$ 的值。利用多元高斯函数的边缘性，我们可以得到任意有限子集合所对应的多元高斯函数的边缘概率密度函数。

什么样的函数 $m(\cdot)$ 和 $k(\cdot,\cdot)$ 才能产生有效的高斯过程呢？一般情况下，任何实值函数 $m(\cdot)$ 都是可以接受的，但是对于 $k(\cdot,\cdot)$ ，对于任何一组元素 $x_{1}, \ldots, x_{m} \in \mathcal{X}$ 都必须是可以接受的，结果矩阵如下：

$K=\left[ \begin{array}{ccc}{k\left(x_{1}, x_{1}\right)} & {\cdots} & {k\left(x_{1}, x_{m}\right)} \\ {\vdots} & {\ddots} & {\vdots} \\ {k\left(x_{m}, x_{1}\right)} & {\cdots} & {k\left(x_{m}, x_{m}\right)}\end{array}\right]$

是一个有效的协方差矩阵，对应于某个多元高斯分布。概率论中的一个标准结果表明，如果 $K$ 是正半定的，这是正确的。听起来是不是很熟悉？

基于任意输入点计算协方差矩阵的正半定条件，实际上与核的Mercer条件相同！函数 $k(\cdot,\cdot)$ 是一个有效的核，前提是对于任意一组输入点 $x_{1}, \ldots, x_{m} \in \mathcal{X}$ ，因此，任何有效的核函数都可以用作协方差函数，这就是基于核的概率分布。

3.3 平方指数核

图2：样本来自于一个零均值高斯过程，以 $k_{S E}(\cdot, \cdot)$ 为先验协方差函数。使用(a) $\tau=0.5,$ (b) $\tau=2,$ and $(\mathrm{c}) \tau=10$ 。注意,随着带宽参数 $\tau$ 的增加，然后点比以前更远会有较高的相关性，因此采样函数往往整体是流畅的。

为了直观地了解高斯过程是如何工作的，考虑一个简单的零均值高斯过程：

$f(\cdot) \sim \mathcal{G P}(0, k(\cdot, \cdot))$

定义一些函数 $h:\mathcal{X}\rightarrow R$ ，其中 $\mathcal{X}=R$ 。这里，我们选择核函数作为平方指数 $^9$ 核函数，定义如下：

9 在支持向量机的背景下，我们称之为高斯核；为了避免与高斯过程混淆，我们将这个核称为平方指数核，尽管这两个核在形式上是相同的。

$k_{S E}\left(x, x^{\prime}\right)=\exp \left(-\frac{1}{2 \tau^{2}}\left\|x-x^{\prime}\right\|^{2}\right)$

对于一些 $\tau> 0$ 。从这个高斯过程中采样的随机函数是什么样的？

在我们的例子中，由于我们使用的是一个零均值高斯过程，我们期望高斯过程中的函数值会趋向于分布在零附近。此外，对于任意一对元素 $x^{\prime} \in \mathcal{X}$ 。

$f (x)$ 和 $f (x^{'})$ 将趋向于有高协方差 $x$ 和 $x^{'}$ 在输入空间“附近”（即： $\left\|x-x^{\prime}\right\|=\left|x-x^{\prime}\right| \approx 0,$ 因此 $\exp \left(-\frac{1}{2 \tau^{2}}\left\|x-x^{\prime}\right\|^{2}\right) \approx 1$ ）
当 $x$ 和 $x^{'}$ 相距很远时， $f (x)$ 和 $f (x^{'})$ 的协方差很低（即： $\left\|x-x^{\prime}\right\| \gg 0,$ 因此 $\exp \left(-\frac{1}{2 \tau^{2}}\left\|x-x^{\prime}\right\|^{2}\right) \approx 0$ ）

更简单地说，从一个零均值高斯过程中得到的函数具有平方指数核，它将趋向于局部光滑，具有很高的概率；即：附近的函数值高度相关，并且在输入空间中相关性作为距离的函数递减（参见图2）。

4. 高斯过程回归

正如上一节所讨论的，高斯过程为函数上的概率分布提供了一种建模方法。在这里，我们讨论了如何在贝叶斯回归的框架下使用函数上的概率分布。

4.1 高斯过程回归模型

图3：高斯过程回归使用一个零均值高斯先验过程，以 $k_{S E}(\cdot, \cdot)$ 为协方差函数（其中 $\tau=0.1$ ），其中噪声等级为 $\sigma=1$ 以及 $(a) m = 10, (b) m = 20 ， (c) m = 40$ 训练样本。蓝线表示后验预测分布的均值，绿色阴影区域表示基于模型方差估计的 $95$ 置信区间。随着训练实例数量的增加，置信区域的大小会缩小，以反映模型估计中不确定性的减少。还请注意，在图像 $(a)$ 中， $95$ 置信区间在训练点附近缩小，但在远离训练点的地方要大得多，正如人们所期望的那样。

设 $S=\left\{\left(x^{(i)}, y^{(i)}\right)\right\}_{i=1}^{m}$ 是一组来自未知分布的满足独立同分布的训练集。在高斯过程回归模型中公式说明了这一点：

$y^{(i)}=f\left(x^{(i)}\right)+\varepsilon^{(i)}, \quad i=1, \ldots, m$

其中 $\varepsilon^{(i)}$ 是独立同分布的“噪声”变量并且服从分布 $\mathcal{N}(0,\Sigma^2)$ 。就像在贝叶斯线性回归中，我们也假设一个函数 $f(\cdot)$ 的先验分布。 特别地，我们假设一个零均值高斯过程先验：

$f(\cdot) \sim \mathcal{G} \mathcal{P}(0, k(\cdot, \cdot))$

对于一些有效的协方差函数 $k(\cdot, \cdot)$ 。

现在，设 $T=\left\{\left(x_{*}^{(i)}, y_{*}^{(i)}\right)\right\}_{i=1}^{m_{*}}$ 是从一些未知分布 $S$ 中取得的独立同分布的测试点集合。 $^10$ 为了方便标记，我们定义：

10 我们还假设 $T$ 和 $S$ 是相互独立的。

$\left[ \begin{array}{c}{-\left(x^{(1)}\right)^{T}-} \\ {-\left(x^{(2)}\right)^{T}-} \\ {\vdots} \\ {-\left(x^{(m)}\right)^{T}-}\end{array}\right] \in \mathbf{R}^{m \times n} \quad \vec{f}= \left[ \begin{array}{c}{f\left(x^{(1)}\right)} \\ {f\left(x^{(2)}\right)} \\ {\vdots} \\ {f\left(x^{(m)}\right)}\end{array}\right], \quad \overrightarrow{\varepsilon}= \left[ \begin{array}{c}{\varepsilon^{(1)}} \\ {\varepsilon^{(2)}} \\ {\vdots} \\ {\varepsilon^{(m)}}\end{array}\right], \quad \vec{y}= \left[ \begin{array}{c}{y^{(1)}} \\ {y^{(2)}} \\ {\vdots} \\ {y^{(m)}}\end{array}\right] \in \mathbf{R}^{m} \\ X_{*}= \left[ \begin{array}{c}{-\left(x_{*}^{(1)}\right)^{T}-} \\ {-\left(x_{*}^{(2)}\right)^{T}-} \\ {\vdots} \\ {-\left(x_{*}^{\left(m_{*}\right)}\right)^{T}-}\end{array}\right] \in \mathbf{R}^{m_{*} \times n} \quad \overrightarrow{f_{*}}= \left[ \begin{array}{c}{f\left(x_{*}^{(1)}\right)} \\ {f\left(x_{*}^{(2)}\right)} \\ {\vdots} \\ {f\left(x_{*}^{\left(m_{*}\right)}\right)}\end{array}\right], \quad \overrightarrow{\varepsilon}_{*}= \left[ \begin{array}{c}{\varepsilon_{*}^{(1)}} \\ {\varepsilon_{*}^{(2)}} \\ {\vdots} \\ {\varepsilon_{*}^{\left(m_{*}\right)}}\end{array}\right], \quad \vec{y}_{*}= \left[ \begin{array}{c}{y_{*}^{(1)}} \\ {y_{*}^{(2)}} \\ {\vdots} \\ {y_{*}^{\left(m_{*}\right)}}\end{array}\right] \in \mathbf{R}^{m}$

给定训练数据 $S$ ，先验 $p (h)$ ，以及测试输入 $X_*$ ，我们如何计算测试输出的后验预测分布？对于第 $2$ 节中的贝叶斯线性回归，我们使用贝叶斯规则来计算后验参数，然后对于新的测试点 $x_*$ 使用后验参数计算后验预测分布 $p\left(y_{*} | x_{*}, S\right)$ 。然而，对于高斯过程回归，结果是存在一个更简单的解决方案！

4.2 预测

回想一下，对于从具有协方差函数 $k(\cdot,\cdot)$ 的零均值高斯先验过程中得到的任何函数 $f(\cdot)$ ，其任意一组输入点上的边缘分布必须是一个联合的多元高斯分布。特别是，这必须适用于训练和测试点，所以我们有下式：

$\left[ \begin{array}{c}{\vec{f}} \\ {\vec{f}_*}\end{array}\right] | X, X_{*} \sim \mathcal{N}\left(\overrightarrow{0}, \left[ \begin{array}{cc}{K(X, X)} & {K\left(X, X_{*}\right)} \\ {K\left(X_{*}, X\right)} & {K\left(X_{*}, X_{*}\right)}\end{array}\right]\right)$

其中：

$\vec{f} \in \mathbf{R}^{m} \text { such that } \vec{f}=\left[f\left(x^{(1)}\right) \cdots f\left(x^{(m)}\right)\right]^{T}\\ \vec{f}_{*} \in \mathbf{R}^{m} \cdot \text { such that } \vec{f}_{*}=\left[f\left(x_{*}^{(1)}\right) \cdots f\left(x_{*}^{(m)}\right)\right]^{T} \\ K(X, X) \in \mathbf{R}^{m \times m} \text { such that }(K(X, X))_{i j}=k\left(x^{(i)}, x^{(j)}\right) \\ K\left(X, X_{*}\right) \in \mathbf{R}^{m \times m_*} \text { such that }\left(K\left(X, X_{*}\right)\right)_{i j}=k\left(x^{(i)}, x_{*}^{(j)}\right) \\ K\left(X_{*}, X\right) \in \mathbf{R}^{m_* \times m} \text { such that }\left(K\left(X_{*}, X\right)\right)_{i j}=k\left(x_{*}^{(i)}, x^{(j)}\right) \\ K\left(X_{*}, X_{*}\right) \in \mathbf{R}^{m_{*} \times m_{*}} \text { such that }\left(K\left(X_{*}, X_{*}\right)\right)_{i j}=k\left(x_{*}^{(i)}, x_{*}^{(j)}\right)$

根据我们独立同分布噪声假设，可以得到：

$\left[ \begin{array}{c}{\overrightarrow{\varepsilon}} \\ {\overrightarrow{\varepsilon}_{*}}\end{array}\right]\sim\mathcal{N}\left(0,\left[ \begin{array}{cc}{\sigma^{2} I} & {\overrightarrow{0}} \\ {\overrightarrow{0}^{T}} & {\sigma^{2} I}\end{array}\right]\right)$

独立高斯随机变量的和也是高斯的，所以有：

$\left[ \begin{array}{c}{\vec{y}} \\ {\vec{y}_{*}}\end{array}\right] | X, X_{*}= \left[ \begin{array}{c}{\vec{f}} \\ {\vec{f}}\end{array}\right]+\left[ \begin{array}{c}{\overrightarrow{\varepsilon}} \\ {\overrightarrow{\varepsilon}_{*}}\end{array}\right] \sim \mathcal{N}\left(\overrightarrow{0}, \left[ \begin{array}{cc}{K(X, X)+\sigma^{2} I} & {K\left(X, X_{*}\right)} \\ {K\left(X_{*}, X\right)} & {K\left(X_{*}, X_{*}\right)+\sigma^{2} I}\end{array}\right]\right)$

现在，用高斯函数的条件设定规则，它遵循下面的式子：

$\overrightarrow{y_{*}} | \vec{y}, X, X_{*} \sim \mathcal{N}\left(\mu^{*}, \Sigma^{*}\right)$

其中：

$\begin{aligned} \mu^{*} &=K\left(X_{*}, X\right)\left(K(X, X)+\sigma^{2} I\right)^{-1} \vec{y} \\ \Sigma^{*} &=K\left(X_{*}, X_{*}\right)+\sigma^{2} I-K\left(X_{*}, X\right)\left(K(X, X)+\sigma^{2} I\right)^{-1} K\left(X, X_{*}\right) \end{aligned}$

就是这样！值得注意的是，在高斯过程回归模型中进行预测非常简单，尽管高斯过程本身相当复杂！ $^{11}$

11 有趣的是，贝叶斯线性回归，当以正确的方式进行核化时，结果与高斯过程回归完全等价！但贝叶斯线性回归的后验预测分布的推导要复杂得多，对算法进行核化的工作量更大。高斯过程透视图当然要简单得多。

5. 总结

在结束对高斯过程的讨论时，我们指出了高斯过程在回归问题中是一个有吸引力的模型的一些原因，在某些情况下，高斯过程可能优于其他模型（如线性和局部加权线性回归）：

作为贝叶斯方法，高斯过程模型不仅可以量化问题的内在噪声，还可以量化参数估计过程中的误差，从而使预测的不确定性得到量化。此外，贝叶斯方法中的许多模型选择和超参数选择方法都可以立即应用于高斯过程（尽管我们没有在这里讨论这些高级主题）。
与局部加权线性回归一样，高斯过程回归是非参数的，因此可以对输入点的任意函数进行建模。
高斯过程回归模型为将核引入回归建模框架提供了一种自然的方法。通过对核的仔细选择，高斯过程回归模型有时可以利用数据中的结构（尽管我们也没有在这里研究这个问题）。
高斯过程回归模型，尽管在概念上可能有些难以理解，但仍然导致了简单而直接的线性代数实现。

参考资料

[1] Carl E. Rasmussen and Christopher K. I. Williams. Gaussian Processes for Machine Learning. MIT Press, 2006. Online: http://www.gaussianprocess.org/gpml/

附录 A.1

在这个例子中，我们展示了如何使用多元高斯的归一化特性来计算相当吓人的多元积分，而不需要执行任何真正的微积分！假设你想计算下面的多元积分：

$c)=\int_{x} \exp \left(-\frac{1}{2} x^{T} A x-x^{T} b-c\right) d x$

尽管可以直接执行多维积分（祝您好运！），但更简单的推理是基于一种称为“配方法”的数学技巧。特别的：

$\begin{aligned} I(A, b, c) &=\exp (-c) \cdot \int_{x} \exp \left(-\frac{1}{2} x^{T} A x-x^{T} A A^{-1} b\right)d x \\ &=\exp (-c) \cdot \int_{x} \exp \left(-\frac{1}{2}\left(x-A^{-1} b\right)^{T} A\left(x-A^{-1} b\right)-b^{T} A^{-1} b\right) d x \\ &=\exp \left(-c-b^{T} A^{-1} b\right) \cdot \int_{x} \exp \left(-\frac{1}{2}\left(x-A^{-1} b\right)^{T} A\left(x-A^{-1} b\right)\right) d x \end{aligned}$

定义 $\mu=A^{-1} b$ 和 $\Sigma=A^{-1}$ ，可以得到 $I (A, b, c)$ 等于：

$\frac{(2 \pi)^{m / 2}|\Sigma|^{1 / 2}}{\exp \left(c+b^{T} A^{-1} b\right)} \cdot\left[\frac{1}{(2 \pi)^{m / 2}|\Sigma|^{1 / 2}} \int_{x} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right) d x\right]$

然而，括号中的项在形式上与多元高斯函数的积分是相同的！因为我们知道高斯密度可以归一化，所以括号里的项等于 $1$ 。因此：

$c)=\frac{(2 \pi)^{m / 2}\left|A^{-1}\right|^{1 / 2}}{\exp \left(c+b^{T} A^{-1} b\right)}$

附录 A.2

推导出给定 $x_B$ 下 $x_A$ 的分布形式；另一个结果可以立即根据对称性可以得到。注意到：

$\begin{aligned} p\left(x_{A} | x_{B}\right)&=\frac{1}{\int_{x_{A}} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{A}} \cdot\left[\frac{1}{(2 \pi)^{m / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)\right] \\ &=\frac{1}{Z_{1}} \exp \left\{-\frac{1}{2}\left(\left[ \begin{array}{c}{x_{A}} \\ {x_{B}}\end{array}\right]-\left[ \begin{array}{c}{\mu_{A}} \\ {\mu_{B}}\end{array}\right]\right)^{T} \left[ \begin{array}{cc}{V_{A A}} & {V_{A B}} \\ {V_{B A}} & {V_{B B}}\end{array}\right]\left(\left[ \begin{array}{c}{x_{A}} \\ {x_{B}}\end{array}\right]-\left[ \begin{array}{c}{\mu_{A}} \\ {\mu_{B}}\end{array}\right]\right)\right\} \end{aligned}$

其中 $Z_1$ 是不依赖于 $x_A$ 的比例常数，且：

$\Sigma^{-1}=V=\left[ \begin{array}{ll}{V_{A A}} & {V_{A B}} \\ {V_{B A}} & {V_{B B}}\end{array}\right]$

要简化这个表达式，请观察下面的式子：

$\begin{aligned} &\left(\left[ \begin{array}{c}{x_{A}} \\ {x_{B}}\end{array}\right]-\left[ \begin{array}{c}{\mu_{A}} \\ {\mu_{B}}\end{array}\right]\right)^{T} \left[ \begin{array}{cc}{V_{A A}} & {V_{A B}} \\ {V_{B A}} & {V_{B B}}\end{array}\right]\left(\left[ \begin{array}{c}{x_{A}} \\ {x_{B}}\end{array}\right]-\left[ \begin{array}{c}{\mu_{A}} \\ {\mu_{B}}\end{array}\right]\right) \\ &\qquad =\left(x_{A}-\mu_{A}\right)^{T} V_{A A}\left(x_{A}-\mu_{A}\right)+\left(x_{A}-\mu_{A}\right)^{T} V_{A B}\left(x_{B}-\mu_{B}\right) \\ &\qquad\qquad +\left(x_{B}-\mu_{B}\right)^{T} V_{B A}\left(x_{A}-\mu_{A}\right)+\left(x_{B}-\mu_{B}\right)^{T} V_{B B}\left(x_{B}-\mu_{B}\right) \end{aligned}$

只保留依赖于 $x_A$ 的项（利用 $V_{A B}=V_{B A}^{T}$ ），我们有：

$p\left(x_{A} | x_{B}\right)=\frac{1}{Z_{2}} \exp \left(-\frac{1}{2}\left[x_{A}^{T} V_{A A} x_{A}-2 x_{A}^{T} V_{A A} \mu_{A}+2 x_{A}^{T} V_{A B}\left(x_{B}-\mu_{B}\right)\right]\right)$

其中 $Z_2$ 是一个同样不依赖于 $x_A$ 新的比例常数。最后，使用“配方”参数（参见附录A.1），我们得到：

$p\left(x_{A} | x_{B}\right)=\frac{1}{Z_{3}} \exp \left(-\frac{1}{2}\left(x_{A}-\mu^{\prime}\right)^{T} V_{A A}\left(x_{A}-\mu^{\prime}\right)\right)$

其中 $Z_3$ 是一个新的不依赖于 $x_A$ 的比例常数，并且 $\mu'=\mu_{A}-V_{A A}^{-1} V_{A B}\left(x_{B}-\mu_{B}\right)$ 。最后这个表述表明以 $x_B$ 为条件下 $x_A$ 的分布，同样是多元高斯函数的形式。事实上，从归一化性质可以直接得出：

$x_{A} | x_{B} \sim \mathcal{N}\left(\mu_{A}-V_{A A}^{-1} V_{A B}\left(x_{B}-\mu_{B}\right), V_{A A}^{-1}\right)$

为了完成证明，我们只需要注意：

$\left[ \begin{array}{cc}{V_{A A}} & {V_{A B}} \\ {V_{B A}} & {V_{B B}}\end{array}\right]= \left[ \begin{array}{c}{\left(\Sigma_{A A}-\Sigma_{A B} \Sigma_{B B}^{-1} \Sigma_{B A}\right)^{-1}}&-\left(\Sigma_{A A}-\Sigma_{A B} \Sigma_{B B}^{-1} \Sigma_{B A}\right)^{-1} \Sigma_{A B} \Sigma_{B B}^{-1} \\ {-\Sigma_{B B}^{-1} \Sigma_{B A}\left(\Sigma_{A A}-\Sigma_{A B} \Sigma_{B B}^{-1} \Sigma_{B A}\right)^{-1}}&\left(\Sigma_{B B}-\Sigma_{B A} \Sigma_{A A}^{-1} \Sigma_{A B}\right)^{-1}\end{array} \right]$

由分块矩阵的逆的标准公式推出。将相关的块替换到前面的表达式中就得到了想要的结果。

附录 A.3

在这一节中，我们提出了多元高斯分布条件分布的另一种（更简单的）推导方法。注意，正如附录A.2所示，我们可以这样写出 $p\left(x_{A} | x_{B}\right)$ 的形式：

$\begin{aligned} p\left(x_{A} | x_{B}\right) &=\frac{1}{\int_{x_{A}} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{A}} \cdot\left[\frac{1}{(2 \pi)^{m / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)\right] &(4)\\ &=\frac{1}{Z_{1}} \exp \left\{-\frac{1}{2}\left(\left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]\right)^{T} \left[ \begin{array}{cc}{V_{A A}} & {V_{A B}} \\ {V_{B A}} & {V_{B B}}\end{array}\right] \left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]\right\} &(5) \end{aligned}$

其中 $Z_1$ 是不依赖于 $x_A$ 的比例常数。

这个推导使用了一个附加的假设，即条件分布是一个多元高斯分布；换句话说，我们假设 $p\left(x_{A} | x_{B}\right) \sim \mathcal{N}\left(\mu^{*}, \Sigma^{*}\right)$ 有一些参数 $\mu^{*}, \Sigma^{*}$ （或者，你可以把这个推导看作是寻找“配方法”另一种方法）。

这个推导的关键直觉是当 $x_{A}=\mu^{*} \triangleq x_{A}^{*}$ 时， $p\left(x_{A} | x_{B}\right)$ 将会最大化。我们计算 $\log p\left(x_{A} | x_{B}\right)$ 关于 $x_A$ 的梯度，并设其为零。利用等式 $(5)$ ，我们可以得到：

$\begin{aligned} &\nabla_{x_{A}} \log p(x_A | x_B)|_{x_A=x_A^{*}} &\qquad\qquad\qquad(6)\\ &{=-V_{A A}\left(x_{A}^{*}-\mu_{A}\right)-V_{A B}\left(x_{B}-\mu_{B}\right)} &(7)\\ &{=0}&(8) \end{aligned}$

这意味着：

$\mu^{*}=x_{A}^{*}=\mu_{A}-V_{A A}^{-1} V_{A B}\left(x_{B}-\mu_{B}\right)\qquad\qquad\qquad\qquad (9)$

类似地，我们利用高斯分布 $p(\cdot)$ 的逆协方差矩阵是 $\log p(\cdot)$ 的负海森矩阵。换句话说，高斯分布 $p\left(x_{A} | x_{B}\right)$ 的逆协方差矩阵是 $\log p\left(x_{A} | x_{B}\right)$ 的负海森矩阵。利用式 $(5)$ ，我们有：

$\begin{aligned} \Sigma^{*-1} &=-\nabla_{x_{A}} \nabla_{x_{A}}^{T} \log p\left(x_{A} | x_{B}\right)&\qquad\qquad\qquad(10) \\ &=V_{A A} &(11) \end{aligned}$

因此，我们得到：

$\Sigma^{*}=V_{A A}^{-1} \qquad\qquad\qquad(11)$

你可能感兴趣的:(机器学习,数据挖掘)

Python爬虫实战：研究MarkupSafe库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 MarkupSafe
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，网页内容自动提取与分析技术在信息检索、舆情监控、数据挖掘等领域的需求日益凸显。网络爬虫作为获取网页内容的核心工具，能够自动化采集互联网信息。然而，直接渲染爬取的网页内容存在安全隐患，特别是跨站脚本攻击（XSS）风险。攻击者可能通过注入恶意脚本窃取用户信息或破坏网站功能。MarkupSafe作为Python的安全字符串处理库，能够有效处理不可
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
面向隐私保护的机器学习：联邦学习技术解析与应用 Blossom.118 机器学习与人工智能机器学习人工智能深度学习 tensorflow python 神经网络 cnn
在当今数字化时代，数据隐私和安全问题日益受到关注。随着《数据安全法》《个人信息保护法》等法律法规的实施，企业和机构在数据处理和分析过程中面临着越来越严格的合规要求。然而，机器学习模型的训练和优化往往需要大量的数据支持，这就产生了一个矛盾：如何在保护数据隐私的前提下，充分利用数据的价值进行机器学习模型的训练和优化？联邦学习（FederatedLearning）作为一种新兴的隐私保护技术，为解决这一问
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
如何看待机器学习方法在超分子化学领域的日渐流行？ cda2024 机器学习人工智能
大家好，今天咱们来聊聊一个既时髦又接地气的话题：如何看待机器学习方法在超分子化学领域的日渐流行？想象一下，你是一位超分子化学家，正忙于设计一种新型的分子结构，这个结构需要具备特定的功能。传统的方法是通过反复实验和理论计算来优化这个结构，但过程可能非常耗时且复杂。而现在，借助机器学习，你可以更快、更准确地找到最优解。这就是为什么机器学习在超分子化学领域变得越来越受欢迎的原因之一。一、超分子化学是什么
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
算法大厨日记：猫猫狐狐带你用代码做一锅香喷喷的“预测汤” Gyoku Mint AI修炼日记猫猫狐狐的小世界人工智能人工智能机器学习 python 算法 database 深度学习数据挖掘
️【开场·今天的料理名叫“预测炖汤”】猫猫：“咱今天突发奇想，决定用机器学习代码给你炖一锅‘预测汤’喵！这不是教你代码，是要告诉你怎么把‘算法’吃进肚子里~”狐狐：“别急，她又在打比方了。这锅汤从数据准备到调参优化，就跟你平常做饭的过程没两样，只不过食材都被咱们用代码换了一遍。”【第一步·数据准备，就是挑菜啦】猫猫：“首先是挑菜（数据预处理），不能什么菜都扔进去锅里吧？要洗干净去皮（数据清洗），再
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
python ks值计算_风控模型中的K-S理解以及python实现 weixin_39747293 python ks值计算
笔者在工作中计算单变量的ks值时，发现几个分布不同的变量好y计算的ks值相同，凭借统计直觉，发现一定存在问题，笔者从数据和计算ks代码两个方向进行排除。最后定位到计算使用stats.ks_2samp()函数计算ks值时，如果变量存在缺失值，计算得到ks值有误，下面笔者就来好好梳理一下ks值的前世今生。ks检验介绍笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
RDKit：药物化学和分子数据处理的强大工具库碳酸的唐机器学习人工智能
引言在药物研发、化学信息学和分子设计领域，高效处理和分析分子数据是至关重要的。RDKit作为一个开源的化学信息学和机器学习工具包，为研究人员和数据科学家提供了丰富的功能，包括分子操作、描述符计算、指纹生成、相似性比较、子结构搜索和分子可视化等。本文将详细介绍RDKit的主要功能、应用场景以及实际操作示例，展示这一强大工具在分子数据处理中的核心价值。RDKit简介RDKit是一个由C++和Pytho
机器学习中的数学：数学建模常用知识点-1 数字化与智能化机器学习中的数学机器学习凸函数泰勒公式 Jensen 不等式
一、凸函数1、凸函数讲解设函数f(x)是定义在区间X上的函数，若对于区间上任意两点x1、x2和任意实数��∈(0,1)，总有如下表达式成立：则称为f(x)是X上的凸函数；反之，如果下式成立：则称为f(x)在X上的凹函数。如图所示：Python实现凸函数：importnumpyasnpimportmatplotlib.pyplotasplt#定义凸函数defconvex_function(x):re
【数据挖掘】分类算法学习—ID3 会的全对٩(ˊᗜˋ*)و 数据挖掘数据挖掘分类学习经验分享 ID3
分类算法学习—ID3ID3（IterativeDichotomiser3）是一种经典的决策树学习算法，由RossQuinlan于1986年提出，主要用于处理离散特征的分类问题。其核心思想是通过信息增益选择最优特征进行节点分裂，递归构建决策树。要求：理解并掌握ID3算法，理解算法的原理，能够实现算法，并对给定的数据集进行分类，分析个人参股的情况代码实现：importpandasaspdimportn
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
基于机器学习的人形机器人电池健康状态预测方法 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据机器学习机器人人工智能 ai
基于机器学习的人形机器人电池健康状态预测方法：从理论到实践的系统解析关键词电池健康状态（SOH）、剩余使用寿命（RUL）、人形机器人、机器学习、时序数据建模、多模态特征融合、边缘计算部署摘要本报告系统解析基于机器学习的人形机器人电池健康状态预测方法，覆盖从理论框架到工程实现的全链路。首先界定人形机器人场景下电池健康状态的核心指标（SOH/RUL/RC），梳理从电化学模型到数据驱动方法的技术演进；其
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
【机器学习&深度学习】前馈神经网络（单隐藏层）一叶千舟深度学习【理论】机器学习深度学习神经网络
目录一、什么是前馈神经网络？二、数学表达式是什么？三、为什么需要“非线性函数”？四、NumPy实现前馈神经网络代码示例五、运行结果六、代码解析6.1初始化部分6.2前向传播6.3计算损失（Loss）6.4反向传播（手动）6.5更新参数（梯度下降）6.6循环训练七、训练过程可视化（思维图）八、关键问题答疑Q1：为什么需要隐藏层？Q2：ReLU是干嘛的？Q3：学习率怎么选？九、总结学习建议在机器学习中
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在