远哥挺乐

【计算机视觉|生成对抗】生成对抗网络（GAN）

本系列博文为深度学习/计算机视觉论文笔记，转载请注明出处

标题：Generative Adversarial Nets

链接：Generative Adversarial Nets (nips.cc)

摘要

我们提出了一个通过**对抗（adversarial）**过程估计生成模型的新框架，在其中我们同时训练两个模型：

一个生成模型G，捕获数据分布
一个判别模型D，估计样本来自训练数据还是G的概率。

G的训练过程是最大化D犯错误的概率。

该框架对应于一个极小极大的两人博弈。

在任意函数G和D的空间中，存在一个唯一解决方案，G恢复训练数据分布，D在任何地方都等于1/2。在G和D由多层感知机定义的情况下，可以通过反向传播训练整个系统。在训练或生成样本期间，不需要任何马尔可夫链或展开的近似推理网络。

实验通过生成样本的定性和定量评估展示了该框架的潜力。

1 引言

深度学习的作用是发现丰富的、层次化的模型[2]，它们表示人工智能应用中遇到的数据类型的概率分布，例如自然图像、包含语音的音频波形和自然语言语料库中的符号。

到目前为止，深度学习最引人注目的成功涉及判别模型，通常是将高维、丰富的感觉输入映射到类标签[14, 20]的模型。这些引人注目的成功主要基于反向传播和随机失活算法，使用分段线性单元[17, 8, 9]，它们具有特别良好的梯度行为。

深度生成模型的影响较小，这是由于在最大似然估计和相关策略中出现的许多难以近似的概率计算，以及在生成环境中难以利用分段线性单元的好处所造成的。我们提出了一种新的生成模型估计过程，可以避开这些困难。¹

在所提出的对抗网络框架中，生成模型与一个敌手相对立：

一个判别模型，学会判断样本是来自模型分布还是数据分布。生成模型可以被看作与一组伪造者相类似，试图生产假货币并在不被检测的情况下使用它
判别模型则与警察相类似，试图检测伪造货币

这个游戏中的竞争推动两个团队改进其方法，直到伪造品与真品无法区分。

该框架可以为许多种模型和优化算法产生特定的训练算法。

在本文中，我们探讨了生成模型通过多层感知机（MLP）传递随机噪声生成样本，而判别模型也是多层感知机的特殊情况。我们将此特殊情况称为对抗网络（adversarial nets）。

在这种情况下，我们可以仅使用高度成功的反向传播和随机失活算法[17]来训练两个模型，并仅使用前向传播从生成模型中抽样。不需要近似推断或马尔可夫链。

2 相关工作

直到现在，深度生成模型的大部分工作都集中在提供有规范参数的概率分布函数，然后可以通过最大化对数似然函数来训练模型上。

在这类模型中，可能最成功的是深度玻尔兹曼机（deep Boltzmann machine）[25]。
这类模型通常具有难以处理的似然函数，因此需要对似然梯度进行多次近似。

这些困难促使“生成机（generative machines）”模型的发展——

这些模型不显式地表示似然函数，但能够从所需分布中生成样本。
生成随机网络[4]就是一个生成机的例子，它可以通过精确的反向传播进行训练，而不需要像玻尔兹曼机那样进行多次近似。

本文通过消除生成随机网络中使用的马尔可夫链，扩展了生成机的思想。

我们的工作通过利用以下观察，利用生成过程进行导数的反向传播：
$\lim_{\sigma\rightarrow0}\nabla_{\pmb{x}}\mathbb{E}_{\epsilon\sim\mathcal{N}(0,\sigma^{2}\pmb{I})}f(\pmb{x}+\epsilon)=\nabla_{\pmb{x}}f(\pmb{x})$

译者注：上述公式的意思是对 $f$ 的期望求导等价于对 $f$ 自己求导，这也是为什么作者会利用误差的反向传递对GAN进行求解

当时，我们不知道Kingma和Welling [18]以及Rezende等人[23]已经开发了更通用的随机反向传播规则，可以通过有限方差的高斯分布进行反向传播，并且可以反向传播到协方差参数以及均值参数。

这些反向传播规则可以让我们学习生成器的条件方差，在本文中我们将其视为超参数。

Kingma和Welling [18]以及Rezende等人[23]使用随机反向传播来训练变分自动编码器（variational autoencoders，VAEs）。

与GAN不同，VAE将一个可微分的生成器网络与第二个神经网络配对。
不同于GAN，VAE中的第二个网络是一个执行近似推断的识别模型。
GAN需要通过可见单元进行微分，因此无法对离散数据建模，而VAE需要通过隐藏单元进行微分，因此无法具有离散潜变量。

还存在其他类似VAE的方法[12, 22]，但与我们的方法关联性较小。

先前的工作也采用了使用判别标准来训练生成模型的方法[29, 13]。这些方法对于深度生成模型来说是难以处理的，因为它们涉及概率的比值，而这些比值不能通过将概率下界的变分近似进行近似来处理。

噪声对比估计（Noise-contrastive estimation，NCE）[13]涉及通过学习使模型对来自固定噪声分布的数据具有区分性的权重来训练生成模型。

使用先前训练过的模型作为噪声分布允许训练一系列质量逐渐提高的模型。这可以看作是一种非正式的竞争机制，类似于对抗网络游戏中使用的正式竞争机制。
NCE的关键局限在于其“鉴别器（discriminator）”是由噪声分布和模型分布的概率密度比率定义的，因此需要能够评估并反向传播这两个密度。

先前的工作使用了两个神经网络相互竞争的一般概念。最相关的工作是可预测性最小化（predictability minimization，下称PM）[26]。在可预测性最小化中，神经网络中的每个隐藏单元被训练得与第二个网络的输出不同，而这第二个网络根据所有其他隐藏单元的值来预测该隐藏单元的值。

译者注：可预测性最小化是一种神经网络训练方法，旨在使隐藏单元在给定其他隐藏单元的值的情况下与另一个网络的输出不同。具体而言，第二个网络会预测某个隐藏单元的值，而这个隐藏单元是在网络中的一个特定部分。通过训练隐藏单元与预测的值不同，可预测性最小化试图确保网络的隐藏表示在进行某项任务时具有统计上的独立性。这有助于提高网络的表达能力和泛化性能。

本文与可预测性最小化有三个重要的区别：

在本文中，**网络之间的竞争是唯一的训练准则，**足以训练网络。可预测性最小化只是一种鼓励神经网络的隐藏单元在完成其他任务的同时具有统计独立性的正则化器，它不是主要的训练准则。
竞争的性质是不同的。在可预测性最小化中，比较了两个网络的输出，其中一个网络试图使输出相似，而另一个网络试图使输出不同。所涉及的输出是一个单一标量。在GAN中，一个网络产生一个丰富的高维向量，用作另一个网络的输入，并试图得出一个另一个网络不知道如何处理的输入。
学习过程的规范是不同的。可预测性最小化被描述为一个要最小化的目标函数的优化问题，学习接近目标函数的最小值。**GAN基于极小极大博弈而不是优化问题，并且具有一个值函数，其中一个代理试图最大化，而另一个代理试图最小化。**游戏在一个鞍点终止，该鞍点对于一个玩家的策略是一个最小值，对于另一个玩家的策略是一个最大值。

有时人们会将GAN错误地与相关概念“对抗性样本（adversarial examples）”[28]混淆。

对抗性样本是通过对分类网络的输入直接使用基于梯度的优化方法找到的例子，目的是找到与数据相似但被错误分类的例子。
这与本文的工作不同，因为对抗性样本不是一种训练生成模型的机制。相反，对抗性样本主要是用于分析工具，用于展示神经网络的行为方式，即使两个图像在人类观察者看来几乎无法区分，神经网络也会自信地对它们进行不同的高置信度分类。
这种对抗性样本的存在确实暗示着GAN训练可能是低效的，因为它们表明现代判别网络可以自信地识别一类，而无需模拟出该类别的任何人类可感知属性。

3 对抗网络

对抗模型框架在模型都是多层感知机（MLP）时最直接应用。

为了学习生成器的数据 $\pmb{x}$ 上的分布 $p_g$ ，我们在输入噪声变量 $p_z(z)$ 上定义一个先验，然后将映射的数据空间表示为 $G(z;\theta_g)$ ，其中 $G$ 是一个由参数 $\theta_g$ 表示的多层感知机的可微函数。
我们还定义了第二个多层感知机 $D(\pmb{x};\theta_d)$ ，其输出一个标量。 $D(\pmb{x})$ 代表了 $\pmb{x}$ 来自真实数据而不是生成分布 $p_g$ 的概率。

我们训练 $D$ 以最大化将正确标签分配给训练示例和来自 $G$ 的样本的概率。

我们同时训练 $G$ 以最小化 $\log(1-D(G(z)))$ 。

译者注：可以对上述内容进行更生动的描述。

GAN的目的就是要得到最强大的判别器（D）和强大的生成器（G）

假如需要使用某种方法模仿某游戏渲染画面，比如要渲染出符合某分布的（比如角色阵亡时的）、 $x$ 个像素（ $x$ 维）的画面 $\pmb{x}$ ，可以有两种方法：

反汇编游戏程序，了解到具体每行代码对于每帧画面生成所具体产生的作用，如“人物造型”、“对象移动”等，以期对画面分布的生成进行完美的建模。

定义若干个变量（即一个若干维的变量），然后假定认为这若干维的变量通过某种函数关系，共同影响了最终生成数据 $\pmb{x}$ 的分布情况。

前者类似“相关工作”中所提到的“拟合似然函数”的方法，即“追根溯源”的方法，这种方法解释性很强，可以很好地解释出每个参数对于最终结果生成所产生的影响，但是操作难度较高，也难找到合适的似然函数。

后者就有点类似于“多层感知机（MLP）”的方法了，理论上来说，MLP可以拟合任意函数的表达，只是可解释性差。虽然我不知道从游戏代码到画面其背后到底是个什么映射关系，但是我估摸着这若干维的参数就足以表达这内容背后隐藏的逻辑了。

只不过我不会知道那若干维的参数之中的每一个，最终对结果 $\pmb{x}$ 到底产生了怎样的影响，以及每个参数具体有什么含义而已。

整理一下。论文当中的各个变量可以作如下解释：

数据 $\pmb{x}$ 的分布规律 $p_g$ ，这是最终要得到的结果

生成器 $G(z;\theta_g)$

输入：取自随机噪声 $p_z(z)$ 的初始化数据 $z$

参数： $\theta_g$

输出： $\pmb{x}$ （如，上例中 $x$ 维的画面 $\pmb{x}$ ）

优秀的生成器 $G$ ，能够尽可能生成

更接近真实数据的 $\pmb{x}$

更接近真实分布的 $p_g$

判别器 $D(\pmb{x};\theta_d)$

输入： $\pmb{x}$

参数： $\theta_d$

输出：一个标量，表示 $\pmb{x}$ 来自真实数据而非生成分布 $p_g$ 中取样的概率。

$\pmb{x}$ 越可能来自于真数据，输出 $D(\pmb{x})$ 越接近 $1$

$\pmb{x}$ 越可能来自于生成器，输出 $D(\pmb{x})$ 越接近 $0$

优秀的判别器 $D$ ，能够尽可能判断出

$\pmb{x}$ 的来源是生成器？

$\pmb{x}$ 的来源是真实分布的采样？

训练GAN就是要同时训练 $G$ 和 $D$ ，并期望都达到优秀标准。

为了训练出更好的 $G$ ，作者提出了一种衡量标准，即 $\log(1-D(G(z)))$ ，要求这个式子表达的内容尽可能小，下面我们仔细一下分析这个式子：

$z$ 表示初始化的随机输入

$G (z)$ 表示生成器生成的结果，期望这个结果更接近真实分布中的采样

即期望让生成器 $G$ 造出更“真”的假数据。

$D (G (z))$ 表示使用判别器 $D$ 判别生成器 $G$ 所生成的结果，期望这个结果更接近 $1$

即期望让判别器 $D$ 尽可能误以为结果 $G (z)$ 为来自真实分布的采样

只有当 $D (G (z))$ 越接近 $1$ 时， $\log(1-D(G(z)))$ 才会越接近负无穷（ $-\infty$ ）

这就是文中说的要“最小化 $\log(1-D(G(z)))$ ”的原因

换句话说， $D$ 和 $G$ 玩以下两人极小极大游戏（two-player minimax game），价值函数为 $V (G, D)$ ：

$\mathop{\min}\limits_{G}\mathop{\max}\limits_{D}V(D,G)=\mathbb{E}_{x\sim{p_{\text{data}}(x)}}[\log D(x)]+\mathbb{E}_{z\sim{p_{z}(x)}}[\log(1 - D(G(z)))]\tag{1}$

译者注：式中不写 $V (G, D)$ 而写 $V (D, G)$ ，应该是作者笔误。

$\mathbb{E}_{x\sim{p_{\text{data}}(x)}}[\log D(x)]$ 中的 $x$ 采样于真实值的分布

在判别器 $D$ 很完美的情况下，应该能识别得出所有 $x$ 都是来自于真实分布的采样

$D (x)$ 应该是趋向于 $1$ 的， $\log D(x)$ 就应该是趋向于 $0$ 的

那么该期望就应该是趋向于 $0$ 的

$\mathbb{E}_{z\sim{p_{z}(x)}}[\log(1 - D(G(z)))]$ 中的 $z$ 采样于随机噪声 $p_z(z)$

在生成器 $G$ 和判别器 $D$ 都很完美的情况下， $D$ 应该能识别得出所有 $G (z)$ 都是来自于生成器的结果

$D (G (z))$ 应该是趋向于 $0$ 的， $\log(1-D(G(z)))$ 就应该也是趋向于 $0$ 的

那么该期望也应该是趋向于 $0$ 的

$\mathop{\max}\limits_{D}$ 表示期望使得 $D$ 尽量不犯错，即要最大化 $D$ 的值。

$\mathop{\min}\limits_{G}$ 表示期望 $G$ 能使 $D$ 尽量犯错，即要最小化 $G$ 的值。

在下一节中，我们将提供对抗网络的理论分析，本质上显示训练标准允许在给予 $G$ 和 $D$ 足够容量的情况下，即在非参数限制下，恢复数据生成分布。

对于一种不太正式、但是更好理解的方法解释，请参见图1。

图1：GAN通过同时更新判别分布（ $D$ ，蓝色，虚线）来进行训练，以便它能够区分来自数据生成分布（黑色，虚点线） $p_x$ 与生成分布 $p_g$ （ $G$ ）（绿色，实线）的样本。下面的水平线是 $z$ 的均匀采样域。上面的水平线是 $x$ 的域的一部分。向上的箭头显示了映射 $x = G (z)$ 如何在变换后的样本上施加非均匀分布 $p_g$ 。 $G$ 在 $p_g$ 的高密度区域收缩，在低密度区域扩展。 (a) 考虑一个接近收敛的对抗对： $p_g$ 与 $p_{data}$ 相似， $D$ 是一个部分准确的分类器。 (b) 在算法的内循环中， $D$ 被训练来区分来自数据的样本，收敛到 $D^*(x) = \frac{p_{data}(x)}{p_{data}(x)+p_g(x)}$ 。 © 更新 $G$ 后， $D$ 的梯度引导了 $G (z)$ 流向更有可能被分类为数据的区域。 (d) 经过多次训练，如果 $G$ 和 $D$ 有足够的容量，它们将达到一个点，即 $p_g = p_{data}$ 。此时判别器无法区分这两个分布，即 $\frac{1}{2}$ 。

在实践中，我们必须使用迭代数值方法来实现游戏。在训练的内部循环中完全优化 $D$ 在计算上是禁止的，并且在有限的数据集上可能会导致过拟合。相反，我们在优化 $D$ 的k个步骤和优化 $G$ 的一个步骤之间交替。只要 $G$ 的变化足够缓慢，就能使 $D$ 保持在其最佳解附近。该程序在算法1中正式呈现。

在实践中，等式1可能不提供足够的梯度供 $G$ 良好学习。在学习的早期阶段，当 $G$ 表现不佳时， $D$ 可以高度自信地拒绝样本，因为它们与训练数据明显不同。在这种情况下， $\log(1 - D(G(z)))$ 会饱和。我们可以训练 $G$ 来最大化 $\log D(G(z))$ ，而不是训练 $G$ 来最小化 $\log(1 - D(G(z)))$ 。这个目标函数导致 $G$ 和 $D$ 的动态相同的固定点，但在学习早期提供了更强的梯度。

4 理论结果

生成器 $G$ 隐式地定义了一个概率分布 $p_g$ ，当 $\sim p_z$ 时，这个分布作为样本 $G (z)$ 的分布。因此，如果给定足够的容量和训练时间，我们希望算法1收敛到 $p_{data}$ 的一个良好估计器。本节的结果是在一个非参数设置中完成的，例如，我们通过研究概率密度函数空间中的收敛来表示具有无限容量的模型。

算法 1 用于GAN的小批量随机梯度下降训练。应用于判别器的步骤数， $k$ ，是一个超参数。在我们的实验中，我们使用了 $k = 1$ ，这是最不昂贵的选项。

for number of training iterations do

for k steps do

从噪声先验 $p_g(z)$ 中抽样m个噪声样本 $\{z^{(1)}, \ldots, z^{(m)}\}$ 。

从数据生成分布 $p_{data}(x)$ 中抽样m个样本 $\{x^{(1)}, \ldots, x^{(m)}\}$ 。

通过提升其随机梯度来更新判别器:

$\nabla \theta_d \frac{1}{m} \sum_{i=1}^{m} \left[ \log D \left( x^{(i)} \right) + \log \left( 1 - D \left( G \left( z^{(i)} \right) \right) \right) \right]$

end for

从噪声先验 $p_g(z)$ 中抽样m个噪声样本 $\{z^{(1)}, \ldots, z^{(m)}\}$ 。

通过降低其随机梯度来更新生成器:

$\nabla \theta_g \frac{1}{m} \sum_{i=1}^{m} \log \left( 1 - D \left( G \left( z^{(i)} \right) \right) \right)$

end for

基于梯度的更新可以使用任何标准的基于梯度的学习规则。我们在我们的实验中使用了动量。

4.1 $p_g = p_{data}$ 的全局最优性

我们首先考虑任何给定生成器 $G$ 的最优判别器 $D$ 。

命题 1 对于固定的 $G$ ，最优判别器 $D$ 为
$D^*_G(x) = \frac{p_{data}(x)}{p_{data}(x) + p_g(x)} \tag{2}$

证明：给定任何生成器 $G$ ，判别器 $D$ 的训练标准是最大化量 $V (G, D)$

$\begin{align} V(G, D) & = \int_x p_{data}(x) \log(D(x))dx + \int_z p_z(z) \log(1 - D(g(z)))dz \\ & = \int_x p_{data}(x) \log(D(x)) + p_g(x) \log(1 - D(x))dx \end{align} \tag{3}$

对于任何 $\in \mathbb{R}^2 \setminus \{0, 0\}$ ，函数 $\rightarrow a \log(y) + b \log(1 - y)$ 在 $[0, 1]$ 中达到其最大值，即 $\frac{a}{a+b}$ 。判别器不需要在 $Supp(p_{data}) \cup Supp(p_g)$ 之外定义，从而得出证明。

请注意， $D$ 的训练目标可以解释为最大化对条件概率 $P (Y = y ∣ x)$ 的对数似然估计，其中 $Y$ 表示 $x$ 是否来自 $p_{data}$ （当 $y = 1$ 时）或来自 $p_g$ （当 $y = 0$ 时）。现在，方程1中的极小极大游戏可以重新表述为：

$\begin{align} C(G) & = \max_{D} V (G, D) \\ & = \mathbb{E}_{x\sim p_{data}} [\log D^*_{G}(x)] + \mathbb{E}_{z\sim p_z} [\log(1 - D^*_{G}(G(z)))] \\ & = \mathbb{E}_{x\sim p_{data}} [\log D^*_{G}(x)] + \mathbb{E}_{x\sim p_g} [\log(1 - D^*_{G}(x))] \\ & = \mathbb{E}_{x\sim p_{data}} \left[ \log \frac{p_{data}(x)}{p_{data}(x) + p_g(x)} \right] + \mathbb{E}_{x\sim p_g} \left[ \log \frac{p_g(x)}{p_{data}(x) + p_g(x)} \right] \end{align} \tag{4}$

定理 1 当且仅当 $p_g = p_{data}$ 时，虚拟训练准则 $C (G)$ 达到全局最小值。在那一点上， $C (G)$ 达到值 $\log 4$ 。

证明：对于 $p_g = p_{data}$ ， $D^*_G(x) = \frac{1}{2}$ （参考方程2）。因此，通过在 $D^*_G(x) = \frac{1}{2}$ 时检查方程4，我们发现 $\log \frac{1}{2} + \log \frac{1}{2} = - \log 4$ 。要看到这是 $C (G)$ 的最佳可能值，只有在 $p_g = p_{data}$ 时才能达到，请注意

$\mathbb{E}_{x\sim p_{data}} [- \log 2] + \mathbb{E}_{x\sim p_g} [- \log 2] = - \log 4$

并且通过从 $C(G) = V (D^*_G, G)$ 中减去此表达式，我们得到：

$\log(4) + \text{KL} \left( p_{data} \middle| \middle| \frac{p_{data} + p_g}{2} \right) + \text{KL} \left( p_g \middle| \middle| \frac{p_{data} + p_g}{2} \right) \tag{5}$

其中 KL 是 Kullback–Leibler 散度。我们在上述表达式中识别出模型分布与数据生成过程之间的 Jensen–Shannon 散度：

$\log(4) + 2 \cdot \text{JSD} (p_{data} \parallel p_g) \tag{6}$

由于两个分布之间的 Jensen–Shannon 散度总是非负的，并且仅当它们相等时为零，我们已经证明了 $C^* = - \log(4)$ 是 $C (G)$ 的全局最小值，唯一的解是 $p_g = p_{data}$ ，即生成模型完美复制了数据生成过程。

4.2 算法1的收敛性

命题2 如果 $G$ 和 $D$ 有足够的容量，并且在算法1的每一步中，都允许鉴别器 $D$ 在给定 $G$ 的情况下达到其最优，并且 $p_g$ 被更新以改善准则
$\mathbb{E}_{x\sim p_{data}} [\log D^*_{G}(x)] + \mathbb{E}_{x\sim p_g} [\log(1 - D^*_{G}(G(x)))]$

那么 $p_g$ 收敛于 $p_{data}$

证明：考虑 $V(G, D) = U(p_g, D)$ 作为 $p_g$ 的函数，如上述准则所做的那样。注意 $U(p_g, D)$ 在 $p_g$ 中是凸的。凸函数的最大值的次导数包括在最大值取得的点处的函数的导数。换句话说，如果 $\sup_{\alpha\in A} f_\alpha(x)$ 且 $f_\alpha(x)$ 对于每个 $\alpha$ 在 $x$ 中是凸的，那么 $\partial f_\beta(x) \in \partial f$ 如果 $\beta = \arg \sup_{\alpha\in A} f_\alpha(x)$ 。这等效于在给定对应 $G$ 的最优 $D$ 的情况下计算 $p_g$ 的梯度下降更新。 $sup_D U(p_g, D)$ 在 $p_g$ 中是凸的，并且有一个唯一的全局最优值，如定理1所证明的那样，因此，通过对 $p_g$ 进行足够小的更新， $p_g$ 收敛于 $p_x$ ，从而得出证明。

实际上，对抗网络通过函数 $\theta_g)$ 表示 $p_g$ 分布的有限族，并且我们优化 $\theta_g$ 而不是 $p_g$ 本身。使用多层感知机定义 $G$ 会在参数空间中引入多个临界点。然而，多层感知机在实践中的出色性能表明，尽管缺乏理论保证，它们仍是合理的模型。

5 实验

我们在一系列数据集上训练了对抗网络，包括MNIST[21]，多伦多人脸数据库(TFD) [27]，和CIFAR-10 [19]。生成器网络使用了整流线性激活[17,8]和S型激活的混合，而鉴别器网络则使用了maxout [9]激活。在训练鉴别器网络时应用了Dropout[16]。虽然我们的理论框架允许在生成器的中间层使用dropout和其他噪声，但我们仅将噪声用作生成器网络的最底层输入。

我们通过将高斯Parzen窗拟合到使用 $G$ 生成的样本，并报告在此分布下的对数似然来估计测试集数据在 $p g$ 下的概率。高斯的σ参数是通过对验证集进行交叉验证获得的。这个程序最初是在Breuleux等人的工作中[7]引入的，并被用于各种精确似然不可行的生成模型[24,3,4]。结果在表1中报告。这种估计似然的方法具有较高的方差，且在高维空间中表现不佳，但据我们所知，这是最好的可用方法。可以采样但无法直接估计似然的生成模型的进展激发了关于如何评估此类模型的进一步研究。

表 1：基于Parzen窗口的对数似然估计。在MNIST上报告的数字是测试集样本的平均对数似然，均值的标准误差是根据样本计算的。在TFD上，我们根据数据集的折叠计算了标准误差，并使用每个折叠的验证集选择了不同的σ。在TFD上，每个折叠上都进行了σ的交叉验证，并计算了每个折叠上的平均对数似然。对于MNIST，我们与数据集的实值（而不是二进制）版本的其他模型进行了比较。

在图2和图3中，我们展示了训练后从生成器网络中抽取的样本。虽然我们并不声称这些样本优于现有方法生成的样本，但我们相信这些样本至少可以与文献中更好的生成模型相媲美，并突显了对抗框架的潜力。

图2：模型样本的可视化。最右侧一列显示相邻样本的最近训练示例，以证明该模型没有记忆训练集。样本是公平的随机抽取，没有精选。与大多数深度生成模型的其他可视化不同，这些图像显示了来自模型分布的实际样本，而不是隐藏单元样本给出的条件均值。此外，这些样本是不相关的，因为采样过程不依赖于马尔可夫链混合。a）MNIST b）TFD c）CIFAR-10（全连接模型）d）CIFAR-10（卷积鉴别器和“反卷积”生成器）

图3：通过在完整模型的z空间坐标之间线性插值获得的数字。

6 优点和缺点

这个新框架相对于先前的建模框架具有优点和缺点。主要的缺点是没有对 $p g (x)$ 的明确表示，以及训练过程中 $D$ 必须与 $G$ 很好地同步（特别是，不能在不更新 $D$ 的情况下过度训练 $G$ ，以避免出现“Helvetica情景”，其中 $G$ 将太多的 $z$ 值塌陷到相同的 $x$ 值，从而没有足够的多样性来模拟 $p_data$ ），就像Boltzmann机器在学习步骤之间必须保持负链一样。优点是永远不需要Markov链，只使用反向传播来获得梯度，学习过程中不需要推理，而且可以将各种功能合并到模型中。表2总结了GAN与其他生成建模方法的比较。

表2：生成建模中的挑战：不同方法在深度生成建模中遇到的主要操作难题的总结。

上述优点主要是计算方面的。敌对模型还可能从生成器网络不直接用数据示例更新，而只通过通过鉴别器流动的梯度进行更新这一点上获得一些统计优势。这意味着输入的组成部分不会直接复制到生成器的参数中。敌对网络的另一个优点是，它们可以表示非常锐利，甚至是退化的分布，而基于Markov链的方法则要求分布在某种程度上模糊，以便链能够在模式之间混合。

7 结论和未来工作

该框架允许许多直接的扩展：

通过将 $c$ 作为 $G$ 和 $D$ 的输入，可以获得条件生成模型 $p (x ∣ c)$ 。
通过训练一个辅助网络来预测给定 $x$ 的 $z$ ，可以执行学习近似推断。这与 wake-sleep 算法[15]训练的推断网类似，但具有优势，即可以在生成网完成训练后针对固定的生成网训练推断网。
可以通过训练一组共享参数的条件模型，大致地对所有条件 $p(x_S | x_{S_{not}})$ 进行建模，其中 $S$ 是 $x$ 的索引的子集。本质上，可以使用对抗网来实现确定性 MP-DBM [10]的随机扩展。
半监督学习：当只有有限的标记数据时，来自判别器或推断网络的特征可以提高分类器的性能。
效率改进：通过设计更好的方法来协调 $G$ 和 $D$ ，或确定在训练期间从中采样 $z$ 的更好分布，可以大大加速训练。

本文已经展示了对抗建模框架的可行性，表明这些研究方向可能是有用的。

致谢

我们要感谢 Patrice Marcotte、Olivier Delalleau、Kyunghyun Cho、Guillaume Alain 和 Jason Yosinski 为有益的讨论。Yann Dauphin 与我们分享了他的 Parzen 窗口评估代码。我们要感谢 Pylearn2 [11] 和 Theano [6,1] 的开发者，特别是 Frédéric Bastien，他特别为了支持这个项目匆忙推出了一个 Theano 功能。Arnaud Bergeron 在 LATEX 排版方面提供了急需的支持。我们还要感谢 CIFAR 和加拿大研究主席为资助，以及 Compute Canada 和 Calcul Québec 为提供计算资源。Ian Goodfellow 得到了 2013 年 Google Fellowship in Deep Learning 的支持。最后，我们要感谢 Les Trois Brasseurs 刺激了我们的创造力。

参考文献

Bastien, F., Lamblin, P., Pascanu, R., Bergstra, J., Goodfellow, I. J., Bergeron, A., Bouchard, N., and Bengio, Y. (2012). Theano: 新功能和速度改进。深度学习和无监督特征学习 NIPS 2012 工作坊。
Bengio, Y. (2009). 学习用于人工智能的深度结构。Now Publishers.
Bengio, Y., Mesnil, G., Dauphin, Y., and Rifai, S. (2013). 通过深度表示改进混合。在 ICML’13 上。
Bengio, Y., Thibodeau-Laufer, E., and Yosinski, J. (2014a). 通过反向传播训练的深度生成随机网络。在 ICML’14 上。
Bengio, Y., Thibodeau-Laufer, E., Alain, G., and Yosinski, J. (2014b). 通过反向传播训练的深度生成随机网络。在第30届国际机器学习大会 (ICML’14) 论文集上。
Bergstra, J., Breuleux, O., Bastien, F., Lamblin, P., Pascanu, R., Desjardins, G., Turian, J., Warde-Farley, D., and Bengio, Y. (2010). Theano: 一个 CPU 和 GPU 数学表达式编译器。在 Python科学计算会议 (SciPy) 论文集上。口头报告。
Breuleux, O., Bengio, Y., and Vincent, P. (2011). 从 RBM 衍生的过程中快速生成代表性样本。《神经计算》(Neural Computation)，23(8)，2053–2073。
Glorot, X., Bordes, A., and Bengio, Y. (2011). 深度稀疏整流器神经网络。在 AISTATS’2011 上。
Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013a). 最大输出网络。在 ICML’2013 上。
Goodfellow, I. J., Mirza, M., Courville, A., and Bengio, Y. (2013b). 多预测深度 Boltzmann 机。在 NIPS’2013 上。
Goodfellow, I. J., Warde-Farley, D., Lamblin, P., Dumoulin, V., Mirza, M., Pascanu, R., Bergstra, J., Bastien, F., and Bengio, Y. (2013c). Pylearn2: 一个机器学习研究库。arXiv预印本，编号：arXiv:1308.4214。
Gregor, K., Danihelka, I., Mnih, A., Blundell, C., and Wierstra, D. (2014). 深度自回归网络。在 ICML’2014 上。
Gutmann, M. and Hyvarinen, A. (2010). 噪声对比估计：一种新的非规范化统计模型估计方法。在第十三届国际人工智能和统计学会议 (AISTATS’10) 上。
Hinton, G., Deng, L., Dahl, G. E., Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T., and Kingsbury, B. (2012a). 语音识别中的深度神经网络。《IEEE信号处理杂志》(IEEE Signal Processing Magazine)，29(6)，82–97。
Hinton, G. E., Dayan, P., Frey, B. J., and Neal, R. M. (1995). 无监督神经网络的唤醒-睡眠算法。《科学》(Science)，268，1558–1161。
Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. (2012b). 通过防止特征检测器的共适应来改进神经网络。技术报告，编号：arXiv:1207.0580。
Jarrett, K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009). 对象识别的最佳多级架构是什么？在国际计算机视觉大会 (ICCV’09) 论文集上，页码：2146–2153。IEEE。
Kingma, D. P. and Welling, M. (2014). 自编码变分贝叶斯。在国际学习表示会议 (ICLR) 论文集上。
Krizhevsky, A. and Hinton, G. (2009). 从小图像中学习多层特征。技术报告，多伦多大学。
Krizhevsky, A., Sutskever, I., and Hinton, G. (2012). 使用深度卷积神经网络的ImageNet分类。在 NIPS’2012 上。
LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (1998). 基于梯度的文档识别。《IEEE会议录》(Proceedings of the IEEE)，86(11)，2278–2324。
Mnih, A. and Gregor, K. (2014). 信念网络的神经变分推理和学习。技术报告，编号：arXiv:1402.0030。
Rezende, D. J., Mohamed, S., and Wierstra, D. (2014). 深度生成模型中的随机反向传播和近似推断。技术报告，编号：arXiv:1401.4082。
Rifai, S., Bengio, Y., Dauphin, Y., and Vincent, P. (2012). 一种用于采样收缩自编码器的生成过程。在 ICML’12 上。
Salakhutdinov, R. and Hinton, G. E. (2009). 深度 Boltzmann 机。在 AISTATS’2009 上，页码：448-455。
Schmidhuber, J. (1992). 通过可预测性最小化学习因子码。《神经计算》(Neural Computation)，4(6)，863–879。
Susskind, J., Anderson, A., and Hinton, G. E. (2010). 多伦多面部数据集。《多伦多大学》技术报告，编号：UTML TR 2010-001。
Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I. J., and Fergus, R. (2014). 神经网络的奇异性质。ICLR，编号：abs/1312.6199。
Tu, Z. (2007). 通过判别方法学习生成模型。在计算机视觉和模式识别，2007年。CVPR’07。IEEE国际会议上，页码：1–8。IEEE。

References

Bastien, F., Lamblin, P., Pascanu, R., Bergstra, J., Goodfellow, I. J., Bergeron, A., Bouchard, N., and Bengio, Y. (2012). Theano: new features and speed improvements. Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop.
Bengio, Y. (2009). Learning deep architectures for AI. Now Publishers.
Bengio, Y., Mesnil, G., Dauphin, Y., and Rifai, S. (2013). Better mixing via deep representations. In ICML’13.
Bengio, Y., Thibodeau-Laufer, E., and Yosinski, J. (2014a). Deep generative stochastic networks trainable by backprop. In ICML’14.
Bengio, Y., Thibodeau-Laufer, E., Alain, G., and Yosinski, J. (2014b). Deep generative stochastic networks trainable by backprop. In Proceedings of the 30th International Conference on Machine Learning (ICML’14).
Bergstra, J., Breuleux, O., Bastien, F., Lamblin, P., Pascanu, R., Desjardins, G., Turian, J., Warde-Farley, D., and Bengio, Y. (2010). Theano: a CPU and GPU math expression compiler. In Proceedings of the Python for Scientific Computing Conference (SciPy). Oral Presentation.
Breuleux, O., Bengio, Y., and Vincent, P. (2011). Quickly generating representative samples from an RBM-derived process. Neural Computation, 23(8), 2053–2073.
Glorot, X., Bordes, A., and Bengio, Y. (2011). Deep sparse rectifier neural networks. In AISTATS’2011.
Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013a). Maxout networks. In ICML’2013.
Goodfellow, I. J., Mirza, M., Courville, A., and Bengio, Y. (2013b). Multi-prediction deep Boltzmann machines. In NIPS’2013.
Goodfellow, I. J., Warde-Farley, D., Lamblin, P., Dumoulin, V., Mirza, M., Pascanu, R., Bergstra, J., Bastien, F., and Bengio, Y. (2013c). Pylearn2: a machine learning research library. arXiv preprint arXiv:1308.4214.
Gregor, K., Danihelka, I., Mnih, A., Blundell, C., and Wierstra, D. (2014). Deep autoregressive networks. In ICML’2014.
Gutmann, M. and Hyvarinen, A. (2010). Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In Proceedings of The Thirteenth International Conference on Artificial Intelligence and Statistics (AISTATS’10).
Hinton, G., Deng, L., Dahl, G. E., Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T., and Kingsbury, B. (2012a). Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29(6), 82–97.
Hinton, G. E., Dayan, P., Frey, B. J., and Neal, R. M. (1995). The wake-sleep algorithm for unsupervised neural networks. Science, 268, 1558–1161.
Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. (2012b). Improving neural networks by preventing co-adaptation of feature detectors. Technical report, arXiv:1207.0580.
Jarrett, K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009). What is the best multi-stage architecture for object recognition? In Proc. International Conference on Computer Vision (ICCV’09), pages 2146–2153. IEEE.
Kingma, D. P. and Welling, M. (2014). Auto-encoding variational bayes. In Proceedings of the International Conference on Learning Representations (ICLR).
Krizhevsky, A. and Hinton, G. (2009). Learning multiple layers of features from tiny images. Technical report, University of Toronto.
Krizhevsky, A., Sutskever, I., and Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. In NIPS’2012.
LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324.
Mnih, A. and Gregor, K. (2014). Neural variational inference and learning in belief networks. Technical report, arXiv preprint arXiv:1402.0030.
Rezende, D. J., Mohamed, S., and Wierstra, D. (2014). Stochastic backpropagation and approximate inference in deep generative models. Technical report, arXiv:1401.4082.
Rifai, S., Bengio, Y., Dauphin, Y., and Vincent, P. (2012). A generative process for sampling contractive auto-encoders. In ICML’12.
Salakhutdinov, R. and Hinton, G. E. (2009). Deep Boltzmann machines. In AISTATS’2009, pages 448455.
Schmidhuber, J. (1992). Learning factorial codes by predictability minimization. Neural Computation, 4(6), 863–879.
Susskind, J., Anderson, A., and Hinton, G. E. (2010). The Toronto face dataset. Technical Report UTML TR 2010-001, U. Toronto.
Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I. J., and Fergus, R. (2014). Intriguing properties of neural networks. ICLR, abs/1312.6199.
er, J. (1992). Learning factorial codes by predictability minimization. Neural Computation, 4(6), 863–879.
Susskind, J., Anderson, A., and Hinton, G. E. (2010). The Toronto face dataset. Technical Report UTML TR 2010-001, U. Toronto.
Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I. J., and Fergus, R. (2014). Intriguing properties of neural networks. ICLR, abs/1312.6199.
Tu, Z. (2007). Learning generative models via discriminative approaches. In Computer Vision and Pattern Recognition, 2007. CVPR’07. IEEE Conference on, pages 1–8. IEEE.

所有代码和超参数可在 http://www.github.com/goodfeli/adversarial 上找到。 ↩︎

你可能感兴趣的:(计算机视觉/情感分析/多模态,计算机视觉,生成对抗网络,人工智能,深度学习,论文笔记)

Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
大模型或多模态在能源系统优化调度中的应用 u013250861 LLM 能源人工智能
1.大模型在电力调度中的应用GAIA-电力调度大语言模型项目描述:专为电力调度设计的大语言模型，能够处理运行调整、运行监控和黑启动等任务技术特点:基于LLaMA2微调，专门针对电力系统领域优化论文:“Alargelanguagemodelforadvancedpowerdispatch”(NatureScientificReports,2025)GitHub:暂未公开源代码，但论文中提到了完整的技
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
RabitQ 量化：既省内存又提性能大禹智库《向量数据库指南》《实战AI智能体》人工智能 AI自动化大禹智库 AI智能体向量数据库
突破高维向量内存瓶颈：MlivusCloudRaBitQ量化技术的工程实践与调优指南作为大禹智库高级研究员，拥有三十余年向量数据库与AI系统架构经验的我发现，在当今多模态AI落地的核心场景中，高维向量引发的内存资源消耗问题已成为制约系统规模化部署的“卡脖子”因素。特别是在大规模图像检索、个性化推荐系统和语义搜索引擎中，动辄数亿级别的向量数据需要实时处理，传统全精度索引方式会让内存资源消耗呈指数级增
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
Rust+ChatBoxAI：实战
ChatboxAIChatboxAI是一款基于人工智能技术的智能助手工具，旨在通过自然语言交互帮助用户完成多种任务。以下是其核心功能与特点：功能概述多模型支持：可连接OpenAI、Claude、Gemini等主流大语言模型，用户能自由切换不同AI服务。本地运行：支持离线使用，数据隐私性较强，适合敏感信息处理场景。跨平台兼容：提供Windows、macOS和Linux客户端，同步支持移动端应用。核心
【Java架构师的未来与趋势】架构学院 Java成神之路-架构师进阶 java 开发语言
Java架构师的未来与趋势引言Java作为企业级应用开发的主力军，已经走过了25年的历程。在这四分之一个世纪中，Java生态系统经历了从Applet到企业级应用，从单体架构到微服务，从本地部署到云原生的巨大转变。今天，Java架构师正站在新一轮技术变革的十字路口——人工智能、云计算、低代码、边缘计算等新兴技术正深刻重塑软件架构的形态和架构师的角色。据JetBrains《2023Java开发者调查》
【AAAI2025】计算机视觉|P-sLSTM:P-sLSTM：让LSTM在时间序列预测领域“重获新生”
论文地址：https://arxiv.org/pdf/2408.10006代码地址：https://github.com/Eleanorkong/P-sLSTM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要传统的循环神经网络结构，如长短期记忆神经网络(LSTM)，在时间序列预测(TSF)任
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
【TPAMI2024】计算机视觉|即插即用|FreqFusion:炸裂！告别模糊，精准分割，视觉新高度！爆改模型计算机视觉人工智能
论文地址：https://arxiv.org/pdf/2408.12879代码地址：https://github.com/Linwei-Chen/FreqFusion关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要密集图像预测任务需要在高分辨率下具有强大的类别信息和精确空间边界细节的特征。为
最全2025年AI开发工具深度对比分析：程序员的智能编程助手全指南最新功能、定价策略、使用体验和适用场景 Cursor、GitHub Copilot、Claude 4、Claude Code wei佳人工智能 ai AI编程 webstorm idea vscode
2025年AI开发工具深度对比分析：程序员的智能编程助手全指南引言(不想看文字可直接看后面图表对比）随着人工智能技术的飞速发展，AI编程助手已经从概念走向现实，成为现代软件开发不可或缺的工具。2025年上半年，AI编程工具市场迎来了前所未有的变革，各大厂商纷纷推出革命性功能，从简单的代码补全演进为能够理解完整项目上下文的智能编程代理。据最新市场研究显示，全球AI代码工具市场在2024年达到67亿美
基于cnn和resnet和mobilenet对比实现驾驶员分心检测深度学习乐园 cnn 人工智能神经网络
演示效果及获取项目源码点击文末名片本项目旨在通过深度学习技术，结合卷积神经网络（CNN）模型、ResNet模型和MobileNet模型，实现对驾驶员分心行为的自动检测。我们通过训练这些模型来识别不同的驾驶员分心行为，包括如发短信、通话、喝水等行为。使用的数据集包含驾驶员行为的图片，并且针对每个行为标注了相应的标签（例如"正常驾驶"、"右手发短信"等）。MobileNetV2是Google于2018
Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
论“人工智能生命体”站在那个高度？（之二）中國龍在廣州人工智能-智能体-具身智能人工智能
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin