u013250861

计算机视觉(CV)-生成模型：GAN（Generative Adversarial Network对抗生成网络）【Generator(RNN/CNN)+Discriminator(CNN)】

人工智能-深度学习-生成模型：GAN（Generative Adversarial Network对抗生成网络）【Generator（RNN/CNN）+Discriminator（CNN）】

一、GAN概述
- 1、GAN基本思想
- 2、原始GAN解释
- 3、GAN的优点
二、GAN训练过程
- 1、算法解释
- 2、【生成模型】的最大似然估计
- 3、分步优化【判别器】、【生成器】的损失函数
- 3.1 【判别器】的损失函数
- 3.2 【生成器】的损失函数
四、原始GAN模型的问题
- 1、Mode Collapse(模式坍塌)
- 2、Mode Dropping
- 3、Mode Collapse、Mode Dropping 原因分析
- - 3.1 数据的本质原因
  - 3.2 我们是近似采样，并不能对原始数据全部采样
  - 3.3 从原始GAN的目标函数分析
  - 3.4 从判别器的sigmoid函数来讲，通俗的理解
- 4、Mode Collapse、Mode Dropping 的解决办法
GAN的应用
- 1、Editing Photes
- 2、Image super resolution
- 3、Image Completion
Evaluate GAN的结果

一、GAN概述

生成对抗网络（英语：Generative Adversarial Network，简称GAN）是生成模型的一种，生成模型就是用机器学习去生成我们想要的数据，正规的说法是，获取训练样本并训练一个模型，该模型能按照我们定义的目标数据分布去生成数据。

生成对抗网络（英语：Generative Adversarial Network，简称GAN）是通过让两个神经网络（【生成器】与【判别器】）相互博弈的方式进行学习。
生成对抗网络由一个【生成器】与一个【判别器】组成。
【生成器】从潜在空间（latent space）中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。
【判别器】的输入则为真实样本或生成网络的输出，其目的是将【生成器】的输出从真实样本中尽可能分辨出来。而【生成器】则要尽可能地欺骗【判别器】。
两个网络相互对抗、不断调整参数，最终目的是使【判别器】无法判断【生成器】的输出结果是否真实。

1、GAN基本思想

GAN 的核心思想源于博弈论的纳什均衡。

设定参与游戏的双方分别为一个生成器(Generator)和一个判别器(Discriminator),
生成器捕捉真实数据样本的潜在分布, 并生成新的数据样本;
判别器是一个二分类器, 判别输入是真实数据还是生成的样本。
为了取得游戏胜利, 这两个游戏参与者需要不断优化, 各自提高自己的生成能力和判别能力,
这个学习优化过程就是寻找二者之间的一个纳什均衡。
GAN是一种二人零和博弈思想(two-player game)，博弈双方的利益之和是一个常数。
GAN的计算流程与结构如上图所示。
其中的生成器和判别器可以用任意可微分的函数，这里我们用可微分函数 $D$ 和 $G$ 来分别表示判别器和生成器,
【判别模型】 $D$ 的输入为真实数据 $\textbf{x}$
【生成模型】 $G$ 的输入为随机变量 $\textbf{z}$ 。
$G(\textbf{z})$ 为由 $G$ 生成的尽量服从真实数据分布 $p_{data}$ 的样本。
如果判别器的输入来自真实数据 $\textbf{x}$ ，则标注为1；如果输入样本为 $G(\textbf{z})$ , 标注为0。
这里 $D$ 的目标是实现对数据来源的二分类判别: 真（来源于真实数据 $\textbf{x}$ 的分布）或者伪（来源于生成器的伪数据 $G(\textbf{z})$ ）。
而 $G$ 的目标是使自己生成的伪数据 $G(\textbf{z})$ 在 $D$ 上的表现 $D(G(\textbf{z}))$ 和真实数据 $\textbf{x}$ 在 $D$ 上的表现 $D(\textbf{x})$ 一致。

2、原始GAN解释

生成器和判别器都采用神经网络。
这个栗子中，我们有的只是真实采集而来的人脸样本数据集，值得一提的是我们连人脸数据集的类标签都没有，也就是我们不知道那个人脸对应的是谁。
最原始的GAN目的是想通过输入一个噪声，模拟得到一个人脸图像，这个图像可以非常逼真以至于以假乱真。(不同的任务想得到的东西不一样)
上图右半部分的【判别模型】是一个简单的神经网络结构，输入一幅图像，输出是一个概率值，用于判断真假使用（概率值大于0.5那就是真，小于0.5那就是假，人们定义的概率）
上图左半部分的【生成模型】也是神经网络结构，输入是随机数 $\textbf{z}$ ，输出是一个图像，不再是一个数值。
从图中可以看到，会存在两个数据集，一个是真实数据集，另一个是假的数据集（由生成网络生成的数据集）。
【判别模型】的目的：能判别出来输入的一张图它是来自真实样本集还是假样本集。假如输入的是真样本，网络输出就接近1，输入的是假样本，网络输出接近0。
【生成模型】的目的：使得自己生成样本的能力尽可能强，强到判别网络没法判断自己生成的样本是真还是假。
由此可见，生成模型与判别模型的目的正好相反，一个说我能判别得好，一个说我让你判别不好，所以叫做对抗，叫做博弈。
而最后的结果到底是谁赢，就要归结于模型设计者希望谁赢了。作为设计者的我们，如果是要得到以假乱真的样本，那么就希望生成模型赢，希望生成的样本很真，判别模型能力不足以区分真假样本。

3、GAN的优点

GAN能够有效地解决很多生成式方法的缺点，主要包括：

并行产生samples；
生成式函数的限制少，比如无需合适马尔科夫采样的数据分布（Boltzmann machines），生成式函数无需可逆、latent code无需与sample同维度（nonlinear ICA）；
无需马尔科夫链的方法（Boltzmann machines， GSNs）；
相对于VAE的方法，无需variational bound；
GAN比其他方法一般来说性能更好。

二、GAN训练过程

在噪声数据分布中随机采样，采样数据为 $\textbf{z}$ ，将 $\textbf{z}$ 输入生成模型 $G$ ，得到一组假数据，记为 $G(\textbf{z})=\tilde{\textbf{x}}$ ；
在真实数据分布中随机采样，作为真实数据，记做 $\hat{\textbf{x}}$ ；
将 $\hat{\textbf{x}}$ 、 $G(\textbf{z})$ 作为【判别器】的输入（因此判别模型的输入为两类数据，真/假），【判别器】的输出值为该输入属于真实数据的概率，real为1，fake为0。
然后根据得到的概率值计算损失函数；
根据判别模型和生成模型的损失函数，可以利用反向传播算法，更新模型的参数。（先更新【判别模型】的参数，然后固定【判别模型】的参数，通过再采样得到的噪声数据更新【生成模型】的参数）。

1、算法解释

这里需要注意的是：生成模型与对抗模型是完全独立的两个模型，他们之间没有什么联系。那么训练采用的大原则是单独交替迭代训练。
因为是2个网络，不方便一起训练，所以才交替迭代训练。
先是【判别模型】：
- 初始化，给初始化的【生成模型】（此时的生成模型当然效果不好）一堆随机向量 $\textbf{z}$ ，就会得到一堆假的样本集 $\tilde{\textbf{x}}^0$ （因为【生成模型】是初始化的模型，生成的样本肯定不好，很容易就被判别网络判别为假）。
- 非初始化时，将初始化时的随机向量 $\textbf{z}$ 喂给优化后的【生成模型】，得到一堆假的样本集 $\tilde{\textbf{x}}$ （因为【生成模型】不再是初始化时的模型，所以 $\tilde{\textbf{x}}$ 会比 $\tilde{\textbf{x}}^0$ 的效果好一些，但是此时的【生成模型】仍然不是最终的生成模型，所以现在的【生成模型】仍然处于劣势，导致生成的样本 $\tilde{\textbf{x}}$ 与真实样本 $\hat{\textbf{x}}$ 相比还是不太好，很容易就被【判别模型】判别为假）。
- 现在有了假样本集 $\tilde{\textbf{x}}$ (真样本集 $\hat{\textbf{x}}$ 一直都有)，我们再人为地定义真假样本集的标签，很明显，这里我们默认真样本集的类标签为1，而假样本集的类标签为0，因为我们希望真样本集的输出尽可能为1，假样本集为0。
- 现在有了真样本集 $\hat{\textbf{x}}$ 以及它们的label(都是1)、假样本集 $\tilde{\textbf{x}}$ 以及它们的label(都是0)。这样一来，单就判别网络来说，问题变成了有监督的二分类问题了，直接送进神经网络中训练就好。
- 判别网络训练完了。
继续来看【生成模型】：
- 对于【生成器】，我们的目的是生成尽可能逼真的样本。
- 而单独的【生成器】生成的样本的真实程度只能通过【判别器】才知道，所以在训练【生成模型】时，需要将【生成器】与【判别器】联合起来才能达到【生成模型】训练的目的。即：【生成模型】=【生成器】+【判别器】
- 所以【生成模型】的训练其实是对【生成器】+【判别器】串接的训练，像上图显示的那样。因为如果只使用生成网络，那么无法得到误差，也就无法训练。
- 当初始化的噪声向量 $\textbf{z}$ 通过单独的【生成器】生成了假样本 $\tilde{\textbf{x}}$ 后，把这些假样本 $\tilde{\textbf{x}}$ 的标签都设置为1，即认为这些假样本 $\tilde{\textbf{x}}$ 在【生成模型】中训练的时候是真样本。因为此时是通过【判别器】来生成误差的，而误差回传的目的是使得【生成器】生成的假样本 $\tilde{\textbf{x}}$ 逐渐逼近为真样本 $\hat{\textbf{x}}$ (当假样本 $\tilde{\textbf{x}}$ 不真实，标签却为1时，【判别器】给出的误差会很大，这就迫使【生成器】进行很大的调整；反之，当假样本 $\tilde{\textbf{x}}$ 足够真实，标签为1时，【判别器】给出的误差就会减小，这就完成了假样本 $\tilde{\textbf{x}}$ 向真样本 $\hat{\textbf{x}}$ 逐渐逼近的过程)，起到迷惑【判别器】的目的。
- 现在对于【生成器】的训练，有了样本集（只有假样本集 $\tilde{\textbf{x}}$ ，没有真样本集），有了对应的label（全为1），有了误差，就可以开始训练了。
- 在训练这个【生成模型】时，一个很重要的操作是固定【判别器】的参数，不让【判别器】的参数 $θ_d$ 更新，只是让【判别器】将误差传到【生成器】，更新【生成器】的参数 $θ_g$ ，所以每轮迭代时，【生成模型】只更新一次，而且步幅也不能太大，以保证 $θ^t_d≈θ^{t+1}_d$ 。
在【生成器】训练完后，用新的【生成器】对先前的噪声向量 $\textbf{z}$ 生成新的假样本 $\tilde{\textbf{x}}$ ，不出意外，这次生成的假样本 $\tilde{\textbf{x}}$ 会更真实。
有了新的真&假样本集 $\hat{\textbf{x}}$ & $\tilde{\textbf{x}}$ （其实只有假样本集 $\tilde{\textbf{x}}$ 更新了），就又可以重复上述过程了。
整个过程就叫单独交替训练。可以定义一个迭代次数，交替迭代到一定次数后停止即可。不出意外，这时噪声 $\textbf{z}$ 生成的假样本 $\tilde{\textbf{x}}$ 就会很真实了。
GAN设计的巧妙处之一，在于假样本在训练过程中的真假变换，这也是博弈得以进行的关键之处。

2、【生成模型】的最大似然估计

【生成模型】=【生成器】+【判别模型】
上面提到，我们想要将一个随机高斯噪声 $\textbf{z}$ 通过一个【生成器】 $\textbf{G}$ 得到一个和真的数据分布 $P_{data}(\textbf{x})$ 差不多的生成分布 $P_G(\textbf{x};\textbf{θ}_G)$ ，其中的参数 $\textbf{θ}_G$ 是网络的参数决定的，我们希望找到 $\textbf{θ}_G$ 使得 $P_G(\textbf{x};\textbf{θ}_G)$ 和 $P_{data}(\textbf{x})$ 尽可能接近。
我们从真实数据分布 $P_{data}(\textbf{x})$ 中取样 $m$ 个点： $\{\hat{\textbf{x}}_1,\hat{\textbf{x}}_2,⋯,\hat{\textbf{x}}_m\}$ ；
根据给定的【生成器】的参数 $\textbf{θ}_G$ 我们可以计算如下的概率 $P_G(\textbf{x}_i;\textbf{θ}_G)$ ，那么通过【生成器】生成 $\{\hat{\textbf{x}}_1,\hat{\textbf{x}}_2,⋯,\hat{\textbf{x}}_m\}$ 这 $m$ 个真实样本数据的似然概率(likelihood)就是： $L=\prod^m_{i=1} P_G(\hat{\textbf{x}}_i;\textbf{θ}_G)$
我们要做的就是找到 $\textbf{θ}_G^*$ 来最大化这个似然估计。
$\begin{aligned} \textbf{θ}_G^*&=\arg \max_{\textbf{θ}_G}\prod^m_{i=1}P_G(\hat{\textbf{x}}_i;\textbf{θ}_G) \quad (公式01)-\color{blue}{maximize\ the\ likelihood}\\ &=\arg \max_{\textbf{θ}_G}ln\left[\prod^m_{i=1}P_G(\hat{\textbf{x}}_i;\textbf{θ}_G)\right]\\ &=\arg \max_{\textbf{θ}_G}\sum^m_{i=1}ln\left[P_G(\hat{\textbf{x}}_i;\textbf{θ}_G)\right] \qquad \{\hat{\textbf{x}}_1,\hat{\textbf{x}}_2,⋯,\hat{\textbf{x}}_m\}\ from\ P_{data}(\hat{\textbf{x}})\\ &\color{violet}{≈\arg \max_{\textbf{θ}_G}E_{\hat{\textbf{x}} \sim P_{data}}\{ln\left[P_G(\hat{\textbf{x}};\textbf{θ}_G)\right]\}}\\ &=\arg \max_{\textbf{θ}_G}\int_{\hat{\textbf{x}}} P_{data}(\hat{\textbf{x}})ln\left[P_G(\hat{\textbf{x}};\textbf{θ}_G)\right]d\hat{\textbf{x}}\\ &=\arg \max_{\textbf{θ}_G}\int_{\hat{\textbf{x}}} P_{data}(\hat{\textbf{x}})ln\left[P_G(\hat{\textbf{x}};\textbf{θ}_G)\right]d\hat{\textbf{x}}-\color{violet}{0}\\ &=\arg \max_{\textbf{θ}_G}\int_{\hat{\textbf{x}}} P_{data}(\hat{\textbf{x}})ln\left[P_G(\hat{\textbf{x}};\textbf{θ}_G)\right]d\hat{\textbf{x}}-\color{violet}{\int_{\hat{\textbf{x}}} P_{data}(\hat{\textbf{x}})ln\left[P_{data}(\hat{\textbf{x}};\textbf{θ}_G)\right]d\hat{\textbf{x}}}\\ &=\arg \max_{\textbf{θ}_G}\int_{\hat{\textbf{x}}} P_{data}(\hat{\textbf{x}})ln\cfrac{P_G(\hat{\textbf{x}};\textbf{θ}_G)}{P_{data}(\hat{\textbf{x}};\textbf{θ}_G)}d\hat{\textbf{x}}\\ &=\arg \max_{\textbf{θ}_G}\left[-\int_{\hat{\textbf{x}}} P_{data}(\hat{\textbf{x}})ln\cfrac{P_{data}(\hat{\textbf{x}};\textbf{θ}_G)}{P_G(\hat{\textbf{x}};\textbf{θ}_G)}d\hat{\textbf{x}}\right]\\ &=\arg \min_{\textbf{θ}_G} \int_{\hat{\textbf{x}}} P_{data}(\hat{\textbf{x}})ln\cfrac{P_{data}(\hat{\textbf{x}};\textbf{θ}_G)}{P_G(\hat{\textbf{x}};\textbf{θ}_G)}d\hat{\textbf{x}}\\ &=\arg \min_{\textbf{θ}_G}KL(P_{data}(\hat{\textbf{x}})||P_G(\hat{\textbf{x}};\textbf{θ}_G)) \quad \color{blue}{KL-divergence\ between\ distributions\ P_{data}(\hat{\textbf{x}})\ and\ P_G(\hat{\textbf{x}};\textbf{θ}_G)}\\ \end{aligned}$
$\textbf{∵}$ $P_{data}(\hat{\textbf{x}})$ 、 $P_G(\hat{\textbf{x}};\textbf{θ})$ 根本没办法被直接求出； $\textbf{∴}$ 无法直接通过整体模型来求【生成器】的参数 $\textbf{θ}_G$
需要将 $KL(P_{data}(\hat{\textbf{x}})||P_G(\hat{\textbf{x}};\textbf{θ}))$ 整体上做一个等价变换：分步求解，即先优化【判别器】得到 $\textbf{θ}^{(1)}_D$ ，然后基于 $\textbf{θ}^{(1)}_D$ 再优化【生成网络+判别网络】得到 $\textbf{θ}^{(1)}_G$ ，
然后再优化【判别器】得到 $\textbf{θ}^{(2)}_D$ ，然后基于 $\textbf{θ}^{(2)}_D$ 再优化【生成网络+判别网络】得到 $\textbf{θ}^{(2)}_G$
迭代以上过程，最后即可得到最优化的 $\textbf{θ}^*_G$

3、分步优化【判别器】、【生成器】的损失函数

下面公式中：
- $\textbf{θ}_D$ 、 $D$ 、 $D(\textbf{x})$ 表示的含义一样，都是表示【判别器】;
- $\textbf{θ}_G$ 、 $G$ 、 $G(\textbf{x})$ 表示的含义一样，都是表示【生成器】；
- 因为每个模型都是由组成它的参数唯一决定。

3.1 【判别器】的损失函数

虽然，我们不知道 $P_{data}(\hat{\textbf{x}})$ 、 $P_G(\hat{\textbf{x}};\textbf{θ})$ 的分布(distribution) 是什么样子的，但是我们可以从这两个 distributions 中分别随机取样，即：
- 从真实数据集 $\{\hat{\textbf{x}}_1,\hat{\textbf{x}}_2,⋯,\hat{\textbf{x}}_m\}$ 中取样 $\{\hat{\textbf{x}}_1,\hat{\textbf{x}}_2,⋯,\hat{\textbf{x}}_n\}$
- 将一组随机高斯噪声 $\{\textbf{z}_1,\textbf{z}_2,...,\textbf{z}_m\}$ 通过一个【生成器】 $\textbf{G}$ 得到一组样本 $\{\tilde{\textbf{x}}_1,\tilde{\textbf{x}}_2,...,\tilde{\textbf{x}}_n\}$
- 通过这两组样本 $\{\hat{\textbf{x}}_1,\hat{\textbf{x}}_2,⋯,\hat{\textbf{x}}_n\}$ 与 $\{\tilde{\textbf{x}}_1,\tilde{\textbf{x}}_2,...,\tilde{\textbf{x}}_n\}$ 去训练一个【判别器】 $\textbf{D}$ ，给 $\{\hat{\textbf{x}}_1,\hat{\textbf{x}}_2,⋯,\hat{\textbf{x}}_n\}$ 中的样本的分数越大越好，给 $\{\tilde{\textbf{x}}_1,\tilde{\textbf{x}}_2,...,\tilde{\textbf{x}}_n\}$ 中的样本的分数越小越好；
- 通过训练的结果就可以计算出来这两组样本 $\{\hat{\textbf{x}}_1,\hat{\textbf{x}}_2,⋯,\hat{\textbf{x}}_n\}$ 与 $\{\tilde{\textbf{x}}_1,\tilde{\textbf{x}}_2,...,\tilde{\textbf{x}}_n\}$ 的 Divergence 的大小。
- $\textbf{∵}$ 【判别器】 $\textbf{D}$ 此时做的就是二分类问题，
- $\textbf{∴}$ 【判别器】 $\textbf{D}$ 做为二分类模型的损失函数为： $\begin{aligned}J(\textbf{θ}_D)&=-\sum_{i=1}^m[\textbf{y}_iln\hat{\textbf{y}}_i+(1-\textbf{y}_i)ln(1-\hat{\textbf{y}}_i)]\end{aligned}$
- $\textbf{∴}$ $\textbf{θ}_D^*=D^*=\arg \min_{\textbf{θ}_D}J(\textbf{θ}_D)$
- 计算 $J(\textbf{θ}_D)$ 的极值：
  $\begin{aligned}-J(\textbf{θ}_D)&=\sum_{i=1}^m[\textbf{y}_iln\hat{\textbf{y}}_i+(1-\textbf{y}_i)ln(1-\hat{\textbf{y}}_i)]\\[2ex] &=\sum_{i=1}^m\textbf{y}_iln\hat{\textbf{y}}_i+\sum_{i=1}^m[(1-\textbf{y}_i)ln(1-\hat{\textbf{y}}_i)]\\[2ex] &=\sum_{i=1}^m\textbf{y}_ilnD(\textbf{x})+\sum_{i=1}^m[(1-\textbf{y}_i)ln(1-D(\textbf{x})]\\[2ex] &=\color{violet}{E_{\textbf{x}\sim P_{data}(\textbf{x})}[lnD(\textbf{x})]+E_{\textbf{x}\sim P_G(\textbf{x})}[ln(1-D(\textbf{x}))]}\\ &=\int_\textbf{x}P_{data}(\textbf{x})lnD(\textbf{x})d\textbf{x}+\int_\textbf{x}P_G(\textbf{x})ln(1-D(\textbf{x}))d\textbf{x}\\ &=\int_\textbf{x}[P_{data}(\textbf{x})lnD(\textbf{x})+P_G(\textbf{x})ln(1-D(\textbf{x}))]d\textbf{x}\quad \color{violet}{G\ is\ fixed}\end{aligned}$
上式中 $lnD(\textbf{x})$ 的含义是：如果 $\textbf{x}$ 来自 $P_{data}$ ，则 $lnD(\textbf{x})$ 越大越好； $ln[1-D(\textbf{x})]$ 的含义是：如果 $\textbf{x}$ 来自 $P_G$ ，则 $lnD(\textbf{x})$ 越小越好，等价于 $ln[1-D(\textbf{x})]$ 越大越好。
令 $f[D(\textbf{x})]=P_{data}(\textbf{x})lnD(\textbf{x})+P_G(\textbf{x})ln(1-D(\textbf{x}))$ ，
则： $D^*=\arg \min_D[J(\textbf{θ}_D)]=\arg \max_D[-J(\textbf{θ}_D)]=\arg \max_Df[D(\textbf{x})]$
$f[D(\textbf{x})]$ 对 $D(\textbf{x})$ 求导，令导数为0，就可求出 $f[D(\textbf{x})]$ 最大时对应的 $D(\textbf{x})$ $\cfrac{df[D(\textbf{x})]}{dD(\textbf{x})}=\cfrac{P_{data}(\textbf{x})}{D(\textbf{x})}-\cfrac{P_G(\textbf{x})}{1-D(\textbf{x})}=0$
$\textbf{∴}$
$D^*(\textbf{x})=\cfrac{P_{data}(\textbf{x})}{P_{data}(\textbf{x})+P_G(\textbf{x})}$
即：
$\textbf{θ}^*_D=D^*(\textbf{x})=\arg \max_D[-J(\textbf{θ}_D)]=\cfrac{P_{data}(\textbf{x})}{P_{data}(\textbf{x})+P_G(\textbf{x})}$
$\textbf{∴}$ $-J(\textbf{θ}_D)$ 的极大值为：
$\begin{aligned} -J(\textbf{θ}^*_D)&=E_{\textbf{x}\sim P_{data}(\textbf{x})}[lnD^*(\textbf{x})]+E_{\textbf{x}\sim P_G(\textbf{x})}[ln(1-D^*(\textbf{x}))]\\ &=E_{\textbf{x}\sim P_{data}(\textbf{x})}\left[ln\cfrac{P_{data}(\textbf{x})}{P_{data}(\textbf{x})+P_G(\textbf{x})}\right]+E_{\textbf{x}\sim P_G(\textbf{x})}\left\{ln\left[1-\cfrac{P_{data}(\textbf{x})}{P_{data}(\textbf{x})+P_G(\textbf{x})}\right]\right\}\\ &=E_{\textbf{x}\sim P_{data}(\textbf{x})}\left[ln\cfrac{P_{data}(\textbf{x})}{P_{data}(\textbf{x})+P_G(\textbf{x})}\right]+E_{\textbf{x}\sim P_G(\textbf{x})}\left[ln\cfrac{P_G(\textbf{x})}{P_{data}(\textbf{x})+P_G(\textbf{x})}\right]\\ &=\int_{\textbf{x}}P_{data}(\textbf{x})\left[ln\cfrac{P_{data}(\textbf{x})}{P_{data}(\textbf{x})+P_G(\textbf{x})}\right]+\int_{\textbf{x}}P_G(\textbf{x})\left[ln\cfrac{P_G(\textbf{x})}{P_{data}(\textbf{x})+P_G(\textbf{x})}\right]\\ &=\int_{\textbf{x}}P_{data}(\textbf{x})\left[ln\cfrac{P_{data}(\textbf{x})}{(P_{data}(\textbf{x})+P_G(\textbf{x}))/2}\right]+\int_{\textbf{x}}P_G(\textbf{x})\left[ln\cfrac{P_G(\textbf{x})}{(P_{data}(\textbf{x})+P_G(\textbf{x}))/2}\right]-2ln2\\ &=KL(P_{data}(\textbf{x})||\cfrac{P_{data}(\textbf{x})+P_G(\textbf{x})}{2})+KL(P_G(\textbf{x})||\cfrac{P_{data}(\textbf{x})+P_G(\textbf{x})}{2})-2ln2\\ &=2JS[P_{data}(\textbf{x})||P_G(\textbf{x})]-2ln2 \quad \color{blue}{JS-divergence\ between\ distributions\ P_{data}(\hat{\textbf{x}})\ and\ P_G(\hat{\textbf{x}};\textbf{θ}_G)} \end{aligned}$
可见： $-J(\textbf{θ}_D)$ 极大值 $-J(\textbf{θ}^*_D)$ 对应 $P_{data}$ 分布与 $P_G$ 分布的JS-Divergence。

3.2 【生成器】的损失函数

【生成模型】=【生成器】+【判别器】
【生成模型】中的【判别器】使用刚刚优化过的【判别器】，所以【生成模型】中的【判别器】的最优损失函数为：
$\begin{aligned}-J(\textbf{θ}_G,\textbf{θ}^*_D)=-J(\textbf{θ}^*_D)=2JS[P_{data}(\textbf{x})||P_G(\textbf{x})]-2ln2 \end{aligned}$
$\textbf{∵}$ $KL\Longleftrightarrow JS$
由【生成模型】的最大似然估计(公式01)已计算得知： $\begin{aligned} \textbf{θ}_G^*=\arg \min_{\textbf{θ}_G}KL[P_{data}(\hat{\textbf{x}})||P_G(\hat{\textbf{x}};\textbf{θ}_G)] \end{aligned}$
【生成模型】损失函数的最优参数：
$\textbf{∴}$
$\begin{aligned} \textbf{θ}_G^*&=\arg \min_{\textbf{θ}_G}\color{violet}{KL[P_{data}(\hat{\textbf{x}})||P_G(\hat{\textbf{x}};\textbf{θ}_G)]}\\ &=\arg \min_{\textbf{θ}_G}\color{violet}{JS[P_{data}(\hat{\textbf{x}})||P_G(\hat{\textbf{x}};\textbf{θ}_G)]}\\ &=\arg \min_{\textbf{θ}_G}\color{violet}{2JS[P_{data}(\textbf{x})||P_G(\textbf{x})]-2ln2}\\ &=\arg \min_{\textbf{θ}_G}\color{violet}{\max_{\textbf{θ}_D}[-J(\textbf{θ}_G,\textbf{θ}_D)]}\\ &=\arg \min_{\textbf{θ}_G}\color{violet}{[-J(\textbf{θ}_G,\textbf{θ}^*_D)]}\\ \end{aligned}$
通过梯度下降法从 $\textbf{θ}_G^t$ 迭代到 $\textbf{θ}_G^{t+1}$ 时，是在 $\textbf{θ}^*_D=(\textbf{θ}^t_D)^*=(\textbf{θ}^{t+1}_D)^*$ 的条件下进行的。
但是实际上有可能 $(\textbf{θ}^t_D)^*≠(\textbf{θ}^{t+1}_D)^*$ ，如下图，如果从 $\textbf{θ}_G^t$ 迭代到 $\textbf{θ}_G^{t+1}$ 时，有更大的极值点 $-J(\textbf{θ}_G,\textbf{θ}^*_D)$ 出现，则不能满足从 $\textbf{θ}_G^t$ 迭代到 $\textbf{θ}_G^{t+1}$ 的条件： $\textbf{θ}^*_D=(\textbf{θ}^t_D)^*=(\textbf{θ}^{t+1}_D)^*$
所以，从 $\textbf{θ}_G^t$ 迭代到 $\textbf{θ}_G^{t+1}$ 时，每次更新时不能太大，来保证从 $\textbf{θ}_G^t$ 求 $\textbf{θ}_G^{t+1}$ 时 $(\textbf{θ}^t_D)^*≈(\textbf{θ}^{t+1}_D)^*$
所以，每一轮交替更新【生成器】与【判别器】的时候，每一轮【生成器】只更新一次，【判别器】迭代无数次直到找到 $θ^*_D$ 处的JS-Divergence，即 $-J(\textbf{θ}_G,\textbf{θ}^*_D)$ 。

四、原始GAN模型的问题

1、Mode Collapse(模式坍塌)

mode collapse是指Gan产生的样本单一，其认为满足某一分布的结果为true，其他为False，导致以上结果。
先给一个直观的例子，这个是在我们训练GAN的时候经常出现的。
这就是所谓的Mode Collapse
但是实际中ModeCollapse不能像这个一样这么容易被发现(sample中出现完全一模一样的图片)
例如训练集有很多种类别(如猫狗牛羊)，但是我们只能生成狗(或猫或牛或羊)，虽然生成的狗的图片质量特别好，但是！整个【生成模型】就只能生成狗，根本没法生成猫牛羊，陷入一种训练结果不好的状态。这和我们对GAN的预期是相悖的。
如上图， $P_{data}$ 是八个高斯分布的点，也就是8个mode。
我们希望给定一个随机高斯分布（中间列中的最左图），我们希望这一个随机高斯分布经过G最后可以映射到这8个高斯分布的mode上面去
但是最下面一列的图表明，我们不能映射到这8个高斯分布的mode上面，整个G只能生成同一个mode，由于G和D的对抗关系，G不断切换mode
在step10k的时候，G的位置在某一个 Gaussian所在位置，然后D发现G只是在这个Gaussian这里了，所以就把这个地方的所有data(无论real还是fake)都给判定为fake
G发现在这个Gaussian待不下去了，只会被D永远判定为fake，所以就想着换到另一个地方。在step15k就跳到了另一个Gaussian上去
然后不断跳跳跳，不断重复上述两个过程，就像猫捉老鼠的过程一样，然后就没有办法停下来，没法达到我们理想中映射到8个不同的Gaussian上面去

2、Mode Dropping

训练了多次以后，生成的图片人脸分布都是一样的，只有色调的改变。

3、Mode Collapse、Mode Dropping 原因分析

出现Mode Collapse、Mode Dropping问题可能是因为散度函数没选好。但是实践中发现，即使换了散度函数，问题依旧存在。
总的来说就是梯度消失问题，梯度消失我们的模型训练也就失去了方向，无法再进行下去了。在discriminator训练太好时往往会出现这个问题。
从以下几个角度来分析：

3.1 数据的本质原因

因为数据本身就是一种高维空间的低维流形表现，他们之间几乎没有重叠，因此，很容易导致JS divergence最大，loss为0，
Both _ and _ are low-dim manifold in high-dim space. The overlap can be ignored.
如下图所示。

3.2 我们是近似采样，并不能对原始数据全部采样

Loss如下：
说明从两个分布采样的数据没有重合区域，但是其实两组数据之间有重合，只是判别器太强了，可以找到一条线将两组数据分开，如图所示。
图上的点是两个分布的采样数据，因为我们并不知道分布，只能对分布采样，通过采样后的数据分布近似原始分布
通过对分布采样，总能找到一条线将两组数据分开，因此我们要削弱【判别器】的能力，但是同时，我们又想让【判别器】具有很强的能力来进行分类，所以很矛盾，不知道削弱多少【判别器】的能力才合适，很难控制。
早年还没有种种 tip 的时候，GAN 其实不太容易 train 起来，你 train 的时候通常就是你一边 update discriminator，然后你就一边吃饭，然后你就看他 output 的结果，每 10 个 iteration 就 output 一次结果，看它好不好，如果发现结果不好的话，就重做。
二分类【判别器】非常强，导致Loss都是0，不能引导【生成器】更新

3.3 从原始GAN的目标函数分析

以最优的D参数带入，最后生成器目标可以写成JS散度形式，根据JS散度的性质，如果当两个样本分布几乎没有重叠时，JS散度为一个常数，这也就出现了梯度为0的现象。
由上图可知，初始两个数据分布差别很大，我们想通过一定的迭代使得两个分布之间差别越来越小，最后重合，但是前面的JS divergence都是log2，即loss为0，并不会更新生成器的参数，因此并不会有效地引导越来越好的过程。也就是说 JS-Divergence不适合作为衡量标准。

3.4 从判别器的sigmoid函数来讲，通俗的理解

我们的最终目的是让蓝色点顺着判别器给的梯度移动到近似绿色点位置（即生成样本接近于真实样本），
如果我们把discriminator训练的非常好的话，蓝色的fake点（生成的样本）会很难移动，因为sigmoid的曲线在最低处几乎都是很平的，判别器无法给出合适的梯度。
举个栗子，假设这条sigmoid曲线中间的横轴代表你考试的分数，纵轴代表老师的奖惩力度，中线部分代表考试分数80分，而整条曲线就代表着老师奖惩的制度。
那么你是一个开始不是很优秀的学生比如蓝点，那么如果你一开始是40分，老师按照制度给了你很严厉的惩罚，于是你觉得你要改变！但是你不可能一下改变很多分，下次你尝试考了50分，虽然进步了10分，但不出意外你又受到了和以前差不多严厉的惩罚，那你下次可能尝试我考个30试试，结果依旧严厉惩罚，你崩溃了，你已经不知道老师怎么才能满意了，类似这样生成器也就停滞不前了。

4、Mode Collapse、Mode Dropping 的解决办法

鼓励多样化：单独考虑独立样本无法产生多样化的结果，因此使用 batches of samples
提前估计：不是生成器学习欺骗当前的鉴别器，是它学会在有机会响应之后最大限度地欺骗鉴别器
通过每隔一段时间向判别器输入旧的假样本，最小化在模式之间来回跳转
Ensemble(集成学习方法)：训练多个GAN

GAN的应用

1、Editing Photes

2、Image super resolution

3、Image Completion

Evaluate GAN的结果

Inception Score

参考资料：
用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）
转载 | 史上最全GAN综述2020版：算法、理论及应用
GAN 的Mode collapse(模式坍塌)
从泛化性到Mode Collapse：关于GAN的一些思考
Improved Techniques for Training GANs.
生成对抗网络(GAN，Generative Adversarial Networks) 学习笔记
生成对抗网络(GAN)简单梳理
原始GAN（生成对抗网络）详细解析
AI-Methods：Gan-Tutorial
用变分推断理解GAN
GAN、VAE原理学习 + 苏剑林《用变分推断统一理解生成模型》《变分自编码器》（更新中）
基于变分推断，我们对GAN有什么新的认识？

你可能感兴趣的:(计算机视觉/CV,概率图模型,人工智能,深度学习,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后