wanttifa

Wasserstein GAN

文章目录

Wasserstein GAN
- 1. 简介
- 2. 不同的距离
- 3.Wasserstein GAN
- 4.实验结果
- - 4.1实验程序
  - 4.2有意义的损失度量
  - 4.3改善稳定性
- 5.相关工作
- 6.结论

1. 简介

本文所关注的问题是无监督学习问题。最主要的是，学习概率分布意味着什么？经典的答案是学习概率密度。这通常是通过定义一个参数密度族 $(P_\theta)_{\theta \in \mathbb R^d}$ ，并在我们的数据上找到一个最大的可能性：如果我们有真实的数据示例 $\{x^i\}^m_{i-1}$ ，我们就会解决这个问题:
$\max_{\theta\in\mathbb R^d}\frac{1}{m}\sum^m_{i=1}logP_\theta(x^i)$
如果真实数据分布 $\mathbb P_r$ 提供了密度，且 $\mathbb P_\theta$ 是参数化密度 $P_\theta$ 的分布，则渐近地，这等于最小化KL散度 $KL(\mathbb P_r||\mathbb P_\theta)$ 。

为了使这个有意义，我们需要模型密度 $P_ \theta$ 存在。在我们处理相当常见的由低维流形支持的分布的情况下，情况就不是这样了。这样，模型流形和真实分布的支撑就不可能有一个不可忽略的交集，这意味着 $K L$ 距离是无定义的(或者说是无限的)。

典型的补救措施是在模型分布中添加噪声项。这就是为什么在经典机器学习文献中描述的几乎所有生成模型都包含噪声成分。在最简单的情况下，我们假设一个相对具有较高的带宽的高斯噪声，以涵盖所有的例子。众所周知，例如，在图像生成模型的情况下，这种噪声降低了样本的质量，使它们变得模糊。例如，我们在文献中可以看到，当最大似然时，模型中添加的噪声的最佳标准偏差约为生成图像中每个像素的 $0.1$ 倍，而且前提是像素已经归一化到 $[0, 1]$ 范围内了。这是一个非常高的噪音量，以至于当论文报告他们的模型的样本时，他们不会在他们报告的最大似然数中加入噪声项。换句话说，附加的噪声项对于这个问题显然是不正确的，但是为了使最大似然法工作是必需的。

相比于估计一个可能不存在的密度 $\mathbb P_r$ ，我们可以定义一个服从固定分布 $p (z)$ 的随机变量 $Z$ ，并且通过一个参数化方法 $g_\theta:\mathcal Z \to \mathcal X$ （通常是一种神经网络）来指导生成样本服从一个特定的分布 $\mathbb P_\theta$ ，通过改变 $θ$ ，我们可以改变这种分布并使其接近真实数据分布 $\mathbb P_r$ 。这在两个方面很有用。首先，与密度不同，这种方法可以表示限制在低维流形的分布。其次，更容易生成样本的能力通常比密度已知的数值更加有用（例如，在超分辨率图像或语义分割中，考虑给定输入图像的输出图像的条件分布）。通常，在给定任意高维密度的情况下生成样本的计算是非常困难的。

变分自动编码器（VAE）和生成性对抗网络（GAN）是这种方法的众所周知的例子。由于VAE关注的是示例的近似可能性，因此它们共享标准模型的局限性，需要额外操作噪声项。GAN在目标函数的定义中提供了更多的灵活性，包括Jensen-Shannon和f-divergence以及一些奇异的组合，但是另一方面， GAN训练以脆弱和不稳定而着称。

在本文中，我们将注意力集中在测量模型分布和实际分布关系的各种方法上，或等效地，用于定义距离或散度 $\rho(\mathbb P_\theta,\mathbb P_r)$ 的各种方法。这些距离之间最基本的差异是它们对概率分布序列收敛的影响。当且仅当存在分布 $\mathbb P_\infty$ 使得 $\rho(\mathbb P_t,\mathbb P_\infty)$ 倾向于零，分布序列 $(\mathbb P_t)_{t\in \mathbb N}$ 才会收敛，这取决于距离 $\rho$ 的确定程度。非正式地，当一个分布序列较容易收敛时，则距离是 $\rho$ 一个较弱的拓扑结构。第二部分阐明了在这方面的概率距离有多么流行。

为了优化参数 $θ$ ，我们当然希望以使得映射 $\theta \mapsto \mathbb P_\theta$ 连续的方式定义我们的模式分布 $\mathbb P_\theta$ 。连续性意味着当一系列参数 $θ_t$ 收敛到 $θ$ 时，分布 $\mathbb P_{\theta_t}$ 收敛到 $\mathbb P_t$ 。但是，必须记住，分布收敛的概念取决于我们计算分布之间距离的方式。这个距离越弱，就越容易定义从 $θ$ 空间到 $\mathbb P_\theta$ 空间的连续映射，因为它更易于分布的收敛。我们关心映射 $\theta \mapsto \mathbb P_\theta$ 是连续的主要原因是：如果是 $\rho$ 我们两个分布之间距离的概念，我们希望有一个连续的损失函数 $\theta \mapsto \rho(\mathbb P_\theta,\mathbb P_r)$ ，这相当于当使用距离分布 $\rho$ 时，映射 $\theta \mapsto \mathbb P_\theta$ 是连续的。

本文的贡献是：

在第2节中，我们提供了一个全面的理论分析，分析了EarthMover（EM）距离与学习分布环境中使用的流行概率距离和差异的比较。
在第3节中，我们定义了一种称为Wasserstein-GAN的GAN形式，它最小化了EM距离的合理有效近似，并且从理论上表明相应的优化问题是合理的。
在第4节中，我们凭经验证明WGAN可以解决GAN的主要训练问题。特别是，训练WGAN不需要在判别器和生成器的训练中保持谨慎的平衡，也不需要仔细设计网络架构。 GAN中典型的模式化现象也大大减少.WGAN最引人注目的实际好处之一是能够通过训练判别器来优化连续估计EM距离。绘制这些学习曲线不仅对调试和超参数搜索有用，而且与观察到的样本质量非常相关。

2. 不同的距离

现在介绍我们的符号。令 $\mathcal X$ 为一个紧凑的矩阵集（例如图像的空间 $[0, 1] d$ ），让 $Σ$ 表示 $\mathcal X$ 的所有Borel子集的集合。使 $P r o b (X)$ 表示在 $\mathcal X$ 上定义的概率测量的空间。我们现在可以定义两个分布之 $\mathbb P_r,\mathbb P_g \in Prob(\mathcal X)$ 间的基本距离和差异。

（Borel集： $R^n$ 中一切开集构成的开集族，生成的 $σ$ 代数称为 $R^n$ 的borel $σ$ 代数，它其中的元素称为 borel集。borel集由开集的有限次的并，交，差构成。borel对于测度理论非常重要，因为每个定义在开集上或者闭集的测度，都需要在哪个空间的所有的borel集上定义。）

总变差(TV)距离：

$\delta(\mathbb P_r,\mathbb P_g)=\sup_{A\in\sum} |\mathbb P_r(A)-\mathbb P_g(A)|$

KL散度：

$KL(\mathbb P_r||\mathbb P_g)=\int log(\frac{P_r(x)}{P_g(x)})P_r(x)d\mu(x)$

其中假设 $\mathbb P_r$ 和 $\mathbb P_g$ 都是绝对连续的，因此相对于相同的测量 $\mu$ ，在 $\mathcal X$ 上定义密度，并且当存在 $P_g（x）= 0$ 和 $P_r（x）> 0$ 的点时，众所周知KL散度就会变得的不对称并且可能是无穷的。

JS散度：

$JS(P_r,P_g)=KL(P_r,\frac{P_r+P_g}{2})+KL(P_g,\frac{P_r+P_g}{2})$

EM距离或Wasserstein距离:

$W(P_r,P_g)=\inf_{y\in\prod(P_r,P_g)}\mathbb E_{(x,y) \sim \gamma}[\|x-y\|] \tag{1}$

其中 $\prod(P_r,P_g)$ 表示所有联合分布 $\gamma(x,y)$ 的集合，其边缘分别为 $P_r,P_g$ 。直观的， $\gamma (x,y)$ 表示从x 到 y 必须输入多少能量，以讲分布 $P_r$ 转换为分布 $P_g$ 。然后，EM距离是最佳运输计划的成本。

以下示例说明了概率分布的简单序列如何在EM距离下收敛，但在上面定义的其他距离和散度下不收敛。

例一：设 $Z\sim U[0,1]$ 在单位区间内独立分布，使 $\mathbb P_0$ 作为 $(0,Z)\in \mathbb R^2$ 的分布（0在x轴上，Z在y轴上）， $\mathbb P_0$ 在穿过原点的垂线上均匀分布，现在令 $g_\theta(z)=(\theta,z)$ ( $\theta$ 为一个单独的实参）。在这个例子中很容易看到：

$W(\mathbb P_0,\mathbb P_\theta)=|\theta|$
$JS(\mathbb P_0,\mathbb P_\theta)=\begin{cases} -x & \text{if}\ \theta\neq0,\\ 0 & \text{if}\ \theta=0, \end{cases}$
$KL(\mathbb P_\theta\|\mathbb P_0)=KL(\mathbb P_0\|\mathbb P_\theta)=\begin{cases} +\infty & \text{if}\ \theta\neq0,\\ 0 & \text{if}\ \theta=0, \end{cases}$
$and\ \delta(\mathbb P_0,\mathbb P_\theta)=\begin{cases} 1 & \text{if}\ \theta\neq0,\\0 & \text{if}\ \theta=0. \end{cases}$

当 $\theta_t\to0$ 时，序列 $(\mathbb P_{\theta_t})_{t \in \mathbb N}$ 在EM距离下收敛于 $\mathbb P_0$ ，但是在JS，KL，反向KL或TV距离下都没有收敛。图1说明了EM和JS距离的情况：

Figure 1: These plots show $\rho(\mathbb P_\theta;\mathbb P_0)$ as a function of $\theta$ when $\rho$ is the EM distance (left plot) or the JS divergence (right plot). The EM plot is continuous and provides a usable gradient everywhere. The JS plot is not continuous and does not provide a usable gradient.

例一给出了一个案例，我们可以通过在EM距离上的梯度下降来学习低维流形的概率分布。这不能用其他距离和散度来完成，因为产生的损失函数甚至会不连续。虽然这个简单示例的特征分布的支撑集不相交（就是 $\mathbb P_0,\mathbb P_\theta$ 不想交)，但是当支撑集 $\mathbb P_0,\mathbb P_\theta$ 具有测度为零的非空交集时，结论同样成立。当两个低维流形在一般位置相交时，恰好就是这种情况.

由于Wasserstein距离远远弱于JS距离，我们现在可以温和的假设一下： $W(\mathbb P_r,\mathbb P_\theta)$ 是否是关于 $θ$ 的连续损失函数。这个假设是正确的，正如我们现在陈述和证明的那样。

定理1： 设 $\mathbb P_r$ 是 $\mathcal X$ 的固定分布，设Z是另一个空间 $\mathcal Z$ 上的随机变量（例如高斯），设 $\mathcal Z \times \mathbb R^d \to \mathcal X$ 是一个函数，用 $\theta$ 表示 $g_\theta(z)$ 的第一个坐标且 $\theta$ 为第二个，令 $\mathbb P_\theta$ 表示 $g_\theta(Z)$ 的分布。则：

如果 $g$ 在 $\theta$ 上是连续的，那么 $W(\mathbb P_r,\mathbb P_\theta)$ 也是。
如果 $g$ 是局部Lipschitz并且满足规律性假设1，那么 $W(\mathbb P_r,\mathbb P_\theta)$ 处处连续切可微。
对于 $JS(\mathbb P_r,\mathbb P_\theta)$ 和所有KL，陈述1-2都是错误的。

以下推论告诉我们，通过最小化EM距离来使神经网络学习至少在理论上是有意义的。

**推论1.**假设 $g_\theta$ 是由 $\theta$ 参数化的任一前馈神经网络，并且 $p (z)$ 优先于 $z$ ，使得 $\mathbb E_{z\sim p(z)}[\|z\|]<\infty$ (例如高斯，均匀等).

然后假设1被满足，因此 $W(\mathbb P_r,\mathbb P_\theta)$ 在任何地方都是连续的并且几乎在任何地方都是可微的。

所有这些都表明，对于我们的问题而言，EM至少相比于JS是一个更明智的损失函数。下面的定理描述了由这些距离和偏差引起的拓扑的相对强度，其中KL最强，其次是JS和TV，而EM最弱。

定理2： 设 $\mathbb P$ 是密集空间 $\mathcal X$ 的一个分布，并且 $(\mathbb P_n)_{n\in \mathbb N}$ 是 $\mathcal X$ 上的序列分布。然后，将所有极限都视为 $n\to \infty$ ，

以下陈述是等价的
- $\delta(\mathbb P_n,\mathbb P)\to 0$ 总变差距离
- $JS(\mathbb P_n,\mathbb P)$ JS散度
以下陈述是等价的
- $W(\mathbb P_n,\mathbb P)\to 0$
- $\mathbb P_n\ \stackrel{\mathcal D}{\longrightarrow}\ \mathbb P$ 这里 $\stackrel{\mathcal D}{\longrightarrow}$ 表示随机变量分布的收敛
$KL(\mathbb P_n\|\mathbb P)\to 0\ or\ KL(\mathbb P\|\mathbb P_n)$ 暗示等式（1）中的陈述。
等式（1）中的陈述暗示等式（2）中的陈述

这突出了这样一个事实：当学习由低维流形支持的分布时，KL，JS和TV距离不是合理的代价函数。不过，EM距离在该体系中是合理的。这显然引导我们进入下一部分，我们将介绍优化EM distance的实际近似。

3.Wasserstein GAN

同样，定理2指出 $W(P_r,P_\theta)$ 在优化 $JS(P_r,P_\theta)$ 时可能具有更好的性质。然而，等式（1）中的下限是非常难以处理的。另一方面，Kantorovich-Rubinstein二元性告诉我们：
$W(\mathbb P_r,\mathbb P_\theta)=\sup_{\|f\|_L\le1}\mathbb E_{x\sim\mathbb P_\theta}[f(x)]-\mathbb E_{x\sim\mathbb P_r}[f(x)] \tag{2}$
上确界在所有1-Lipschitz函数 $f:\mathcal X \to \mathbb R$ 之上。注意，如果我们替换 $\|f\|_L\le1\ for \ \|f\|_L\le K$ （考虑某些常数K的K-Lipschitz连续），那么我们最终得到 $K\cdot W(\mathbb P_r,\mathbb P_g)$ 。因此，如果我们有一个参数族化的函数 $\{f_w\}_{w\in W}$ ，对于某些K来说都是K-Lipschitz，那么我们可以考虑解决如下问题：
$\max_{w\in W}\mathbb E_{x\sim \mathbb P_r}[f_w(x)]-\mathbb E_{z\sim p(z)}[f_w(g_\theta(z))] \tag{3}$
并且如果（2）中的上确界达到某个 $w \in W$ （在证明估计量的一致性时所假设的非常强的假设），则该过程将产生一个直到常数相乘的计算 $W(\mathbb P_r,\mathbb P_\theta)$ 。此外，我们可以考虑通过估计 $\mathbb E_{z\sim p(z)}[\nabla_\theta f_w(g_\theta(z))]$ 反推等式（2）来区分 $W(\mathbb P_r,\mathbb P_\theta)$ （再次，直到常数）。虽然这都是直觉（假设），但我们现在证明这个过程是在最优性假设下的.

定理3. 设 $\mathbb P_r$ 是任意分布。设 $\mathbb P_\theta$ 为 $g_\theta(Z)$ 的分布，Z为随机变量，密度为p，为满足假设1的函数。然后，对问题有一个解 $f:\mathcal X\to \mathbb R$ ，问题:
$\max_{\|f\|_L\le1}\mathbb E_{x\sim\mathbb P_r}[f(x)]-\mathbb E_{x\sim \mathbb P_\theta}[f(x)]$
并且当两个部分都明确定义时我们得到：
$\nabla_\theta W(\mathbb P_r,\mathbb P_\theta)=-\mathbb E_{z\sim p(z)}[\nabla_\theta f(g_\theta(z))]$
现在出现的问题是找到解决等式（2）中最大化问题的函数 $f$ 。为了粗略地估计这一点，我们可以做的事情是训练一个带有权重 $w$ 的参数化神经网络，在一个密集的空间 $W$ 中，然后通过 $\mathbb E_{z\sim p(z)}[\nabla_\theta f_w(g_\theta(z))]$ 进行反向传播，就像我们对典型的Gan一样。注意， $W$ 是密集的这一事实意味着所有函数 $f_w$ 对于某些 $K$ 而言将会是K-Lipschitz连续的，其取决于 $W$ （全部的 $w$ ）而不是单独的 $w$ ，因此近似于等式（2）直到不相关的缩放因子和’critic’的函数 $f_w$ 。为了让参数 $w$ 位于一个密集的空间中，我们可以做的一件事就是在每次梯度更新后将权重固定到一个范围（比如 $W = [-0.01,0.01]^l$ ）。 Wasserstein生成性对抗网络（WGAN）过程在算法1中描述。

权重限制（Weight clipping）是强制执行Lipschitz约束的一种明显糟糕的方法。如果限制参数很大，那么任何权重都可能需要很长时间才能达到他们的极限，从而使critic更难以进行优化。如果限制很小，当层数多或者不使用批量归一化时（例如在RNN中），这就很容易导致梯度消失。我们尝试了简单的变体（例如将权重投射到球体上），但由于其简单和良好的性能，我们还是坚持使用权重限制。但是，我们还在对神经网络设置中强制执行Lipschitz约束这一操作进行进一步调查，我们积极鼓励感兴趣的研究人员改进这种方法。

事实上EM距离是连续且可微分的a.e.（几乎处处收敛）。意味着我们可以训练critic直到最优。这个论点很简单，我们越训练critic，我们得到的Wasserstein的梯度越可靠，这实际上是因为Wasserstein几乎无处不在的这个事实。对于JS来说，随着critic越来越好越来越可靠，但是真实的梯度会变为0，因为JS局部饱和，我们会得到消失的梯度，如本文图1和定理2.4（前篇的）所示。在图2中，我们展示了这一概念的证明，其中我们训练GAN的discriminator和WGAN的critic直到最优。discriminator学得非常快，可以区分假样本和真实样本，并且正如预期的那样，没有提供可靠的梯度信息。然而，critic不能饱和，并且收敛到线性函数，在任何地方都给出了非常干净的渐变。事实上我们约束权重，限制了函数在空间的不同部分中的最多线性的可能增长，迫使最优critic具有这种行为。

也许更重要的是，我们可以训练critic直到最优，这不会使我们模式崩塌。因为模式崩塌来自这样一个事实，即最优generator是固定discriminator的，他是由 discriminator分配最高值的点上的增量之和。，如[4]所示并在[11]中突出显示。

在下一节中，我们将展示新算法的实际优势，并对其行为与传统GAN的行为进行深入比较。

Figure 2: Optimal discriminator and critic when learning to differentiate two Gaussians.
As we can see, the discriminator of a minimax GAN saturates and results in vanishing
gradients. Our WGAN critic provides very clean gradients on all parts of the space.

4.实验结果

我们使用Wasserstein-GAN算法进行图像生成实验，并显示它比标准GAN的公式的优点。

我们说明了有两个主要好处：

一种与生成器收敛性、质量相关的有意义的损失度量
提高优化过程的稳定性

4.1实验程序

我们进行图像生成实验。要学习的目标分布是LSUN-Bedrooms数据集，室内卧室的自然图像集合。我们的基线比较是DCGAN，一个使用 $- l o g D$ 技巧的用标准GAN程序训练的卷积结构的GAN。生成的样本是尺寸为64x64像素的3通道图像。我们使用算法1中指定的超参数进行所有实验。

Figure 3: Training curves and samples at different stages of training. We can see a clear correlation between lower error and better sample quality. Upper left: the generator is an MLP with 4 hidden layers and 512 units at each layer. The loss decreases consistently as training progresses and sample quality increases. Upper right: the generator is a standard DCGAN. The loss decreases quickly and sample quality increases as well. In both upper plots the critic is a DCGAN without the sigmoid so losses can be subjected to comparison. Lower half: both the generator and the discriminator are MLPs with substantially high learning rates (so training failed). Loss is constant and samples are constant as well. The training curves were passed through a median filter for visualization purposes.

图三：上在不同的训练阶段的训练曲线和样本。我们可以看到较低的误差和较好的样品质量之间的明确相关性。左上角：生成器是一个带有4个隐藏层的MLP，每层有512个单元。损失逐渐减少，样本质量增加。右上：生成器是标准DCGAN。损失迅速减少，样品质量也随之增加。在两个上图中，critic都是没有sigmoid激活函数DCGAN，因此可以对损失进行比较。下半部分：生成器和discriminator都是具有相当高学习率的MLP（因此训练失败）。损失是恒定的，样本也是恒定的。为了可视化目的，我们将训练曲线通过了中值滤波器.

4.2有意义的损失度量

因为WGAN算法试图在每次生成器更新（算法1中的第10行）之前相对较好地训练critic（算法1中的第2-8行），所以此时的损失函数是EM距离的一个估计，直到与我们约束f的Lipschitz常数的方式相关的常数因子。

我们的第一个实验说明了这种估计如何与生成的样本的质量很好地相关。除了DCGAN卷积架构，我们还进行了实验，我们用512个隐藏单元的4层ReLU-MLP替换生成器，或者同时替换生成器和critic。

图3描绘了对于所有三种架构WGAN估计的演变。该图清楚地表明这些曲线与生成样本的视觉质量很好地相关。

据我们所知，这是GAN文献中第一次显示出这样的属性，其中GAN的loss显示了收敛性。在对抗性网络中进行研究时，此属性非常有用，因为不需要盯着生成样本来确定模型的好坏。

Figure 4: JS estimates for an MLP generator (upper left) and a DCGAN generator (upper right) trained with the standard GAN procedure. Both had a DCGAN discriminator. Both curves have increasing error. Samples get better for the DCGAN but the JS estimate increases or stays constant, pointing towards no signi cant correlation between sample quality and loss. Bottom: MLP with both generator and discriminator. The curve goes up and down regardless of sample quality. All training curves were passed through the same
median lter as in Figure 3.

图四：左上的是MLP生成器的JS估计，右上的是一个DCGAN生成器。他们都是使用标准GAN程序训练的，两者都有一个DCGAN卷积鉴别器，可以看到他们的error是逐渐上升的。 DCGAN的样本越变越好，但JS估计随着迭代的增加而增加或后期基本保持不变，这表明样本质量和损失之间没有显着的相关性。底部：MLP同时具有生成器器和鉴别器。无论样品质量如何，曲线都会上下移动。上面所有训练曲线都通过了与图3中相同的中值滤波器。

但是，我们并未声称这是一种定量评估生成模型的新方法。依赖于critic体系结构的恒定比例的因子意味着很难将模型与不同的critic进行比较。更重要的是，在实践中，critic没有无限的能力，这使我们很难知道我们的估计到底与EM距离有多接近。话虽如此，我们已经成功地使用损失度量来反复验证我们的实验，并且没有失败，我们认为这是对GAN训练的巨大改进，以前是没有这样的操作的。

相比之下，图4描绘了GAN训练中以JS距离为根本的GAN估计的变化（也就是JS估计的变化）。更确切地说，在GAN训练期间，训练鉴别器最大化
$L(D,g_\theta)=\mathbb E_{x\sim \mathbb P_r}[logD(x)]+\mathbb E_{x\sim\mathbb P_\theta}[log(1-D(x))]$
他是 $2JS(\mathbb P_r,\mathbb P_\theta)-2log2$ 的下界。在图中，我们还画出了数量 $\frac{1}{2}L(D,g_\theta)+log2$ ，他是JS距离的下界。

该数量明显与样品质量相关。另请注意，JS估计通常保持不变或上升而不是下降。实际上他仍然非常接近 $l o g 2 \approx 0.69$ ，这是JS距离取到的最高值。换句话说，JS距离饱和，鉴别器具有零损失，并且生成的样本在某些情况下是有意义的（DCGAN生成器，右上图），并且在其他情况下折叠成单个无意义的图像[4]。最后一种现象已在[1]中进行了理论解释，并在[11]中得到了强调。

使用 $- l o g$ 技巧时，鉴别器loss和生成器loss不同。附录E中的图8报告了GAN训练的相同图，但使用了loss器损失而不是鉴别器loss。这不会改变结论。

最后，作为否定结果，我们报告说，当一个人对critic使用基于动量的优化器（例如Adam [8]（对于 $β 1 > 0$ ）或当使用高学习率时，WGAN训练变得不稳定。由于critic的loss是非常稳定的，所以基于动量的方法似乎表现得更差。我们将动量确定为潜在原因，因为随着loss的爆发和样本变得更糟，Adam的步和梯度之间的余弦通常变为负值。这个余弦是负数的唯一的地方就是在这些不稳定的情况下。因此，我们改用RMSProp [21]，即使在非常不稳定的问题上他也能有良好的表现 [13]。

4.3改善稳定性

WGAN的一个好处是它允许我们训练critic直到最优。当critic接受训练完成时，它只会给我们提供生成器的loss，就像任何其他训练的神经网络一样。这告诉我们，我们不再需要正确平衡生成器和鉴别器的训练量。critic越好，我们用来训练生成器的梯度越高。

我们还观察到，当选择一个不同的生成器的架构时，WGAN比GAN更强大。我们通过在三种发生器架构上运行实验来说明这一点：（1）卷积DCGAN生成器，（2）卷积DCGAN生成器，无需批量归一化和具有相同数量的滤波器，以及（3）有512个隐藏单位的4层ReLU -MLP。已知最后两个与GAN表现很差。我们为WGAN的critic或GAN的discriminator保留了卷积DCGAN的架构。

图5,6和7展示出了使用WGAN和GAN算法为这三种体系结构生成的样本。我们建议读者引用附录F以获取生成样本的完整表。样品没有被挑选出来.

在没有试验的情况下，我们看到了WGAN算法模式崩塌的证据。

图五：两个算法都是用一个DCGAN的generator训练的，左图是WGAN算法，右图是标准GAN方程，两个算法都生产出了高质量的样本。

图6：算法生成器的训练没有使用批量标准化的算法，每一层的过滤器也没有使用的常数数量（为了不让每次都重复它们，如[18]中所述）。除了去除了批量标准化之外，参数的数量也减少了一些，减少了超过一个数量级。左：WGAN算法。右：标准GAN方程。我们可以看到标准GAN未能正常学习，而WGAN仍然可以生产样本。

图7：（标准GAN算法）使用MLP生成器训练的算法，该生成器有4层，共512个具有ReLU非线性激活函数的单元。参数的数量类似于DCGAN的数量，但它缺乏用于图像生成的强烈的感应偏差。左：WGAN算法。右：标准GAN算法。 WGAN算法仍然能够生成质量低于DCGAN的样本，并且质量高于标准GAN的MLP。请注意GAN MLP中模式崩塌的程度。

5.相关工作

这里有许多关于所谓的积分概率指标（IPM）的著作。给定F一组是从X到R的函数，我们可以定义：
$d_\mathcal F(\mathbb P_r,\mathbb P_\theta)=\sup_{f\in \mathcal F}[f(x)]-\mathbb E_{x\sim\mathbb P_\theta}[f(x)] \tag{4}$
作为与函数类F相关联的积分概率度量。很容易证实，如果对于每个 $f \in F$ 我们都有 $- f \in F$ ，那么 $d_\mathcal F$ 是非负的，满足三角不等式，并且是对称的。因此， $d_\mathcal F$ 是Prob（X）的伪测量。

虽然IPM似乎可以分享类似的公式，但我们将看到不同类别的方程可以与完全不同的指标相提并论。

通过Kantorovich-Rubinstein二元性[22]，我们知道当 $\mathcal F$ 是1-Lipschitz函数的集合时 $W(\mathbb P_r,\mathbb P_\theta)=d_\mathcal F(\mathbb P_r,\mathbb P_\theta)$ 。此外，如果 $\mathcal F$ 是K-Lipschitz函数的集合，我们得到$K\cdot W(\mathbb P_r,\mathbb P_\theta)=d_\mathcal F(\mathbb P_r,\mathbb P_\theta) $。
当F是所有界定在-1和1之间可测量函数的集合时，（或-1和1之间的所有连续函数），我们检索 $d_\mathcal F(\mathbb P_r,\mathbb P_\theta) =\delta(\mathbb P_r,\mathbb P_\theta)$ 的总变差距离[15]。这已然告诉我们，从1-Lipschitz到1-Bounded函数大大改变了空间的拓扑结构，并且$d_\mathcal F(\mathbb P_r,\mathbb P_\theta) $的规律作为损失函数（如定理1和2所示）。
Energy-based GAN（EBGAN）[25]可以被认为是总变差距离的生成方法。这种连接在附录D中有说明和证明。连接的核心是鉴别器将起到最大化方程（4）的作用，而它的唯一限制是对于某些常数在0和m之间。这将使得相同的行为被限制在介于-1和1之间，直到与优化无关的恒定的缩放因子。因此，当鉴别器接近最优时，生成器的成本将使总变差距离 $\delta(\mathbb P_r,\mathbb P_\theta)$ 近似。

由于总变差距离显示出与JS相同的规律性，可以看出EBGAN将遭到与经典GAN相同的问题，即不能将鉴别器训练到最优性并且因此将其自身限制在非常不完美的梯度。
最大平均差异（MMD）[5]是积分概率度量的特殊情况，当某些Reproducing Kernel Hilbert Space（RKHS）的 $\mathcal F=\{f\in \mathcal H: \|f\|_\infty\le 1\}$ 与给定的内核 $k:\mathcal X\times\mathcal X\to \mathbb R$ 相关时。正如[5]所述，我们知道MMD是一个合适的度量标准，而且当内核是通用的时候，它不仅仅是伪计量。在对于 $\mathcal X$ 上的归一化Lebesgue度量m的方程 $\mathcal H=L^2(\mathcal X,m)$ 的特定情况下，我们知道F中包含 $\{f\in C_b(\mathcal X)\|f\|_\infty\le 1\}$ ，因此 $d_\mathcal F(\mathbb P_r,\mathbb P_\theta) \le\delta(\mathbb P_r,\mathbb P_\theta)$ 作为损失函数的MMD距离的规律性至少与总变差之一一样差。然而，这是一个非常极端的情况，因为我们需要一个非常强大的内核来逼近整个 $L^2$ 。然而，即使是Gaussian内核也能够检测出微小的噪声模型，如[20]所证明的那样。这表明，特别是对于低带宽内核，距离可能接近饱和状态，类似于总变差或JS。这显然不一定是每个内核的情况，并且寻找出如何以及哪些不同的MMD更接近Wasserstein或总变差距离是一个有趣的研究课题。

MMD的一个重要方面是通过内核技巧，不需要为RKHS的球提供单独的网络来最大化方程（4）。但是，这样做的缺点是评估MMD距离的计算成本会以二次方的增长速度而增加。用于估计（4）中预期的样本量。最后一点使得MMD具有有限的可扩展性，并且有时不适用于许多现实生活中的应用程序。 MMD [5]有线性计算成本的估计值，在很多情况下MMD非常有用，但它们的样本复杂度也较差。
Generative Moment Matching Networks (GMMNs) [10,2]是MMD的一个对应模型。通过对核化公式序列（4）进行反向推导，他们直接优化了 $d_{MMD}(\mathbb P_r,\mathbb P_\theta)$ （当前一项中的是F时，则是IPM）。如上所述，这具有不需要单独的网络来近似最大化等式（4）的优点。但是，GMMN的适用性有限。对于不成功的部分解释是二次成本作为样本数量和低带宽内核中消失的梯度的函数。此外，实际使用的某些内核可能不适合在高维样本空间（例如自然图像）中捕获非常复杂的距离。 [19]表明，对于典型的高斯MMD测试来说，可靠性（因为它的统计测试接近1的能力），我们需要使样本的数量随着维数的数量线性增长。由于MMD计算成本与用于估计方程（4）的批次中的样本数量成二次方式地增长，这使得具有估计的成本与维度的数量成二次方，这使得它非常不适用于高维问题。实际上，对于像64x64图像那样标准的东西，我们需要大小至少为4096的小型号（不考虑[19]的范围内的常数，这将使这个数字大得多）和每次迭代的总成本40962，结束使用标准批量大小为64时，比GAN迭代多5个数量级

话虽如此，这些数字对于MMD来说可能有点不公平，因为我们将GAN的经验样本复杂性与MMD的理论样本复杂性进行比较，后者往往更糟糕。然而，在最初的GMMN论文[10]中，他们确实使用了1000的小批量，比标准的32或64大得多（即使这是在二次计算成本中产生的）。虽然具有线性计算成本的估计值是样本数量的函数[5]，但它们具有更差的样本复杂性，据我们所知，它们尚未应用于GMMN等生成环境中。

在另一个伟大的研究领域，[14]的最近的工作探讨了在受限玻尔兹曼机器学习离散空间的背景下使用Wasserstein距离。乍一看动机可能看起来很不一样，因为流形设置仅限于连续空间，而在有限的离散空间中，弱和强拓扑（分别是W和JS的拓扑）会重合。然而，最后还有更多的共同点而不是关于我们的动机。我们都希望以一种利用底层空间几何形状的方式比较分布，而Wasserstein允许我们做到这一点。

最后，[3]的工作显示了计算不同分布之间的Wasserstein距离的新算法。我们相信这个方向非常重要，也许可能会导致评估生成模型的新方法。

6.结论

我们引入了一种算法，我们认为WGAN是传统GAN训练的替代方案。在这个新模型中，我们展示了我们可以提高学习的稳定性，摆脱模式崩溃等问题，并提供有用的调试和超参数搜索的有意义的学习曲线。此外，我们表示相应的优化问题是合理的，并提供了广泛的理论工作，突出了与分布之间的其他距离的深层联系。

你可能感兴趣的:(#,GAN,AI)

6.20CSIG腾讯云后台开发实习一面面经 C++50min han_xue_feng java
腾讯许愿OC零零总总已经面了9场腾讯了，身心俱疲hr面完了一整天都是链接状态不知道有没有戏，感觉凉了AjokenevergainsaAjokenevergainsanenemybutoftenlosesafrie我在牛客笔试训练营第4天今天的元器件训练完成，继续加油～#牛客社群专项训练训练营#终于毕业啦～学生时代的青春岁月转眼将逝，职业生涯的精彩华章即将开篇。在快手实习了整整一年，终于要正式入职开
简单工人工资管理系统 weixin_44799641 数据结构和算法算法
intmain(intargc,char*argv[]){intEmployee[10]={27000,32000,32500,27500,28500,29000,31000,32500,3000,2600};intIndex;intNewSalary;intSelection;while(1){printf("===========================================
win7安装pycharm并永久激活上官-王野 Python应用pycharm
一、安装pycharmhttp://www.jetbrains.com/pycharm/安装到目录D:\tools\PyCharm2019.2.1二、激活pycharmhttps://blog.csdn.net/qq_39429714/article/details/89401292
python运行程序为什么会卡住_为什么我的 Python 程序卡住啦！ weixin_39808953
本文简答介绍在linux环境下如何利用gdb来分析卡住的程序，本文使用的Python为Cpython2.7，操作系统为Debian。阻塞在IO程序被卡住，很可能是程序被阻塞了，即在等待(wait)等个系统调用的结束，比如磁盘IO与网络IO、多线程，默认的情况下很多系统调用都是阻塞的。多线程的问题复杂一下，后面专门介绍。下面举一个UDPSocket的例子(run_forever_block.py)：
第十五个问题-什么是CoT？释迦呼呼 AI一千问算法人工智能语言模型机器学习深度学习
Chain-of-Thought(CoT)思维链技术详解一、核心概念Chain-of-Thought（思维链）是一种通过引导大语言模型展示逐步推理过程来提升复杂问题解决能力的技术。其核心思想是模仿人类解决复杂问题时的分步思考模式，通过显式的中间推理步骤，帮助模型更准确地推导出最终答案。二、技术原理显式推理路径要求模型将解题过程分解为多个可解释的中间步骤示例：复制问题：小明有5个苹果，吃掉2个后又买
探索未来智能：Lucidrains的Mixture of Experts框架详解咎旗盼Jewel
探索未来智能：Lucidrains的MixtureofExperts框架详解mixture-of-expertsAPytorchimplementationofSparsely-GatedMixtureofExperts,formassivelyincreasingtheparametercountoflanguagemodels项目地址:https://gitcode.com/gh_mirror
JAVA【微服务】Spring AI 使用详解 C_V_Better java AI人工智能人工智能 java 微服务后端数据结构开发语言
目录一、前言二、SpringAI概述2.1什么是SpringAI2.2SpringAI特点2.3SpringAI带来的便利2.4SpringAI应用领域2.4.1聊天模型2.4.2文本到图像模型2.4.3音频转文本2.4.4嵌入大模型使用2.4.5矢量数据库支持2.4.6数据工程ETL框架三、SpringAI对接ChatGPT3.1前置准备3.2添加必要的依赖3.3接入操作流程3.3.1配置文件3
【学习】电脑上有多个GPU，命令行指定GPU进行训练。超好的小白学习人工智能深度学习
使用如下指令可以指定使用的GPU。CUDA_VISIBLE_DEVICES=1假设要使用第二个GPU进行训练。CUDA_VISIBLE_DEVICES=1pythontrain.py
程序员未来的出路：行业趋势与职业发展分析 guzhoumingyue AI python
随着技术的发展和行业需求的变化，程序员的职业出路也在不断演变。以下是程序员未来可能的职业发展方向及具体建议：一、技术深耕路线AI与机器学习专家趋势：AI技术在各行业的应用日益广泛，从自动驾驶到智能客服，需求持续增长。技能要求：Python、TensorFlow、PyTorch、数据挖掘、算法优化。发展路径：从机器学习工程师做起，积累项目经验。深入研究深度学习、强化学习等前沿技术。成为AI架构师或数
在麻将 AI 的迷宫中，我用 Python 函数组合探寻最优解：精髓与穷举 fxrz12 AI 人工智能 python 开发语言
我，一个对人工智能充满热情的程序员，带着对麻将策略的浓厚兴趣，踏上了开发AI麻将服务器的征程。这不仅仅是一次技术挑战，更是一次对思维方式和问题解决能力的深度探索。麻将，这个看似简单的游戏，实则蕴含着无穷的策略和变化。AI需要在瞬息万变的牌局中，做出最优的决策，这需要它：洞察牌局：精准分析手牌，评估牌型的潜在价值。预判风险：计算打出某张牌可能带来的风险。布局未来：预测后续牌局的走向，制定长远策略。为
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统奔强的程序课程设计
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
统计用户输入 C语言 2501_90645732 c语言
从键盘读取用户输入直到遇到#字符，编写程序统计读取的空格数目、读取的换行符数目以及读取的所有其他字符数目。(要求用getchar()输入字符)#includeintmain(){printf("Pleaseinputastringendby#:\n");intc;intspaces=0;intnewlines=0;intother=0;while((c=getchar())!='#'){if(c=
高性能PHP框架webman爬虫引擎插件，如何爬取数据 Ai 编码 php教程 php 爬虫开发语言
文章精选推荐1JetBrainsAiassistant编程工具让你的工作效率翻倍2ExtraIcons：JetBrainsIDE的图标增强神器3IDEA插件推荐-SequenceDiagram，自动生成时序图4BashSupportPro这个ides插件主要是用来干嘛的？5IDEA必装的插件：SpringBootHelper的使用与功能特点6Aiassistant,又是一个写代码神器7Cursor
不同AI2-THOR仿真场景下的位置传送放羊郎人工智能技术 python 开发语言 ai2thor 机器人仿真
1.目标随意指定场景场景里找物品（微波炉为例）找到后传送到物品前面2.代码importmathfromai2thor.controllerimportController#将值四舍五入到最近的网格点defround_to_grid(value,grid_size=0.25):returnmax(grid_size,round(value/grid_size)*grid_size)#验证场景编号是否
深度优化：如何用结构化提示词提升DeepSeek的响应质量
深度优化：如何用结构化提示词提升DeepSeek的响应质量一、提示词设计的核心原则角色定义法：明确AI的专家身份场景具象化：提供背景信息和目标说明格式结构化：使用分隔符划分内容模块二、基础提示词案例库1.编程辅助场景[角色]你是一位资深Python开发工程师，擅长编写可维护的工业级代码[任务]为电商系统设计优惠券核销模块[要求]1.使用Django框架实现2.包含防重复提交机制3.添加Redis缓
DeepSeek 接口详解
DeepSeek的火爆不仅是国家的骄傲，更是为AI普惠大众做出了重大贡献。就连AI.com的域名持有者也开始认可deepseek，从之前指向chatgpt.com变成指向chat.deepseek.com。我们不仅可以使用deepseek的免费聊天页面，也可以调用deepseek提供的接口，但是有伙伴可能会问，为什么调用deepseek的接口要使用openai的接口，难道是高级套壳？其实官方已经明
链游开发:TON链小游戏DApp小游戏开发
链游开发，特别是在TON链上开发小游戏与其他链（如以太坊、Solana、BSC等）上的DApp小游戏，是一个结合了区块链技术和游戏设计的复杂过程。以下是一个详细的开发指南：一、链游基本概念链游（BlockchainGames）是基于区块链技术开发的游戏，通过智能合约将游戏中的虚拟资产上链，实现真正的数字资产所有权。DApp（去中心化应用）游戏是链游的一种，利用区块链平台的智能合约来确保游戏的透明性
IPC 进程间通信 —— 见见猪 DBWG Linux学习算法 linux 服务器
interprocesscommunication文章目录管道通信匿名管道命名管道写入端读取端消息队列发送端接收端：共享内存写入端读取端信号量PV操作父子进程信号父子进程套接字服务器客户端管道通信匿名管道【单进程内创建父子进程通信】pipe(int[2])#include#include#includeintmain(){intfd[2];if(pipe(fd)==-1){perror("pipe
Flutter的permission_handler插件检查iOS的通知权限不准确 GeniuswongAir flutter
今天，做好了一个功能，就是在app内检查用户有没有给当前APP打开通知权限，如果没打开，就展示一个banner，让用户去点击banner去打开权限。android上测试得非常顺利，结果，在iOS上就是不行，不管怎么打开关闭通知，使用Permission.notification.status获取到的结果一直是：PermissionStatus.denied我去，这也太坑了，通过咨询AI大神，得出结
cordova app webpack升级为vite weixin_45410246 cordova-hcp Cordova vue vite webpack 前端 node.js vite
本文是对vue2进行兼容1.在项目根目录下运行以下命令，安装Vite和必要的插件：npminstallvite@vitejs/plugin-legacy--save-devvite：Vite核心包。@vitejs/plugin-legacy：为旧版浏览器提供支持（建议添加vite生成的script会有type=“module”）。否则在cordova中可能报错Failedtoloadmodules
深度评测：Cursor、Windsurf、Devin及其他AI编程工具大比拼 zhz5214 AI 人工智能 AI编程 AI写作 ai 程序员创富
引言在当今软件开发领域，AI编程工具已成为开发者提升效率的关键助力。Cursor、Windsurf、Devin等工具凭借各自特色，在市场中崭露头角。本文将深入剖析这些工具，为开发者提供全面的对比参考。工具介绍CursorCursor是一款深度集成于VSCode环境的AI编程助手，支持多种编程语言，提供代码生成、调试、文档搜索等丰富功能，用户可高度定制设置，以契合不同项目需求。WindsurfWin
利用Mybatis获取数据库表结构信息并转换【兼容多种数据库】無炆_ 数据库 mybatis java
你可以使用Mybatis提供的DatabaseMetaData类来获取数据库表结构信息。以下是一个简单的示例代码：publicclassMybatisExample{publicstaticvoidmain(String[]args)throwsSQLException{Listwarnings=newArrayListintrospectedTables=databaseIntrospector
lombok未正常生效问题排查-maven编译问题排查無炆_ java
问题报错-maven编译报错[INFO]Scanningforprojects...[INFO][INFO]------------------------------------------------------------------------[INFO]BuildingTailgate1.0-SNAPSHOT[INFO]----------------------------------
自然语言处理NLP入门 -- 第一节基础概念山海青风 #自然语言处理自然语言处理人工智能 python
本部分主要介绍NLP的基础概念，并通过实际案例演示NLP的核心任务，同时引导你搭建NLP开发环境，确保你能顺利开始后续学习。1.什么是自然语言处理（NLP）1.1NLP的定义自然语言处理（NaturalLanguageProcessing,NLP）是人工智能（AI）的一个子领域，专注于让计算机理解、解释和生成人类语言。NLP结合了计算机科学、语言学和机器学习，以便计算机能自动处理文本和语音数据。简
DeepSeek R2要来了？“下一代推理王者”能否再掀AI浪潮？ that's boy 人工智能 chatgpt openai DeepSeek DeepSeek-R2 DeepSeek-R1 AI编程
DeepSeekR2要来了？“下一代推理王者”能否再掀AI浪潮？最近，AI圈内最火的话题，莫过于DeepSeek即将推出的R2模型了。继今年1月发布的R1推理模型大获成功之后，DeepSeek似乎并没有停下脚步，而是马不停蹄地投入到了R2的研发之中。更让人兴奋的是，根据多方消息，DeepSeek正在加速R2的推出计划，原本预计在5月初亮相的时间表，现在被提前到了“尽可能快的速度”！为什么DeepS
Mybatis-puls BUG集合噢！不杰克 spring boot
Noqualifyingbeanoftype‘com.tengyun.itinerary.mapper.ClasMapper’available:expectedatleast1beanwhichqualifiesasautow没有合格的bean可用，没有扫描到mapper,需要在启动类中加入，@MapperScan("com.test.test1.mapper")Invalidboundstat
数组的相关概念2 陈体苗 conclusion c++学习方法
1.一维数组的动态分配和内存释放#includeusingnamespacestd;intmain(){cout>sizeofarray;//inputvaliditycheckif(sizeofarray>arr1[i];}coutusingnamespacestd;intmain(){cout>row>>col;//validationif(row<=0||col<=0){cout<<"Dim
数组的相关概念1 陈体苗 conclusion c++算法开发语言
1.引用（reference）的基本用法#includeusingnamespacestd;intmain(){inta=10;//thedeclarationandinitializationofvariablesint&ra=a;//declarevariablesstd::cout#includeusingnamespacestd;intmain(){inta=10;int&ra=a;ra+
A Bayesian Angular Superresolution Method With Lognormal Constraint for Sea-Surface Target 论文阅读青铜锁00 论文阅读 Radar 论文阅读
目录1.研究背景与问题2.方法创新3.关键优势4.实验验证5.与传统方法对比6.结论与意义1.研究背景与问题核心挑战：实孔径雷达受限于天线孔径尺寸，导致角分辨率不足，影响海面目标（如船舶）的精细化探测。传统方法局限性：谱估计方法（如MUSIC、IAA）：依赖多快拍数据，机械扫描雷达难以满足。正则化方法（如TSVD、l1/l2约束）：假设噪声服从高斯分布，未考虑海杂波的非高斯特性（如Rayleigh
k8s之pod的调度之污点与容忍污点，什么是污点？如何容忍污点终端行者 Kubernetes kubernetes 容器云原生
在Kubernetes中，污点（Taint）和容忍（Toleration）是用于控制Pod调度到特定节点的重要机制。污点允许节点拒绝某些Pod的调度，而容忍则允许Pod忽略节点的污点，从而调度到特定节点上。1.污点（Taint）1.1.污点的作用污点是节点上的一个标记，用于限制哪些Pod可以调度到该节点。通常用于以下场景：专用节点：某些节点专门用于运行特定类型的Pod（如GPU节点）。节点维护：标
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR