Candy_GL

Wasserstein GAN

转自：https://blog.csdn.net/shadow_guo/article/details/56003908

来自Martin Arjovsky 100 等人的“Wasserstein GAN”。

1. 简介

本文关心的问题为无监督学习问题。学习11个概率分布意味着什么？传统的回答：学习概率密度。常通过定义密度(Pθ)θ∈Rd(Pθ)θ∈Rd的参数化（parameterized）簇，并找到最大化我们数据上似然的参数来完成：若有真实数据样本{x(i)}mi=1{x(i)}i=1m，求解问题：

maxθ∈Rd1m∑i=1mlogPθ(xi)maxθ∈Rd1m∑i=1mlogPθ(xi)

真实数据的分布PrPr给出概率密度，而PθPθ为参数化的概率密度PθPθ，那么，学习概率密度渐近等于最小化Kullback-Leibler散度KL(Pr||Pθ)KL(Pr||Pθ)。
为使其有意义，需存在模型密度PθPθ。但这并不是常见的处理低维流形支撑的模型流形，且意味着KL距离未被定义（或只是无穷大）。
一般可对模型分布添加噪声项来补救。所以，经典机器学习文献中，几乎所有的生成模型都包括噪声项。最简单的情况：为覆盖所有样本，假设较高带宽的高斯噪声。众所周知，如图像生成模型，添加噪声会降低样本质量，并会模糊图像。如（最近的文章 [22]）：最大似然生成图像中每个像素时，对模型所添加噪声，噪声的最优标准差大约为0.10.1，此时已归一化像素范围至[0,1][0,1]。噪声巨大，以至于文章作者给出模型生成的样本时，未在似然上添加噪声项。换言之，图像生成问题上，添加噪声项显然不正确，但仍需用最大似然方法。

不再估计可能不存在的PrPr密度，可定义有固定分布p(z)p(z)的随机变量ZZ，传入11个参函数（parametric function）gθ:Z→Xgθ:Z→X（典型为一神经网络），参函数按确定的分布PθPθ来直接生成样本。改变θθ，使模型分布PθPθ接近真实数据分布PrPr。有两点好处：

该方法可表示受低维流形限制的分布；
易生成样本比了解密度的数值更有用（如图像超分辨率和语义分割中，给定输入图像，考虑输出图像的条件分布）。

总之，给定任意高维的密度，计算上难以生成样本 [15] 。

变分自编码器（VAEs） [9] 和生成的对抗网络（GANs）[4] 为参函数生成图像方法的范例。VAEs近似样本的似然，所以，受限标准模型，需耐心调整额外的噪声项；GANs定义目标函数（包括Jensen-Shannon [4]，所有ff散度 [16] 及奇异的（exotic）合并 [6]）时更灵活，另一方面，众所周知，GANs的训练微妙且不稳定，原因见理论研究 [1]。

本文转而关注用不同的方法来度量模型分布接近真实分布的程度，或者说，定义距离或散度ρ(Pθ,Pr)ρ(Pθ,Pr)。不同距离间主要区别是它们对概率分布序列收敛的影响。当且仅当存在分布P∞P∞，使ρ(Pt,P∞)ρ(Pt,P∞)趋于00时，分布(Pt)t∈N(Pt)t∈N收敛，此时完全取决于距离ρρ的定义。通俗地说，距离ρρ引入更弱的拓扑，使分布序列更易收敛。第22节澄清概率距离在收敛上的不同。

当ρρ下的收敛序列集为ρ′ρ′下的收敛序列集的超集时，ρρ引入的拓扑弱于ρ′ρ′引入的拓扑。

为优化参数θθ，当然希望定义的模型分布PθPθ可使映射θ→Pθθ→Pθ连续。连续性意味着当参数序列θtθt收敛至θθ时，分布PθtPθt也收敛至分布PθPθ。然而，分布序列PθtPθt收敛取决于如何计算分布间的距离。距离越弱，分布序列越易收敛，因此越易定义从θθ空间到PθPθ空间的连续映射。考虑映射θ→Pθθ→Pθ连续是因为：若ρρ为两分布间的距离，希望损失函数θ→ρ(Pθ,Pr)θ→ρ(Pθ,Pr)连续，等价于使用分布ρρ间的距离时，映射θ→Pθθ→Pθ连续。

本文的贡献有：

第22节，全面地理论分析学习分布时，相比流行的概率距离和散度，推土机距离（Earth Mover distance）的表现。
第33节，定义一种GAN，称其为Wasserstein-GAN。有效合理地近似EM距离，最小化EM距离。并理论上显示对应的优化问题可靠。
第44节，经验上显示WGANs解决了GANs主要的训练问题。特别地，（i）训练WGANs不要求小心平衡生成器和判别器的训练；（ii）不要求小心设计网络结构；（iii）显著减少GANs中典型的模式减少（mode dropping）现象；（iv）训练判别器至最优来连续估计EM距离；（v）绘制学习曲线有助调试和超参数搜索，并与观测到的图像质量紧密关联。

2. 不同的距离

标记介绍。令XX为紧度量集（如图像空间[0,1]d[0,1]d）101，并令ΣΣ为XX所有Borel子集的集合。令Prob(X)Prob(X)为定义在XX上的概率度量空间。

样本方差不为00，所以为Borel子集 102 。

定义22个分布Pr,Pg∈Prob(X)Pr,Pg∈Prob(X)间基本的距离和散度：

全变差（Total Variation，TV）距离
σ(Pr,Pg)=supA∈Σ|Pr(A)−Pg(A)|.σ(Pr,Pg)=supA∈Σ|Pr(A)−Pg(A)|.
Kullback-Leibler（KL）距离 103
KL(Pr||Pg)=∫log(Pr(x)Pg(x))Pr(x)dμ(x),KL(Pr||Pg)=∫log(Pr(x)Pg(x))Pr(x)dμ(x),

其中，假设PrPr和PgPg绝对连续，关于定义在XX上用相同的度量μμ输出密度。KL散度不对称，且当存在点使Pg(x)=0且Pr(x)>0Pg(x)=0且Pr(x)>0时，KL散度可能为无穷大。

概率分布Pr∈Prob(X)Pr∈Prob(X)输出关于μμ的概率密度pr(x)pr(x)，即，∀A∈Σ,Pr(A)=∫APr(x)dμ(x)∀A∈Σ,Pr(A)=∫APr(x)dμ(x)，当且仅当Pr(x)Pr(x)关于μμ绝对连续，即，∀A∈Σ,μ(A)=0→Pr(A)=0∀A∈Σ,μ(A)=0→Pr(A)=0。

Jensen-Shannon（JS）距离

JS(Pr,Pg)=12KL(Pr||Pm)+12KL(Pg||Pm),JS(Pr,Pg)=12KL(Pr||Pm)+12KL(Pg||Pm),

其中，Pm=Pr+Pg2Pm=Pr+Pg2。JS散度对称，且可选μ=Pmμ=Pm，此时JS散度总有定义（defined）。
推土机（Earth-Mover，EM）距离

W(Pr,Pg)=infγ∈∏(Pr,Pg)E(x,y)∼γ[||x−y||],(1)W(Pr,Pg)=infγ∈∏(Pr,Pg)E(x,y)∼γ[||x−y||],(1)

其中，∏(Pr,Pg)∏(Pr,Pg)为所有联合分布γ(x,y)γ(x,y)的集合，它的边缘分布分别为PrPr和PgPg。直观上看，γ(x,y)γ(x,y)表明：为转移分布PrPr至分布PgPg，必须从xx到yy来转移多少“质量”。那么，EM距离为最优传输计划（optimal transport plan）的“代价”。

EM距离求下确界，即至少要转移多少“质量”。所以，原文中，作者用“must”描述。

后面举例说明用EM距离来收敛概率分布序列多简单，但上面定义的其它距离和散度无法收敛。

例1 （学习平行线）。令Z∼U[0,1]Z∼U[0,1]（单位区间上的均匀分布）。令P0P0为(0,Z)∈R2(0,Z)∈R2的分布（xx轴上为00，yy轴上为随机变量ZZ，经过原点的垂直线段上的均匀分布）。令gθ(z)=(θ,z),θgθ(z)=(θ,z),θ为单个实参数。此时有：

W(P0,Pθ)=|θ|,W(P0,Pθ)=|θ|,
JS(P0,Pθ)={log2,if θ≠0,0,if θ=0,JS(P0,Pθ)={log2,if θ≠0,0,if θ=0,
KL(Pθ||P0)=KL(P0||Pθ)={+∞,if θ≠0,0,if θ=0,KL(Pθ||P0)=KL(P0||Pθ)={+∞,if θ≠0,0,if θ=0,
σ(P0||Pθ)={1,if θ≠0,0,if θ=0.σ(P0||Pθ)={1,if θ≠0,0,if θ=0.

已知：P0={1,if x=0,0≤y≤1,0,otherwise.P0={1,if x=0,0≤y≤1,0,otherwise., Pθ={1,if x=θ,0≤y≤1,0,otherwise.Pθ={1,if x=θ,0≤y≤1,0,otherwise.
θ≠0θ≠0时，
KL(P0||Pθ)=∑x,y∈R2P0(x,y)logP0(x,y)−∑x,y∈R2P0(x,y)logPθ(x,y)=0log0+1log1−(1log0+0log1)=0+0−(−∞)+0=+∞=KL(Pθ||P0)KL(P0||Pθ)=∑x,y∈R2P0(x,y)logP0(x,y)−∑x,y∈R2P0(x,y)logPθ(x,y)=0log0+1log1−(1log0+0log1)=0+0−(−∞)+0=+∞=KL(Pθ||P0)
θ=0θ=0时，
KL(P0||Pθ)=KL(P0||P0)=0log0+1log1=0KL(P0||Pθ)=KL(P0||P0)=0log0+1log1=0

已知：Pm=Pr+Pg2=⎧⎩⎨0.5,if x=0,0≤y≤1,0.5,if x=θ,0≤y≤1,0,otherwise.Pm=Pr+Pg2={0.5,if x=0,0≤y≤1,0.5,if x=θ,0≤y≤1,0,otherwise.，JS(P0||Pθ)=12KL(P0||Pm)+12KL(Pθ||Pm)JS(P0||Pθ)=12KL(P0||Pm)+12KL(Pθ||Pm)
θ≠0θ≠0时，
KL(P0||Pm)=0log0+1log1−(1log0.5+0log0.5+0log0)=log2=KL(Pθ||Pm)→JS(P0||Pθ)=log2KL(P0||Pm)=0log0+1log1−(1log0.5+0log0.5+0log0)=log2=KL(Pθ||Pm)→JS(P0||Pθ)=log2
θ=0θ=0时，
KL(P0||Pm)=KL(P0||P0)=0→JS(P0||Pθ)=0KL(P0||Pm)=KL(P0||P0)=0→JS(P0||Pθ)=0

本例的两条线段相距θ，||x−y||≡θ→θ，||x−y||≡θ→ 两条线段间距离的期望的下确界为θθ。

P0P0和PθPθ表示概率分布，范围为[0,1]→|P0−Pθ|[0,1]→|P0−Pθ|的上确界为11（θ≠0θ≠0时）或00（θ=0θ=0时）。

当θ→0θ→0时，EM距离使序列(Pθt)t∈N(Pθt)t∈N收敛至P0P0，但用JS，KL，逆KL或TV散度时不会收敛。图11为EM距离和JS距离。

例11说明EM距离上梯度下降可学到低维流形上的概率分布。不可用其它距离，因它们的损失函数甚至不连续。即使该例基于不相交支集的分布，当支集非空但包含00测度集时，结论同样成立。当22个低维以任意位置相交时 [1]，碰巧也成立。
因Wasserstein距离比JS距离更弱，问题变成：温和假设下，W(Pr,Pθ)W(Pr,Pθ)是否为关于θθ的连续损失函数。

定理 1. 令PrPr为XX上的固定分布。令ZZ为另11个空间ZZ上的随机变量（如：高斯分布空间）。令g:Z×Rd→Xg:Z×Rd→X为11个函数。用zz作第11个坐标，θθ作第22个坐标来表示gθ(z)gθ(z)。令PθPθ为gθ(z)gθ(z)的分布。那么，
1. 若gg在θθ上连续，W(Pr,Pθ)W(Pr,Pθ)在θθ上也连续。
2. 若gg为局部Lipschitz，并满足规则假设11，则W(Pr,Pθ)W(Pr,Pθ)处处连续，几乎处处可微。
3. 对JS散度和所有KL散度，声明1−21−2为假。

证明见附录CC。

后面推论告诉我们：用神经网络来最小化EM距离（至少理论上）可行。

推论 1. 令gθgθ为任意用θθ参数化的前向神经网络，且p(z)p(z)为zz上的先验，使得Ez∼p(z)[||z||]<∞Ez∼p(z)[||z||]<∞（如，高斯分布，均匀分布等）。则满足假设11，因此，W(Pr,Pθ)W(Pr,Pθ)处处连续，几乎处处可微。

证明见附录CC。

所有这些说明：对我们的问题，至少与JS散度相比，EM距离作损失函数更合理。后面定理描述这些距离和散度引入拓扑的相对强度：KL最强，紧随JS和TV，EM最弱。

推论 2. 令PP为紧空间XX上的分布，且(Pn)n∈N(Pn)n∈N为XX上的分布序列。那么，当n→0n→0时，考虑所有的限制，
1. 下面声明等价
- σ(Pn,P)→0σ(Pn,P)→0，σσ为全变差距离；
- JS(Pn,P)→0JS(Pn,P)→0，JSJS为Jensen-Shannon散度。
2. 下面声明等价
- W(Pn,P)→0W(Pn,P)→0；
- Pn⟶DPPn⟶DP，其中，⟶D⟶D表示关于随机变量的分布的收敛。
3. KL(Pn||P)→0KL(Pn||P)→0或KL(P||Pn)→0KL(P||Pn)→0隐含（imply）声明(1)(1)。
4. 声明(1)(1)隐含声明(2)(2)。

证明见附录CC。

这里强调的事实：学习低维流形支撑的分布时，KL，JS和TV距离为不合理的损失函数。但此时EM距离却合理：

EM距离可使概率序列收敛至真实数据的概率分布，其它距离不可收敛；
EM距离的损失函数连续，可用梯度下降学习低维流形上的概率分布；其它距离的损失函数不连续；
EM距离引入的拓扑相对强度最弱。

3. Wasserstein GAN

定理22指出，W(Pr,Pθ)W(Pr,Pθ)可能比JS(Pr,Pθ)JS(Pr,Pθ)有更好的属性。(1)(1)中的下确界很难解。
另一方面，由Kantorovich-Rubinstein二重性（duality） [21] 知

W(Pr,Pθ)=sup||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)](2)W(Pr,Pθ)=sup||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)](2)

其中，上确界覆盖所有11-Lipschitz函数f:X→Rf:X→R。注意到，若替换||f||L≤1||f||L≤1为||f||L≤K||f||L≤K（考虑常数KKde KK-Lipschitz），则EM距离变为K⋅W(Pr,Pθ)K⋅W(Pr,Pθ)。因此，若有参函数簇{fw}w∈W{fw}w∈W，对某些KK，参函数都为KK-Lipschitz，考虑求解：

maxw∈WEx∼Pr[fw(x)]−Ez∼p(z)[fw(gθ(z))](3)maxw∈WEx∼Pr[fw(x)]−Ez∼p(z)[fw(gθ(z))](3)

且对某些w∈Ww∈W（类似证明估计器一致性时的假设的一强假设），当获得(2)(2)中的上确界时，求解过程计算出的W(Pr,Pθ)W(Pr,Pθ)能达到乘常数KK。进一步，考虑估计Ez∼p(z)[∇θfw(gθ(z))]Ez∼p(z)[∇θfw(gθ(z))]反传方程(2)(2)来求导W(Pr,Pθ)W(Pr,Pθ)。虽这全是直觉，现在证明最优假设下该过程是有原则的（principled）。

定理 3. 令PrPr为任意分布。令PθPθ为gθ(Z)gθ(Z)的分布（ZZ为随机变量，该分布的概率密度为pp，gθgθ为满足假设11的函数）。那么，对问题

max||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)]max||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)]

存在解f:X→Rf:X→R，当PrPr和PθPθ都为良定时，有：

∇θW(Pr,Pθ)=−Ez∼p(z)[∇θf(gθ(z))]∇θW(Pr,Pθ)=−Ez∼p(z)[∇θf(gθ(z))]

证明见附录CC。

接着，最大化方程(2)(2)来找函数ff。为近似求解ff，用紧空间XX中的权重ww来参数化一神经网络，训练该网络。然后，同典型的GAN，用Ez∼p(z)[∇θfw(gθ(z))]Ez∼p(z)[∇θfw(gθ(z))]反传。注意到WW紧致，则对某些仅取决WW（而非个别网络权重）的KK，所有函数fwfw将为KK-Lipschitz。因此，近似(2)(2)至一无关的缩放因子和“评价者”（critic）fwfw的容量。为使参数ww落入紧空间，每次梯度更新后夹紧权重至固定的范围即可（假设W=[−0.01,0.01]lW=[−0.01,0.01]l）。方法11描述Wasserstein生成对抗网络（WGAN）过程。

注：“评价者”和“判别器”应是一回事，我更习惯用GAN框架来说明，所以后面统一用“判别器”替换“评价者”。原作者用两个不同的词，考虑到后面比较GAN判别器（判别器）和WGAN判别器（评价者）时便于说明。所以，这里，WGAN与GAN比较时，将“评价者”替换为“WGAN判别器”；无比较时，仍用“判别器”。
θθ为生成网络的参数，决定生成模型的分布与真实数据分布的距离；ww为判别网络的参数，最大化EM距离损失函数来获得最优判别网络的参数。

EM距离处处连续，且几乎处处可微，所以应该能训练判别器至最优。参数简单，训练判别器的时间越长，得到的EM距离的梯度越可靠。

判别器越好，JS散度的梯度越可靠。但会因JS散度局部饱和，真实梯度为00，梯度消失，见图11和 [1] 中定理2.42.4。

图22中，为证明这点，训练GAN判别器和WGAN判别器至最优。GAN判别器很快学会区分真伪数据，同期望一样，并未提供可靠的梯度信息。然而，WGAN判别器不饱和，收敛至线性函数并处处给出很明确的梯度；约束梯度限制了函数，使其可能在空间不同部分至多线性增长。

训练WGAN判别器至最优不会破坏（collapse）模式。固定判别器来找最优生成器是指使判别器输出最大值的点上变量增量的和 [11]。

后面介绍新方法的实际效益，深入比较WGAN与传统GAN。

4. 经验结果

用Wasserstein-GAN方法生成图像，相比标准GANs，有显著的实际效益，主要有两点：

有意义的损失度量：关联生成器的收敛性和样本质量；
优化过程更稳定。

4.1 实验过程

生成图像实验。真实数据分布为LSUN-卧室数据集 [23] - 室内卧室自然图像的集合。基线比较为DCGAN，DCGAN用−logD−logD，标准的GAN过程训练一卷积网络结构的GAN。生成样本为分辨率64×6464×64的33通道图像。

4.2 有意义的损失度量

因每次生成器更新前（方法11的行1010），WGAN试图训练出相对较好的WGAN判别器ff（方法11的行2−82−8），此时损失函数为估计EM距离，上界为某常数，该常数与我们约束ff的Lipschitz常数有关。

实验11表明估计EM距离与生成样本密切相关。除卷积的DCGAN结构，用44层ReLU-MLP（每层包含512512个隐含单元）只替换生成器或同时替换生成器和判别器来运行实验。

图33为33种结构的WGAN训练时，估计的EM距离的变化。该图清楚显示，曲线与生成样本的视觉质量密切相关。

然而，还不能定量评估生成模型。常数缩放因子取决于WGAN判别器的结构，所以，不同的WGAN判别器模型间难以比较。甚至，实际上判别器容量有限，所以，难以了解真实的EM距离与估计的EM距离多接近。可话说回来，用该损失度量重复且成功验证了实验，相比之前GAN的训练能力有巨大的提高。

相反，图44为GAN训练时，估计的JS散度的变化。更确切地，GAN训练时，训练判别器来最大化：

L(D,gθ)=Ex∼Pr[logD(x)]+Ex∼Pθ[log(1−D(x))]L(D,gθ)=Ex∼Pr[logD(x)]+Ex∼Pθ[log(1−D(x))]

注：x∼Prx∼Pr时，xx为真实样本，希望D(x)↑D(x)↑；x∼Pθx∼Pθ时，xx为生成样本，希望D(x)↓D(x)↓。

其中，L(D,gθ)L(D,gθ)的下界为2JS(Pr,Pθ)−2log22JS(Pr,Pθ)−2log2。图中，值12L(D,gθ)+log212L(D,gθ)+log2为JS距离的下界。

JS距离的下界与样本质量关系很差。估计的JS距离通常保持不变或上升（而非下降）。实际上，JS估计值常保持为接近log2≈0.69log2≈0.69（JS距离的最大值）。换句话说，JS距离饱和，GAN判别器损失为00，某些情况下（DCGAN生成器，右上图）生成样本有意义，其它情况下被破坏为无意义图像。该现象的理论解释见 [1]，强调见 [11]。

用−logD−logD时，判别器损失与生成器损失不同。附录的图88绘制相同的图，但用生成器损失（而非判别器损失）。结论不变。

负面结果：当对WGAN判别器用基于动量的优化方法（如Adam）或用很高的学习率时，训练WGAN会偶尔不稳定。因WGAN判别器的损失并非稳态，基于动量的方法可能会表现更糟。因损失爆炸和生成样本变差时，Adam步与梯度的余弦角变为负值，所以动量可能为潜在的原因。训练不稳定时，余弦角必为负值。很不平稳时，改用RMSProp效果不错。

4.3 改善稳定性

可训练WGAN判别器至最优。训练判别器时，仅需为生成器提供训练其它网络时所用到的损失。不再需合理均衡生成器和判别器的容量。判别器越好，训练生成器所用梯度的质量越高。

改变生成器的结构时，WGAN比其它GANs更鲁棒。为此，33个不同的生成器结构上运行实验：（1）卷积DCGAN生成器；（2）卷积DCGAN生成器，不带块归一化，滤波器数目不变；（3）512512个隐含单元组成的44层ReLU-MLP。后面22中用GANs表现很差。所以，为WGAN判别器和GAN判别器保留卷积DCGAN结构。
图55，图66和图77显示用到WGAN和GAN时，33种结构生成的样本。整页的生成样本见附录FF。样本未经优选。

实验中，从未见过用WGAN时模式被破坏。

5. 相关工作

积分概率度量（Integral Probability Metric，IPMs）上有很多工作。给定从XX到RR的函数集合，定义

dF(Pr,Pθ)=supf∈FEx∼Pr[f(x)]−Ex∼Pθ[f(x)](4)dF(Pr,Pθ)=supf∈FEx∼Pr[f(x)]−Ex∼Pθ[f(x)](4)

为关联函数类FF的积分概率度量。易证对任意f∈Ff∈F，有−f∈F−f∈F，则dFdF为非负，满足三角不等式，且对称。因此，dFdF为Prob(X)Prob(X)的伪距离。
IPMs可能公式相似，但不同的函数类会得到完全不同度量。

由Kantorovich-Rubinstein对偶可知，当FF为1−Lipschitz1−Lipschitz函数集合时，W(Pr,Pθ)=dF(Pr,Pθ)W(Pr,Pθ)=dF(Pr,Pθ)。进一步，若FF为K−LipschitzK−Lipschitz函数，则K⋅W(Pr,Pθ)=dF(Pr,Pθ)K⋅W(Pr,Pθ)=dF(Pr,Pθ)。
当FF为所有−1−1到11之间的可测量函数（或所有[−1,1][−1,1]上的连续函数）时，恢复为全变差距离：dF(Pr,Pθ)=σ(Pr,Pθ)dF(Pr,Pθ)=σ(Pr,Pθ) [14]。这告诉我们损失函数从1−Lipschitz1−Lipschitz函数变至1−1−有界函数，大大改变了空间的拓扑和dF(Pr,Pθ)dF(Pr,Pθ)的正则性（regularity）（见定理11和定理22）。
-可认为基于能量的GANs（EBGANs）是用全变差距离的生成方法。附录DD中声明和进一步证明这一关联,关键为判别器作为函数ff来最大化方程44，唯一的限制是对常数mm，函数输出约束在[0,m][0,m]。取决于无关优化的常数缩放因子，同样可约束至[−1,1][−1,1]。因此，当判别器接近最优时，生成器的代价将逼近全变差距离σ(Pr,Pθ)σ(Pr,Pθ)。
因全变差距离与JS散度的正则性相似，可看出，无论是否能训练判别器至最优，EBGANs与经典的GANs问题相同，因此它的梯度也很不完美。
当F={f∈H:||f||inf≤1}F={f∈H:||f||inf≤1}（其中，HH为关联给定核kk的再生核Hilbert空间（Reproducing Kernel Hilbert Space，RKHS），核kk：X×X→RX×X→R）时，最大均值矛盾（Maximum Mean Discrepancy，MMD）[5] 为积分概率度量的特殊情况。如 [5] 中所证，MMD只是个合适的度量，且当核通用时不仅是伪度量。具体地，当H=L2(X,m)H=L2(X,m)时，XX上用归一化Lebesgue度量FF，可知FF中包含{f∈Cb(x),||f||∞≤1}{f∈Cb(x),||f||∞≤1}，因此dF(Pr,Pθ)≤σ(Pr,Pθ)dF(Pr,Pθ)≤σ(Pr,Pθ)。所以，以MMD距离为损失函数的正则性与全变差距离的正则性同样差。然而这是非常极端的例子，因为需要很强大的核来近似L2L2。但即使高斯核也仅能检测微小的噪声模式 [19]。尤其当使用低带宽的核时，距离可能接近类似全变差距离或JS距离的饱和方法。显然不需要每个核都如此，弄清不同MMDs如何及哪些更接近Wasserstein距离或全变差距离也很有趣。
MMD的优势为用核方法后无需为RKHS球空间来训练单独的网络来最大化方程(4)(4)。然而，MMD的劣势为计算代价随用于估计(4)(4)中期望的样本数目二次增长；MMD可伸缩性有限，因此无法用于许多现实应用。线性计算代价估计ＭＭＤ距离大多时候会很有用，但样本复杂度太高。
生成矩匹配网络（Generative Moment Match Nework，GMMD）类似MMD。反传方程(4)(4)的核化形式，直接优化dMMD(Pr,Pθ)dMMD(Pr,Pθ)（当FF为前面项时的IPM，见P12）。如前所述，不要求单独的网络来近似最大化方程(4)(4)。然而，GMMNs应用有限，部分原因是样本数目的函数为二次代价，用低带宽核时梯度会消失。并且实际用到的一些核不适合如自然图像等高维样本空间中获得的距离非常差。[18]　中表明，为让典型的高斯MMD测试可靠，需样本数目与维度数目线性增长。估计方程(4)(4)中时用的块，MMD的计算代价与样本数目二次增长。有可靠的估计器的代价与维度数目二次增长，不适用高维问题。如64×6464×64大小的标准图像，所需小块的大小至少40964096（不考虑　[18]　边界中的常数，使样本数目更多）,且每次迭代的总代价为4096240962。当用标准的块大小64×6464×64时，比11次GAN迭代多55个数量级。
话虽如此，比较MMDs的理论样本复杂度和GANs的经验样本复杂度时（一般会更高），对MMD不公平。然而，原GMMN文章中用到的小块大小为10001000，远大于标准的3232或6464（即使出现二次计算代价时）。尽管存在线性计算代价作样本数目的函数，样本复杂度仍更高。就我们所知，生成领域尚未应用GMMNs。

6. 结论

介绍WGAN，可替换传统GAN的训练。新模型中，提高了学习的稳定性，克服了模式被破坏等问题，并提供方便调试和超参数搜索的学习曲线。进一步，显示对应的优化问题合理，并为分布间其它距离的深入关联提供理论工作。

全文未经他人校正，如有问题欢迎指出。

7. 小记

并不是数学出身，但后面的证明还是看了。考虑到最近贼忙以及附录部分的编辑量，所以先忘了它吧… 但附录部分如有问题欢迎讨论。嗯，共同进步… ٩(๑òωó๑)۶

DeepSeek--通向通用人工智能的深度探索者油泼辣子多加专业名词解释人工智能
一、词源与全称“DeepSeek"由"Deep”（深度）与"Seek"（探索）组合而成，中文译名为"深度求索"。其全称为"深度求索人工智能基础技术研究有限公司"，英文对应"DeepSeekArtificialIntelligenceResearchInstitute"。这一命名体现了企业对深度学习技术与未知领域持续探索的双重追求。二、发展历程初创期（2023）公司成立于中国杭州，创始团队汇聚了来自
linux git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案 herosunly C/C++/Linux解决方案 linux git github timeout port 443
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了linuxgitclone出现fatal:unabletoaccessF
人脸识别的经典深度学习方法明初啥都能学会深度学习人工智能
人脸识别的经典深度学习方法引言1.卷积神经网络（CNN）1.1LeNet1.2AlexNet1.3VGGNet1.4ResNet2.人脸检测2.1Viola-Jones算法2.2基于深度学习的人脸检测3.人脸特征提取3.1主成分分析（PCA）3.2人脸对齐3.2.1基于特征点的对齐3.2.2基于深度学习的对齐4.人脸识别模型4.1传统机器学习方法4.2基于深度学习的方法5.公式解读5.1卷积运算5
基于深度学习的遥感目标检测系统：UI界面、R-CNN模型与数据集准备 2025年数学建模美赛 R-CNN检测系统人工智能深度学习 r语言 cnn python ui 目标检测
一、引言遥感图像中的目标检测在很多领域，如环境监测、土地利用、城市规划、农业资源监测等方面有着广泛应用。遥感图像具有高分辨率和丰富的空间信息，但同时也带来了目标检测中的许多挑战，特别是在目标尺度变化、遮挡和复杂背景的情况下。因此，采用深度学习技术，尤其是卷积神经网络（CNN）和区域卷积神经网络（R-CNN），在遥感图像目标检测中取得了显著的成果。本文将详细介绍基于深度学习的遥感目标检测系统，使用R
Kaggle房价预测一名小菜鸟的学习之路深度学习pytorch 深度学习机器学习 python 人工智能神经网络
Kaggle房价预测作为深度学习基础篇章的总结，我们将对本章内容学以致用。下面，让我们动手实战一个Kaggle比赛：房价预测。本节将提供未经调优的数据的预处理、模型的设计和超参数的选择。我们希望读者通过动手操作、仔细观察实验现象、认真分析实验结果并不断调整方法，得到令自己满意的结果。%matplotlibinlineimporttorchimporttorch.nnasnnimportnumpya
C++ 与机器学习：构建高效推理引擎的秘诀 salsm C++编程魔法师 c++机器学习开发语言
随着深度学习模型逐渐从研究走向生产环境，推理能力成为部署中的关键环节。模型的推理引擎需要以极低的延迟快速处理输入数据，同时最大化地利用硬件资源。虽然Python被广泛用于模型的训练和开发，但C++却在推理领域独占鳌头，其性能优势和硬件控制能力无可替代。在这篇文章中，我们将从为什么选择C++、构建高效推理引擎的细节，以及相似的开源项目三个方面深入探讨如何利用C++打造高效的机器学习推理引擎。目录为什
《动手学深度学习》(PyTorch版) chaser&upper 深度学习 pytorch 深度学习 python
《动手学深度学习》PyTorch版前言简介面向人群食用方法方法一方法二方法三目录原书地址引用阅读指南前言读书啦！！！本项目将《动手学深度学习》原书中MXNet代码实现改为PyTorch实现。原书作者：阿斯顿·张、李沐、扎卡里C.立顿、亚历山大J.斯莫拉以及其他社区贡献者，GitHub地址：https://github.com/d2l-ai/d2l-zh此书的中英版本存在一些不同，针对此书英文版的P
从简单到深刻的认知发展 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知发展，人工智能，深度学习，神经网络，机器学习，自然语言处理，计算机视觉1.背景介绍认知发展是人类从简单到复杂的思维方式演进的过程，它涉及感知、记忆、语言、推理和决策等多个方面。随着人工智能技术的飞速发展，我们开始尝试用计算机模拟人类的认知能力，构建能够学习、理解和解决复杂问题的智能系统。从早期的符号逻辑到如今的深度学习，人工智能的发展经历了多个阶段。早期的人工智能研究主要集中在规则和逻辑推理上
使用onnxruntime-web 运行yolov8-nano推理 CHEN_RUI_2200 机器学习 YOLO
ONNX（OpenNeuralNetworkExchange）模型具有以下两个特点促成了我们可以使用onnxruntime-web直接在web端上运行推理模型，为了让这个推理更直观，我选择了试验下yolov8识别预览图片：1.跨平台兼容性ONNX是一种开放的格式，可以在不同的深度学习框架之间共享模型，如PyTorch、TensorFlow、MXNet和Caffe2。这使得用户可以在一个框架中训练模
人工智能学习框架：深入解析与实战指南一ge科研小菜鸡人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着人工智能（AI）技术的飞速发展，深度学习、强化学习和自然语言处理等领域的应用愈加广泛。掌握人工智能学习框架（如TensorFlow、PyTorch、Keras等）已成为开发智能系统、研究前沿技术的必备技能。本指南将全面介绍人工智能主流学习框架的特点、安装方法、核心功能，以及通过实践案例展示如何使用这些框架进行AI模型开发、训练与优化。1.
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，深度学习作为其主要驱动力之一，已经在各个领域取得了显著的成果。然而，随着模型规模的不断扩大，如何高效地搭建、训练和部署深度学习模型，成为一个亟待解决的问题。传统的单机训练方式在计算资源有限的情况
# 第一章：认识chatgpt 出门喝奶茶 chatgpt chatgpt
chatgpt发展背景详细介绍一、基础理论背景人工智能和自然语言处理的兴起早期理论:20世纪中期，人工智能（AI）初见端倪，目标是模拟人类智能。自然语言处理作为AI的重要分支，致力于让机器理解和生成人类语言。关键里程碑:1980年代的统计方法和2000年代的神经网络技术，使NLP实现了从规则驱动到数据驱动的转变。神经网络与深度学习2010年代，深度学习的兴起极大推动了NLP的发展。基于大规模语料库
机器学习&深度学习目录 UQI-LIUWJ 各专栏目录深度学习人工智能 1024程序员节
机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
遥感深度学习过程中图像分割的尺寸对模型训练结果的影响司南锤深度学习遥感深度学习人工智能
1.计算资源与显存占用大尺寸图像：需要更高的显存和计算资源，可能限制训练时的批大小（batchsize），甚至导致无法训练。解决方案：通常将大图裁剪为小尺寸的补丁（patches），例如256x256或512x512。小尺寸图像：显存占用低，但可能丢失全局上下文信息（如大面积地物分布），影响模型对复杂场景的理解。2.模型感受野与上下文信息小尺寸输入：模型感受野受限，可能无法捕捉大范围地物（如河流、
#深度学习：从基础到实践 single_ffish 深度学习 gpt 神经网络生成对抗网络 1024程序员节
深度学习是人工智能领域近年来最为火热的技术之一。它通过构建由多个隐藏层组成的神经网络模型，能够从海量数据中自动学习特征和表征,在图像识别、自然语言处理、语音识别等领域取得了突破性进展。本文将全面介绍深度学习的基础知识、主要算法和实践应用,帮助您快速掌握这一前沿技术。1.深度学习的基础1.1人工神经网络深度学习是基于人工神经网络(ArtificialNeuralNetwork,ANN)的一种机器学习
【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析 985小水博一枚呀深度学习地学应用深度学习人工智能
【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析文章目录【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析前言一、使用高分6号遥感影像结合深度学习对梦柯冰川的研究方向1.冰川边界自动化提取2.冰川变化动态监测3.冰川分类与分布特征分析二、梦柯冰川（MunkuGlacier）的
基于R-CNN深度学习的无人机目标检测系统：数据集、模型和UI界面的完整实现 2025年数学建模美赛 R-CNN检测系统深度学习 cnn 无人机计算机视觉目标检测人工智能
摘要随着无人机技术的迅猛发展，无人机在军事、农业、环境监测等多个领域的应用日益广泛。无人机目标检测系统的建设成为提升无人机自主飞行和环境感知能力的重要环节。本文将详细介绍如何构建一个基于深度学习的无人机目标检测系统，采用R-CNN（区域卷积神经网络）算法，通过用户界面设计和数据集处理，实现高效的目标检测功能。通过本项目，旨在为无人机目标检测提供一种可行的解决方案，并提高其在复杂环境下的工作效率。目
【Python】已解决：error: subprocess-exited-with-error 屿小夏 python 开发语言 linux
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
AI在电商平台商品描述生成中的应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI在电商平台商品描述生成中的应用关键词：人工智能、电商平台、商品描述、自然语言处理、机器学习、深度学习摘要：本文深入探讨了人工智能在电商平台商品描述生成中的应用。首先，我们回顾了人工智能的概述和电商平台的发展背景。随后，分析了商品描述在电商平台中的重要性以及存在的问题。接下来，我们重点介绍了AI在商品描述生成中的应用技术，包括自然语言处理、机器学习和深度学习等。文章还通过实战案例展示了AI商品描
【Python】已解决：（cmd进入Python环境报错）No Python at ‘C:\Users…\Python\Python39\python.exe’ 屿小夏 python linux 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习之基于Django+YOLOv5商标识别 Q1744828575 python plotly python
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在数字化时代，商标作为企业的重要资产，其保护和管理显得尤为重要。然而，传统的商标识别方法往往依赖于人工审查，效率低下且容易出错。随着深度学习技术的不断发展，尤其是目标检测领域的进步，自动化、高精度的商标识别成为可能。本项目旨在利用DjangoWeb框架和YOLO
动手学深度学习-卷积神经网络-3填充和步幅像污秽一样动手学深度学习深度学习 cnn 人工智能神经网络
目录填充步幅小结在上一节的例子（下图）中，输入的高度和宽度都为3，卷积核的高度和宽度都为2，生成的输出表征的维数为2×2。正如我们在上一节中所概括的那样，假设输入形状为nh×nw，卷积核形状为kh×kw，那么输出形状将是(nh−kh+1)×(nw−kw+1)。因此，卷积的输出形状取决于输入形状和卷积核的形状。还有什么因素会影响输出的大小呢？本节我们将介绍填充（padding）和步幅（stride）
RTX 4090D和A10和T4显卡差别、价格对比张3蜂软件安装部署开源神经网络人工智能深度学习机器学习
RTX4090D、NVIDIAA10和NVIDIAT4三款显卡在设计用途、性能、功耗、价格等方面都有显著差异，以下是它们的主要区别：1.设计用途：RTX4090D:面向高端消费者市场，主要用于游戏、内容创作和3D渲染，适合需要高图形性能的用户，如游戏玩家和内容创作者。NVIDIAA10:专为数据中心和企业应用设计，优化了AI推理、深度学习、虚拟桌面基础设施(VDI)以及多实例GPU（多用户共享显卡
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
非凸科技招聘来啦！技术岗及非技术岗由你选！欢迎大家加入！招聘
公司介绍：非凸科技成立于2018年，是国内领先的智能算法和交易系统服务公司，专注于智能算法交易领域的研究和开发。公司特点：投研团队来自华尔街顶级资管公司BlackRock等，以及多位来自腾讯、字节跳动的顶尖工程师；在职员工100+，投研和技术团队占总人数比例75%，多位成员是ACM/ICPCWorldFinal选手；公司司正基于Rust生态，结合机器学习、深度学习等新兴技术，打造高效率、低延迟、高
深度学习-70-大语言模型LLM之基于大模型LLM与检索增强技术RAG的智能知识库皮皮冰燃深度学习人工智能深度学习语言模型
文章目录1RAG出现的背景2搭建过程2.1数据收集2.2数据处理2.2.1数据清洗与预处理2.2.2文本分块2.2.3微调数据格式统一2.3建立向量索引2.4大模型选择与微调3开源知识库项目3.1FastGPT3.2AnythingLLM3.3LangChain-Chatchat4商业化解决方案4.1百度智能云+千帆大模型知识库4.2阿里云PAI+向量检索5参考附录1RAG出现的背景自从2022年
transformer.js（一）：这个前端大模型运行框架的可运行环境、使用方式、代码示例以及适合与不适合的场景余生H 前端的AI工具书前端 transformer javascript hugginface webml web大模型
随着大模型的广泛应用，越来越多的开发者希望在前端直接运行机器学习模型，从而减少对后端的依赖，并提升用户体验。Transformer.js是一个专为前端环境设计的框架，它支持运行基于Transformer架构的深度学习模型，尤其是像BERT、GPT等广泛应用于自然语言处理（NLP）的模型。本文将全面解析Transformer.js的运行环境、使用方式、代码示例，以及其能够完成的功能与目前的限制，帮助
Python magenta库：一款人工智能生成音乐与艺术的创新工具程序员喵哥 python 人工智能开发语言
更多Python学习内容：ipengtao.com随着人工智能在创意领域的不断进步，音乐和艺术生成正成为一种新的可能性。Magenta是由Google推出的一个开源项目，它结合了深度学习与艺术创作，为开发者提供了一系列强大的工具，帮助他们创作音乐、绘画等艺术作品。基于TensorFlow，Magenta不仅适用于研究人员，也适合开发者和艺术家，提供了易于上手的API和丰富的模型。安装在使用Mage
Python&aconda系列：CUDA+Anaconda的安装以及 Conda实用命令坦笑&&life #python python conda 开发语言
这里写目录标题一.深度学习环境配置：CUDA+Anaconda的安装3.1.1CUDA简介3.1.2查看电脑显卡型号是否支持CUDA的安装3.1.3查看电脑显卡的驱动版本3.1.4根据显卡驱动版本下载支持的CUDA版本3.1.5检查CUDA是否安装成功3.1.6安装Anaconda3.1.7检查Anaconda是否安装成功3.1.8配置Anaconda的安装包下载源二.Conda实用命令conda
深度学习探索：ChatGPT数据分析精髓 & 梯度下降优化方法深度剖析网罗开发 AI 大模型人工智能深度学习 chatgpt 数据分析
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

Wasserstein GAN

1. 简介

2. 不同的距离

3. Wasserstein GAN

4. 经验结果

5. 相关工作

6. 结论

7. 小记

你可能感兴趣的:(深度学习)