灰巧克力爱松露

Wasserstein GAN

来自Martin Arjovsky 100 等人的“Wasserstein GAN”。

1. 简介

本文关心的问题为无监督学习问题。学习 1 个概率分布意味着什么？传统的回答：学习概率密度。常通过定义密度 (Pθ)θ∈Rd 的参数化（parameterized）簇，并找到最大化我们数据上似然的参数来完成：若有真实数据样本 {x(i)}mi=1 ，求解问题：

max θ \in R d 1 m \sum i = 1 m l o g P θ (x i)

真实数据的分布

Pr 给出概率密度，而

Pθ 为参数化的概率密度

Pθ ，那么， 学习概率密度渐近等于最小化Kullback-Leibler散度 KL(Pr||Pθ) 。
为使其有意义，需存在模型密度

Pθ 。但这并不是常见的处理低维流形支撑的模型流形，且意味着KL距离未被定义（或只是无穷大）。
一般可对模型分布添加噪声项来补救。所以， 经典机器学习文献中，几乎所有的生成模型都包括噪声项。最简单的情况：为覆盖所有样本，假设较高带宽的高斯噪声。众所周知，如图像生成模型，添加噪声会降低样本质量，并会模糊图像。如（最近的文章 [22]）：最大似然生成图像中每个像素时，对模型所添加噪声，噪声的最优标准差大约为

0.1 ，此时已归一化像素范围至

[0,1] 。 噪声巨大，以至于文章作者给出模型生成的样本时，未在似然上添加噪声项。换言之，图像生成问题上，添加噪声项显然不正确，但仍需用最大似然方法。

不再估计可能不存在的 Pr 密度，可定义有固定分布 p(z) 的随机变量 Z ，传入 1 个参函数（parametric function） gθ:Z→X （典型为一神经网络），参函数按确定的分布 Pθ 来直接生成样本。改变 θ ，使模型分布 Pθ 接近真实数据分布 Pr 。有两点好处：

该方法可表示受低维流形限制的分布；
易生成样本比了解密度的数值更有用（如图像超分辨率和语义分割中，给定输入图像，考虑输出图像的条件分布）。

总之，给定任意高维的密度，计算上难以生成样本 [15] 。

变分自编码器（VAEs） [9] 和生成的对抗网络（GANs）[4] 为参函数生成图像方法的范例。VAEs近似样本的似然，所以，受限标准模型，需耐心调整额外的噪声项；GANs定义目标函数（包括Jensen-Shannon [4]，所有 f 散度 [16] 及奇异的（exotic）合并 [6]）时更灵活，另一方面，众所周知，GANs的训练微妙且不稳定，原因见理论研究 [1]。

本文转而关注用不同的方法来度量模型分布接近真实分布的程度，或者说，定义距离或散度 ρ(Pθ,Pr) 。不同距离间主要区别是它们对概率分布序列收敛的影响。当且仅当存在分布 P∞ ，使 ρ(Pt,P∞) 趋于 0 时，分布 (Pt)t∈N 收敛，此时完全取决于距离 ρ 的定义。通俗地说，距离 ρ 引入更弱的拓扑，使分布序列更易收敛。第 2 节澄清概率距离在收敛上的不同。

当 ρ 下的收敛序列集为 ρ′ 下的收敛序列集的超集时， ρ 引入的拓扑弱于 ρ′ 引入的拓扑。

为优化参数 θ ，当然希望定义的模型分布 Pθ 可使映射 θ→Pθ 连续。连续性意味着当参数序列 θt 收敛至 θ 时，分布 Pθt 也收敛至分布 Pθ 。然而，分布序列 Pθt 收敛取决于如何计算分布间的距离。距离越弱，分布序列越易收敛，因此越易定义从 θ 空间到 Pθ 空间的连续映射。考虑映射 θ→Pθ 连续是因为：若 ρ 为两分布间的距离，希望损失函数 θ→ρ(Pθ,Pr) 连续，等价于使用分布 ρ 间的距离时，映射 θ→Pθ 连续。

本文的贡献有：

第 2 节，全面地理论分析学习分布时，相比流行的概率距离和散度，推土机距离（Earth Mover distance）的表现。
第 3 节，定义一种GAN，称其为Wasserstein-GAN。有效合理地近似EM距离，最小化EM距离。并理论上显示对应的优化问题可靠。
第 4 节，经验上显示WGANs解决了GANs主要的训练问题。特别地，（i）训练WGANs不要求小心平衡生成器和判别器的训练；（ii）不要求小心设计网络结构；（iii）显著减少GANs中典型的模式减少（mode dropping）现象；（iv）训练判别器至最优来连续估计EM距离；（v）绘制学习曲线有助调试和超参数搜索，并与观测到的图像质量紧密关联。

2. 不同的距离

标记介绍。令 X 为紧度量集（如图像空间 [0,1]d ）101，并令 Σ 为 X 所有Borel子集的集合。令 Prob(X) 为定义在 X 上的概率度量空间。

样本方差不为 0 ，所以为Borel子集 102 。

定义 2 个分布 Pr,Pg∈Prob(X) 间基本的距离和散度：

全变差（Total Variation，TV）距离
$σ (P r, P g) = sup A \in Σ | P r (A) - P g (A) | .$
Kullback-Leibler（KL）距离 103
$K L (P r | | P g) = \int l o g (P r ( x ) P g ( x )) P r (x) d μ (x),$

其中，假设 Pr 和 Pg 绝对连续，关于定义在 X 上用相同的度量 μ 输出密度。KL散度不对称，且当存在点使 Pg(x)=0且Pr(x)>0 时，KL散度可能为无穷大。

概率分布 Pr∈Prob(X) 输出关于 μ 的概率密度 pr(x) ，即， ∀A∈Σ,Pr(A)=∫APr(x)dμ(x) ，当且仅当 Pr(x) 关于 μ 绝对连续，即， ∀A∈Σ,μ(A)=0→Pr(A)=0 。

Jensen-Shannon（JS）距离

$J S (P r, P g) = 1 2 K L (P r | | P m) + 1 2 K L (P g | | P m),$
其中， Pm=Pr+Pg2 。JS散度对称，且可选 μ=Pm ，此时JS散度总有定义（defined）。
推土机（Earth-Mover，EM）距离

$W (P r, P g) = inf γ \in \prod (P r, P g) E (x, y) \sim γ [| | x - y | |], (1)$
其中， ∏(Pr,Pg) 为所有联合分布 γ(x,y) 的集合，它的边缘分布分别为 Pr 和 Pg 。直观上看， γ(x,y) 表明：为转移分布 Pr 至分布 Pg ，必须从 x 到 y 来转移多少“质量”。那么，EM距离为最优传输计划（optimal transport plan）的“代价”。

EM距离求下确界，即至少要转移多少“质量”。所以，原文中，作者用“must”描述。

后面举例说明用EM距离来收敛概率分布序列多简单，但上面定义的其它距离和散度无法收敛。

例1 （学习平行线）。令 Z∼U[0,1] （单位区间上的均匀分布）。令 P0 为 (0,Z)∈R2 的分布（ x 轴上为 0 ， y 轴上为随机变量 Z ，经过原点的垂直线段上的均匀分布）。令 gθ(z)=(θ,z),θ 为单个实参数。此时有：

W(P0,Pθ)=|θ|,
JS(P0,Pθ)={log2,if θ≠0,0,if θ=0,
KL(Pθ||P0)=KL(P0||Pθ)={+∞,if θ≠0,0,if θ=0,
σ(P0||Pθ)={1,if θ≠0,0,if θ=0.

已知： P0={1,if x=0,0≤y≤1,0,otherwise. , Pθ={1,if x=θ,0≤y≤1,0,otherwise.
θ≠0 时，
KL(P0||Pθ)=∑x,y∈R2P0(x,y)logP0(x,y)−∑x,y∈R2P0(x,y)logPθ(x,y)=0log0+1log1−(1log0+0log1)=0+0−(−∞)+0=+∞=KL(Pθ||P0)
θ=0 时，
KL(P0||Pθ)=KL(P0||P0)=0log0+1log1=0

已知： Pm=Pr+Pg2=⎧⎩⎨0.5,if x=0,0≤y≤1,0.5,if x=θ,0≤y≤1,0,otherwise. ， JS(P0||Pθ)=12KL(P0||Pm)+12KL(Pθ||Pm)
θ≠0 时，
KL(P0||Pm)=0log0+1log1−(1log0.5+0log0.5+0log0)=log2=KL(Pθ||Pm)→JS(P0||Pθ)=log2
θ=0 时，
KL(P0||Pm)=KL(P0||P0)=0→JS(P0||Pθ)=0

本例的两条线段相距 θ，||x−y||≡θ→ 两条线段间距离的期望的下确界为 θ 。

P0 和 Pθ 表示概率分布，范围为 [0,1]→|P0−Pθ| 的上确界为 1 （ θ≠0 时）或 0 （ θ=0 时）。

当 θ→0 时，EM距离使序列 (Pθt)t∈N 收敛至 P0 ，但用JS，KL，逆KL或TV散度时不会收敛。图 1 为EM距离和JS距离。

例 1 说明EM距离上梯度下降可学到低维流形上的概率分布。不可用其它距离，因它们的损失函数甚至不连续。即使该例基于不相交支集的分布，当支集非空但包含 0 测度集时，结论同样成立。当 2 个低维以任意位置相交时 [1]，碰巧也成立。
因Wasserstein距离比JS距离更弱，问题变成：温和假设下， W(Pr,Pθ) 是否为关于 θ 的连续损失函数。

定理 1. 令 Pr 为 X 上的固定分布。令 Z 为另 1 个空间 Z 上的随机变量（如：高斯分布空间）。令 g:Z×Rd→X 为 1 个函数。用 z 作第 1 个坐标， θ 作第 2 个坐标来表示 gθ(z) 。令 Pθ 为 gθ(z) 的分布。那么，
1. 若 g 在 θ 上连续， W(Pr,Pθ) 在 θ 上也连续。
2. 若 g 为局部Lipschitz，并满足规则假设 1 ，则 W(Pr,Pθ) 处处连续，几乎处处可微。
3. 对JS散度和所有KL散度，声明 1−2 为假。

证明见附录 C 。

后面推论告诉我们：用神经网络来最小化EM距离（至少理论上）可行。

推论 1. 令 gθ 为任意用 θ 参数化的前向神经网络，且 p(z) 为 z 上的先验，使得 Ez∼p(z)[||z||]<∞ （如，高斯分布，均匀分布等）。则满足假设 1 ，因此， W(Pr,Pθ) 处处连续，几乎处处可微。

证明见附录 C 。

所有这些说明：对我们的问题，至少与JS散度相比，EM距离作损失函数更合理。后面定理描述这些距离和散度引入拓扑的相对强度：KL最强，紧随JS和TV，EM最弱。

推论 2. 令 P 为紧空间 X 上的分布，且 (Pn)n∈N 为 X 上的分布序列。那么，当 n→0 时，考虑所有的限制，
1. 下面声明等价
- σ(Pn,P)→0 ， σ 为全变差距离；
- JS(Pn,P)→0 ， JS 为Jensen-Shannon散度。
2. 下面声明等价
- W(Pn,P)→0 ；
- Pn⟶DP ，其中， ⟶D 表示关于随机变量的分布的收敛。
3. KL(Pn||P)→0 或 KL(P||Pn)→0 隐含（imply）声明 (1) 。
4. 声明 (1) 隐含声明 (2) 。

证明见附录 C 。

这里强调的事实：学习低维流形支撑的分布时，KL，JS和TV距离为不合理的损失函数。但此时EM距离却合理：

EM距离可使概率序列收敛至真实数据的概率分布，其它距离不可收敛；
EM距离的损失函数连续，可用梯度下降学习低维流形上的概率分布；其它距离的损失函数不连续；
EM距离引入的拓扑相对强度最弱。

3. Wasserstein GAN

定理 2 指出， W(Pr,Pθ) 可能比 JS(Pr,Pθ) 有更好的属性。 (1) 中的下确界很难解。
另一方面，由Kantorovich-Rubinstein二重性（duality） [21] 知

W (P r, P θ) = sup | | f | | L \leq 1 E x \sim P r [f (x)] - E x \sim P θ [f (x)] (2)

其中，上确界覆盖所有

1 -Lipschitz函数

f:X→R 。注意到，若替换

||f||L≤1 为

||f||L≤K （考虑常数

K de

K -Lipschitz），则EM距离变为

K⋅W(Pr,Pθ) 。因此，若有参函数簇

{fw}w∈W ，对某些

K ，参函数都为

K -Lipschitz，考虑求解：

max w \in W E x \sim P r [f w (x)] - E z \sim p (z) [f w (g θ (z))] (3)

且对某些

w∈W （类似证明估计器一致性时的假设的一强假设），当获得

(2) 中的上确界时，求解过程计算出的

W(Pr,Pθ) 能达到乘常数

K 。进一步，考虑估计

Ez∼p(z)[∇θfw(gθ(z))] 反传方程

(2) 来求导

W(Pr,Pθ) 。虽这全是直觉，现在证明最优假设下该过程是有原则的（principled）。

定理 3. 令 Pr 为任意分布。令 Pθ 为 gθ(Z) 的分布（ Z 为随机变量，该分布的概率密度为 p ， gθ 为满足假设 1 的函数）。那么，对问题

max | | f | | L \leq 1 E x \sim P r [f (x)] - E x \sim P θ [f (x)]

存在解

f:X→R ，当

Pr 和

Pθ 都为良定时，有：

\nabla θ W (P r, P θ) = - E z \sim p (z) [\nabla θ f (g θ (z))]

证明见附录 C 。

接着，最大化方程 (2) 来找函数 f 。为近似求解 f ，用紧空间 X 中的权重 w 来参数化一神经网络，训练该网络。然后，同典型的GAN，用 Ez∼p(z)[∇θfw(gθ(z))] 反传。注意到 W 紧致，则对某些仅取决 W （而非个别网络权重）的 K ，所有函数 fw 将为 K -Lipschitz。因此，近似 (2) 至一无关的缩放因子和“评价者”（critic） fw 的容量。为使参数 w 落入紧空间，每次梯度更新后夹紧权重至固定的范围即可（假设 W=[−0.01,0.01]l ）。方法 1 描述Wasserstein生成对抗网络（WGAN）过程。

注：“评价者”和“判别器”应是一回事，我更习惯用GAN框架来说明，所以后面统一用“判别器”替换“评价者”。原作者用两个不同的词，考虑到后面比较GAN判别器（判别器）和WGAN判别器（评价者）时便于说明。所以，这里，WGAN与GAN比较时，将“评价者”替换为“WGAN判别器”；无比较时，仍用“判别器”。
θ 为生成网络的参数，决定生成模型的分布与真实数据分布的距离； w 为判别网络的参数，最大化EM距离损失函数来获得最优判别网络的参数。

EM距离处处连续，且几乎处处可微，所以应该能训练判别器至最优。参数简单，训练判别器的时间越长，得到的EM距离的梯度越可靠。

判别器越好，JS散度的梯度越可靠。但会因JS散度局部饱和，真实梯度为 0 ，梯度消失，见图 1 和 [1] 中定理 2.4 。

图 2 中，为证明这点，训练GAN判别器和WGAN判别器至最优。GAN判别器很快学会区分真伪数据，同期望一样，并未提供可靠的梯度信息。然而，WGAN判别器不饱和，收敛至线性函数并处处给出很明确的梯度；约束梯度限制了函数，使其可能在空间不同部分至多线性增长。

训练WGAN判别器至最优不会破坏（collapse）模式。固定判别器来找最优生成器是指使判别器输出最大值的点上变量增量的和 [11]。

后面介绍新方法的实际效益，深入比较WGAN与传统GAN。

4. 经验结果

用Wasserstein-GAN方法生成图像，相比标准GANs，有显著的实际效益，主要有两点：

有意义的损失度量：关联生成器的收敛性和样本质量；
优化过程更稳定。

4.1 实验过程

生成图像实验。真实数据分布为LSUN-卧室数据集 [23] - 室内卧室自然图像的集合。基线比较为DCGAN，DCGAN用 −logD ，标准的GAN过程训练一卷积网络结构的GAN。生成样本为分辨率 64×64 的 3 通道图像。

4.2 有意义的损失度量

因每次生成器更新前（方法 1 的行 10 ），WGAN试图训练出相对较好的WGAN判别器 f （方法 1 的行 2−8 ），此时损失函数为估计EM距离，上界为某常数，该常数与我们约束 f 的Lipschitz常数有关。

实验 1 表明估计EM距离与生成样本密切相关。除卷积的DCGAN结构，用 4 层ReLU-MLP（每层包含 512 个隐含单元）只替换生成器或同时替换生成器和判别器来运行实验。

图 3 为 3 种结构的WGAN训练时，估计的EM距离的变化。该图清楚显示，曲线与生成样本的视觉质量密切相关。

然而，还不能定量评估生成模型。常数缩放因子取决于WGAN判别器的结构，所以，不同的WGAN判别器模型间难以比较。甚至，实际上判别器容量有限，所以，难以了解真实的EM距离与估计的EM距离多接近。可话说回来，用该损失度量重复且成功验证了实验，相比之前GAN的训练能力有巨大的提高。

相反，图 4 为GAN训练时，估计的JS散度的变化。更确切地，GAN训练时，训练判别器来最大化：

L (D, g θ) = E x \sim P r [l o g D (x)] + E x \sim P θ [l o g (1 - D (x))]

注： x∼Pr 时， x 为真实样本，希望 D(x)↑ ； x∼Pθ 时， x 为生成样本，希望 D(x)↓ 。

其中， L(D,gθ) 的下界为 2JS(Pr,Pθ)−2log2 。图中，值 12L(D,gθ)+log2 为JS距离的下界。

JS距离的下界与样本质量关系很差。估计的JS距离通常保持不变或上升（而非下降）。实际上，JS估计值常保持为接近 log2≈0.69 （JS距离的最大值）。换句话说，JS距离饱和，GAN判别器损失为 0 ，某些情况下（DCGAN生成器，右上图）生成样本有意义，其它情况下被破坏为无意义图像。该现象的理论解释见 [1]，强调见 [11]。

用 −logD 时，判别器损失与生成器损失不同。附录的图 8 绘制相同的图，但用生成器损失（而非判别器损失）。结论不变。

负面结果：当对WGAN判别器用基于动量的优化方法（如Adam）或用很高的学习率时，训练WGAN会偶尔不稳定。因WGAN判别器的损失并非稳态，基于动量的方法可能会表现更糟。因损失爆炸和生成样本变差时，Adam步与梯度的余弦角变为负值，所以动量可能为潜在的原因。训练不稳定时，余弦角必为负值。很不平稳时，改用RMSProp效果不错。

4.3 改善稳定性

可训练WGAN判别器至最优。训练判别器时，仅需为生成器提供训练其它网络时所用到的损失。不再需合理均衡生成器和判别器的容量。判别器越好，训练生成器所用梯度的质量越高。

改变生成器的结构时，WGAN比其它GANs更鲁棒。为此， 3 个不同的生成器结构上运行实验：（1）卷积DCGAN生成器；（2）卷积DCGAN生成器，不带块归一化，滤波器数目不变；（3） 512 个隐含单元组成的 4 层ReLU-MLP。后面 2 中用GANs表现很差。所以，为WGAN判别器和GAN判别器保留卷积DCGAN结构。
图 5 ，图 6 和图 7 显示用到WGAN和GAN时， 3 种结构生成的样本。整页的生成样本见附录 F 。样本未经优选。

实验中，从未见过用WGAN时模式被破坏。

5. 相关工作

积分概率度量（Integral Probability Metric，IPMs）上有很多工作。给定从 X 到 R 的函数集合，定义

d F (P r, P θ) = sup f \in F E x \sim P r [f (x)] - E x \sim P θ [f (x)] (4)

为关联函数类

F 的积分概率度量。易证对任意

f∈F ，有

−f∈F ，则

dF 为非负，满足三角不等式，且对称。因此，

dF 为

Prob(X) 的伪距离。
IPMs可能公式相似，但不同的函数类会得到完全不同度量。

由Kantorovich-Rubinstein对偶可知，当 F 为 1−Lipschitz 函数集合时， W(Pr,Pθ)=dF(Pr,Pθ) 。进一步，若 F 为 K−Lipschitz 函数，则 K⋅W(Pr,Pθ)=dF(Pr,Pθ) 。
当 F 为所有 −1 到 1 之间的可测量函数（或所有 [−1,1] 上的连续函数）时，恢复为全变差距离： dF(Pr,Pθ)=σ(Pr,Pθ) [14]。这告诉我们损失函数从 1−Lipschitz 函数变至 1− 有界函数，大大改变了空间的拓扑和 dF(Pr,Pθ) 的正则性（regularity）（见定理 1 和定理 2 ）。
-可认为基于能量的GANs（EBGANs）是用全变差距离的生成方法。附录 D 中声明和进一步证明这一关联,关键为判别器作为函数 f 来最大化方程 4 ，唯一的限制是对常数 m ，函数输出约束在 [0,m] 。取决于无关优化的常数缩放因子，同样可约束至 [−1,1] 。因此，当判别器接近最优时，生成器的代价将逼近全变差距离 σ(Pr,Pθ) 。
因全变差距离与JS散度的正则性相似，可看出，无论是否能训练判别器至最优，EBGANs与经典的GANs问题相同，因此它的梯度也很不完美。
当 F={f∈H:||f||inf≤1} （其中， H 为关联给定核 k 的再生核Hilbert空间（Reproducing Kernel Hilbert Space，RKHS），核 k ： X×X→R ）时，最大均值矛盾（Maximum Mean Discrepancy，MMD）[5] 为积分概率度量的特殊情况。如 [5] 中所证，MMD只是个合适的度量，且当核通用时不仅是伪度量。具体地，当 H=L2(X,m) 时， X 上用归一化Lebesgue度量 F ，可知 F 中包含 {f∈Cb(x),||f||∞≤1} ，因此 dF(Pr,Pθ)≤σ(Pr,Pθ) 。所以，以MMD距离为损失函数的正则性与全变差距离的正则性同样差。然而这是非常极端的例子，因为需要很强大的核来近似 L2 。但即使高斯核也仅能检测微小的噪声模式 [19]。尤其当使用低带宽的核时，距离可能接近类似全变差距离或JS距离的饱和方法。显然不需要每个核都如此，弄清不同MMDs如何及哪些更接近Wasserstein距离或全变差距离也很有趣。
MMD的优势为用核方法后无需为RKHS球空间来训练单独的网络来最大化方程 (4) 。然而，MMD的劣势为计算代价随用于估计 (4) 中期望的样本数目二次增长；MMD可伸缩性有限，因此无法用于许多现实应用。线性计算代价估计ＭＭＤ距离大多时候会很有用，但样本复杂度太高。
生成矩匹配网络（Generative Moment Match Nework，GMMD）类似MMD。反传方程 (4) 的核化形式，直接优化 dMMD(Pr,Pθ) （当 F 为前面项时的IPM，见P12）。如前所述，不要求单独的网络来近似最大化方程 (4) 。然而，GMMNs应用有限，部分原因是样本数目的函数为二次代价，用低带宽核时梯度会消失。并且实际用到的一些核不适合如自然图像等高维样本空间中获得的距离非常差。[18]　中表明，为让典型的高斯MMD测试可靠，需样本数目与维度数目线性增长。估计方程 (4) 中时用的块，MMD的计算代价与样本数目二次增长。有可靠的估计器的代价与维度数目二次增长，不适用高维问题。如 64×64 大小的标准图像，所需小块的大小至少 4096 （不考虑　[18]　边界中的常数，使样本数目更多）,且每次迭代的总代价为 40962 。当用标准的块大小 64×64 时，比 1 次GAN迭代多 5 个数量级。
话虽如此，比较MMDs的理论样本复杂度和GANs的经验样本复杂度时（一般会更高），对MMD不公平。然而，原GMMN文章中用到的小块大小为 1000 ，远大于标准的 32 或 64 （即使出现二次计算代价时）。尽管存在线性计算代价作样本数目的函数，样本复杂度仍更高。就我们所知，生成领域尚未应用GMMNs。

6. 结论

介绍WGAN，可替换传统GAN的训练。新模型中，提高了学习的稳定性，克服了模式被破坏等问题，并提供方便调试和超参数搜索的学习曲线。进一步，显示对应的优化问题合理，并为分布间其它距离的深入关联提供理论工作。

全文未经他人校正，如有问题欢迎指出。

7. 小记

并不是数学出身，但后面的证明还是看了。考虑到最近贼忙以及附录部分的编辑量，所以先忘了它吧… 但附录部分如有问题欢迎讨论。嗯，共同进步… ٩(๑òωó๑)۶

你可能感兴趣的:(Deep,Learning)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
el-dialog高度设置夏之小星星前端 vue.js elementui css
el-dialog高度设置::v-deep.el-dialog{height:78vh;overflow:auto;}
elementuiPlus取消el-input的边框 qq_39016177 elementui
elementuiPlus取消el-input的边框1.通常取消边框的方法设置border为none2.还有其他类似边框的例如outlinebox-shadow这两个属性都是会产生边框效果3.el-input需要更改的话–如下需要修改box-shadow为空即可上代码:deep(.el-input__wrapper){align-items:center;background-color:#F7F
【双语新闻】AGI安全与对齐，DeepMind近期工作曲奇人工智能安全 agi 安全 llama 人工智能
我们想与AF社区分享我们最近的工作总结。以下是关于我们正在做什么，为什么会这么做以及我们认为它的意义所在的一些详细信息。我们希望这能帮助人们从我们的工作基础上继续发展，并了解他们的工作如何与我们相关联。byRohinShah,SebFarquhar,AncaDragan21stAug2024AIAlignmentForumWewantedtosharearecapofourrecentoutput
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
Lt-8 Multithreading yanlingyun0210 java
IntendedLearningOutcomesTounderstandtheconceptofconcurrency.Tounderstandthedifferenceofaprocessandathread.TodefineathreadusingtheThreadclassandRunnableinterface.TocontrolthreadswithvariousThreadmethod
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification MTandHJ neural networks
文章目录概主要内容PReLUKaiming初始化ForwardcaseBackwardcaseHeK,ZhangX,RenS,etal.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification[C].internationalconferenceoncomputervision,2015:1
深度神经网络详解：原理、架构与应用阿达C 活动 dnn 计算机网络人工智能神经网络机器学习深度学习
深度神经网络（DeepNeuralNetwork，DNN）是机器学习领域中最为重要和广泛应用的技术之一。它模仿人脑神经元的结构，通过多层神经元的连接和训练，能够处理复杂的非线性问题。在图像识别、自然语言处理、语音识别等领域，深度神经网络展示了强大的性能。本文将深入解析深度神经网络的基本原理、常见架构及其实际应用。一、深度神经网络的基本原理1.1神经元和感知器神经元是深度神经网络的基本组成单元。一个
前端开发需要了解的算法知识史努比的大头算法前端
手写深拷贝functiondeepClone(obj){//处理基础数据类型和函数if(obj===null||typeofobj!=='object'){returnobj;}//处理数组if(Array.isArray(obj)){returnobj.map(item=>deepClone(item));}//处理对象constclonedObj={};for(constkeyinobj){i
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
推荐：FastAPI驱动的稳定扩散LLMs演示项目褚知茉Jade
推荐：FastAPI驱动的稳定扩散LLMs演示项目FastAPI-for-Machine-Learning-Live-DemoThisrepositorycontainsthefilestobuildyourveryownAIimagegenerationwebapplication!OutlinedarethecorecomponentsoftheFastAPIwebframework,anda
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
什么是监督学习（Supervised Learning）救救孩子把 AI AI 学习
一、监督学习概述监督学习（SupervisedLearning）是一种极具威力的机器学习方法，能够训练算法以识别数据中的模式，并据此进行精准的预测或分类。借助已有的标记数据，监督学习模型学会了从输入到输出的映射关系，进而在各类实际问题中实现自动化决策。无论是医疗诊断、金融市场分析、客户行为预测，还是提升生产效率以及个性化推荐系统等领域，监督学习都彰显出巨大的潜力与价值。随着技术的持续进步，监督学习
LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南汀、人工智能 LLM工业级落地实践人工智能自然语言处理 prompt Swifi DeepSpeed 通义千问 Qwen
LLM系列(4)：通义千问7B在Swift/DeepSpeed上微调秘诀与实战陷阱避坑指南阿里云于2023年8月3日开源通义千问70亿参数模型，包括通用模型Qwen-7B以及对话模型Qwen-7B-Chat，这也是国内首个开源自家大模型的大厂。在诸多权威大模型能力测评基准上，如MMLU、C-Eval、GSM8K、HumanEval、WMT22，通义千问7B均取得了同参数级别开源模型中的最好表现，
使用3DUNet训练自己的数据集（pytorch）— 医疗影像分割编程日记✧ 智能医疗 pytorch 人工智能 python 计算机视觉图像处理深度学习健康医疗
代码：lee-zq/3DUNet-Pytorch:3DUNetimplementedwithpytorch(github.com)文章<cicek16miccai.pdf(uni-freiburg.de)3DU-Net:LearningDenseVolumetricSegmentation
探索任务的隐秘世界：推荐Task2Vec 邓越浪Henry
探索任务的隐秘世界：推荐Task2Vecaws-cv-task2vecOfficialcodeforthepaper"Task2Vec:TaskEmbeddingforMeta-Learning"(https://arxiv.org/abs/1902.03545,ICCV2019)项目地址:https://gitcode.com/gh_mirrors/aw/aws-cv-task2vec在机器学习
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key