Garry1248

生成式深度学习(第二版)-译文-第四章-生成对抗网络

章节目标

了解生成对抗网络(GAN)的架构设计；

利用Keras 从零开始训练一个深度卷积 GAN (DCGAN)。

利用DCGAN来生成新的图像。

理解训练DCGAN时面临的常见问题。

了解Wasserstein GAN(WGAN)架构如何解决上述问题。

理解WGAN可以添加的额外改进，例如融合梯度惩罚(Gradient Penalty, GP)项到损失函数。

利用Keras 从零开始构建WGAN-GP。

利用WGAN-GP来生成新的图像。

了解条件GAN(CGAN)如何让我们具备基于给定标签条件生成输出的能力。

在Keras中如何构建CGAN并用它来操纵生成图像。

在2014年，Ian Goodfellow等在蒙特利尔的NeurIPS大会上提出了一篇论文，标题为《Generative Adversarial Nets》。生成对抗网络(或者更广为人知的名称 GANs)的引入现在普遍被认为是生成式建模历史上的一个关键转折点。因为本篇文章提出的核心思想直接启发了迄今为止的多个成功的生成式模型。

本章将首先给出GANs的理论基础，然后我们再看看如何使用Keras构建我们自己的GANs。

引言

让我们以一则短故事来介绍GAN训练过程中的一些基础概念。

布鲁克积木和伪造者
今天是你作为Brickki公司质量控制主管的第一天，该公司专注于生产各种形状和尺寸的高质量积木(如下图4-1所示)。很快，有人提醒你，生成线下来的物品存在一个问题。有一个竞对开始仿制布鲁克积木，并且找到了一个方法将仿制积木混到你们公司消费者的袋子里。你决定成为一个辨别布鲁克积木正品和仿制品的专家，这样你就能在产线上拦截伪造的积木，避免它们进入终端用户受众。随着时间的推移，吸收用户的反馈之后，你越来越清楚该如何区分正品和仿制品。
伪造者对此并不开心 — 他们对你不断提高的检测能力做出反应了 — 在仿制过程中做出一些改变，让正品积木和仿制积木的差别更小，从而让你更加难以区分。
没人放弃，你重新训练自己，以便能够识别更复杂的伪造，并时刻保持比伪造者领先一步。这个过程一直持续，伪造者持续改进积木制造工艺，你尝试不断精进仿制品鉴定技术。
随着时间的流逝，人们越来越难鉴别布鲁克正品积木和仿制品了。看起来，这个简单的猫鼠游戏对于提升仿制品质量和检测质量都有重大影响。

上面这个布鲁克积木和仿造者的故事描述了生成对抗网络的训练过程。

生成对抗网络是两个相反过程的斗争，一为生成器，一为鉴别器。生成器尝试将随机噪声转换成一个观察，使得其看起来好像是从原始数据集中采样而来，鉴别器则努力判定一个观察到底是来自原始数据库还是生成器的仿制。输入和输出的样例如下图4-2所示。

作为这一过程的开始，生成器输出噪声图像，鉴别器随机预测。GANs的关键在于我们如何交替训练这两个网络, 使得: 生成器越来越擅长骗过鉴别器，鉴别器越来越擅长正确区分仿制品。这驱动着生成器不断寻找新的方式来骗过鉴别器，因此整个过程能够持续。

深度卷积GAN(DCGAN)

让我们以Keras中构建第一个GAN作为开始，来生成伪造的积木图片。
我们将紧密跟踪GANs领域的一篇主要论文 “Unsupervised Representation Learning with Deep Convolutional Generative Adversial Networks.” 在这篇2015年的工作中，作者给出了如何构建一个深度卷积GAN来从不同数据库生成真实感的图像。它们也介绍了一些改动来显著提升生成图像的质量。

运行本示例代码
本示例代码可以在Jupyter Notebook的如下位置找到: “notebooks/04_gan/01_dcgan/dcgan.ipynb”

Bricks数据集

首先，你需要下载训练数据。我们将使用Kaggle的LEGO Bricks数据集图像。这是计算机渲染数据集，包含50个不同玩具积木各个视角拍摄的近4万照片。

我们可以利用本书代码库中的 Kaggle 数据集下载器脚本来下载这一数据集，如下样例4-1所示。它会将数据集和伴随的metadata本地下载到 /data 目录。

bash scripts/download_kaggle_data.sh joosthazelzet lego-brick-images

我们使用Keras函数 image_dataset_from_directory 来构建一个TensorFlow数据集指向图片存储的位置，如下示例4-2所示。这允许我们在需要时(例如训练)成批将图像读取到内存中，使得我们可以操作大的数据集，并且不用担心如何将整个数据集放到内存中。同时，我们也通过像素插值将图像放缩到64x64。

train_data = utils.image_dataset_from_directory(
	"/app/data/lego-bricks-images/dataset",
	labels = None,
	color_mode = "grayscale",
	image_size = (64,64),
	batch_size = 128,
	shuffle = True,
	seed = 42,
	interpolation = "bilinear",
	)

原始的数据其取值范围在[0,255]。当训练GANs时，我们将数据放缩到[-1,1]，使得我们可以在生成器最后一层上使用 tanh 激活函数，因为tanh相对于sigmoid函数能提供更强的梯度。

def preprocess(img):
	img = (tf.cast(img, "float32") - 127.5 ) / 127.5
	return img
train = train_data.map(lambda x: preprocess(x))

鉴别器

鉴别器的目标是预测一幅图像是真实还是伪造。这是一个有监督图像分类问题，因此我们可以使用一个第二章中类似的架构: 堆叠卷积层+单一输出节点。

表4-1列出了我们将要构建之鉴别器的完整架构。

层(类型)	输出形状	参数数量
InputLayer	(None, 64, 64, 1)	0
Conv2D	(None, 32, 32, 64)	1024
LeakyReLU	(None, 32, 32, 64)	0
Dropout	(None, 32, 32, 64)	0
Conv2D	(None, 16, 16, 128)	131072
BatchNormalization	(None, 16, 16, 128)	512
LeakyReLU	(None, 16, 16, 128)	0
Dropout	(None, 16, 16, 128)	0
Conv2D	(None, 8, 8, 256)	524288
BatchNormalization	(None, 8, 8, 256)	1024
LeakyReLU	(None, 8, 8, 256)	0
Dropout	(None, 8, 8, 256)	0
Conv2D	(None, 4, 4, 512)	2097152
BatchNormalization	(None, 4, 4, 512)	2048
LeakyReLU	(None, 4, 4, 512)	0
Dropout	(None, 4, 4, 512)	0
Conv2D	(None, 1, 1, 1)	8192
Flatten	(None, 1)	0

所有参数	2765312
训练参数	2763520
非训练参数	1792

用以构建鉴别器的Keras 代码如下示例4-4所示。

discriminator_input = layers.Input(shape=(64,64,1))
x = layers.Conv2D(64, kernel_size = 4, strides = 2, padding = "same", use_bias = False)(discriminator_input)
x = layers.LeakyReLU(0.2)(x)
x = layers.Dropout(0.3)(x)

x = layers.Conv2D(128, kernel_size = 4, strides = 2, padding = "same", use_bias = False)(x)
# moving_mean = moving_mean * momentum + batch_mean * (1 - momentum)
# moving_var = moving_var * momentum + batch_var * (1 - momentum)
# 式中的 momentum 为动量参数
x = layers.BatchNormalization(momentum = 0.9)(x) # 滑动平均
x = layers.LeakyReLU(0.2)(x)
x = layers.Dropout(0.3)(x)

x = layers.Conv2D(256, kernel_size = 4, strides = 2, padding = "same", use_bias = False)(x)
x = layers.BatchNormalization(momentum = 0.9)(x) # 滑动平均
x = layers.LeakyReLU(0.2)(x)
x = layers.Dropout(0.3)(x)

x = layers.Conv2D(512, kernel_size = 4, strides = 2, padding = "same", use_bias = False)(x)
x = layers.BatchNormalization(momentum = 0.9)(x) # 滑动平均
x = layers.LeakyReLU(0.2)(x)
x = layers.Dropout(0.3)(x)


x = layers.Conv2D(1, kernel_size = 4, strides = 1, padding = "valid", use_bias = False, activation = 'sigmoid')(x)

# 经过上步操作，输出的张量形状为1x1x1，直接拉直即可，无需最后一个Dense层
discriminator_output = layers.Flatten()(x)

#  定义鉴别器之 Keras model --- 模型接受一张输入图像，输出一个0到1之间的数
discriminator = models.Model(discriminator_input, discriminator_output)

注意我们如何在Conv2D层中使用 stride = 2 来减少张量的空间尺寸（原图64，随后32,16,8,4, 最终1）, 同时逐渐增大通道数 (灰度输入1，然后64,128, 256，最终512)，最终坍缩为单一预测。

我们在最后的Conv2D上使用了一个sigmoid激活来输出一个0到1的数字。

生成器

现在，让我们一起来构建生成器。生成器的输入是一个从多维正态分布中拉取的向量。输出是一幅与原始图像训练数据相同尺寸的图像。

这个描述也许让你回忆起变分自编码器中的解码器。事实上，GAN中的生成器与VAE中的解码器目标完全相同: 将隐空间的一个编码转换为一幅图像。在生成式建模中，将隐空间映射回原始域是非常常见的概念，因为它给与我们通过操纵隐空间向量来改变原始域中高层图像特征的能力。

我们将构建的生成器架构如表4-2所示。

层(类型)	输出形状	参数数量
InputLayer	(None, 100)	0
Reshape	(None, 1,1,100)	0
Conv2DTranspose	(None, 4, 4, 512)	819200
BatchNormalization	(None, 4, 4, 512)	2048
ReLU	(None, 4, 4, 512)	0
Conv2DTranspose	(None, 8, 8, 256)	2097152
BatchNormalization	(None, 8, 8, 256)	1024
ReLU	(None, 8, 8, 256)	0
Conv2DTranspose	(None, 16, 16, 128)	524288
BatchNormalization	(None, 16, 16, 128)	512
ReLU	(None, 16, 16, 128)	0
Conv2DTranspose	(None, 32, 32, 64)	131072
BatchNormalization	(None, 32, 32, 64)	256
ReLU	(None, 32, 32, 64)	0
Conv2DTranspose	(None, 64, 64, 1)	1024

所有参数	3576576
训练参数	3574656
非训练参数	1920

用以构建生成器的Keras 代码如下示例4-5所示。

generator_input = layers.Input(shape=(100,))
x = layer.Reshape((1,1,100))(generator_input)
x = layers.Conv2DTranspose(512, kernel_size = 4, strides = 1, padding = "valid", use_bias = False)(x)
x = layers.BatchNormalization(momentum = 0.9)(x) # 滑动平均
x = layers.LeakyReLU(0.2)(x)

x = layers.Conv2DTranspose(256, kernel_size = 4, strides = 2, padding = "same", use_bias = False)(x)
x = layers.BatchNormalization(momentum = 0.9)(x) # 滑动平均
x = layers.LeakyReLU(0.2)(x)

x = layers.Conv2DTranspose(128, kernel_size = 4, strides = 2, padding = "same", use_bias = False)(x)
x = layers.BatchNormalization(momentum = 0.9)(x) # 滑动平均
x = layers.LeakyReLU(0.2)(x)

x = layers.Conv2DTranspose(64, kernel_size = 4, strides = 2, padding = "same", use_bias = False)(x)
x = layers.BatchNormalization(momentum = 0.9)(x) # 滑动平均
x = layers.LeakyReLU(0.2)(x)

# 最终的Conv2DTranspose层使用了tanh激活函数，从而将输出约束到[-1,1]范围，以符合原始的图像域
generator_output = layers.Conv2DTranspose(1, kernel_size = 4, strides = 2, padding = "same", use_bias = False, activation = "tanh")(x)

#  定义生成器之 Keras model --- 模型接受一个100维向量，输出一个[64,64,1]张量
generator = models.Model(generator_input, generator_output)

注意我们如何在Conv2DTranspose层中使用stride=2来增加张量的空间形状(原始向量1，然后4,8,16, 32, 最终64), 同时减少通道数(512,然后256,128,64，最后1来匹配灰度输出)。

上采样 vs Conv2Transpose
Conv2DTranspose层有一个替代: 使用UpSampling2D层紧接Conv2D层(stride=1), 如样例4-6所示。
`x = layers.UpSampling2D(size = 2)(x)`
`x = layers.Conv2D(256, kernel_size = 4, strides = 1, padding = "same")(x)`
Upsampling2D层简单的进行行列重复以在尺寸上翻倍。Conv2D层(strides=1)执行卷积操作。这与卷积transpose类似，但是卷积transpose使用0来填充像素间空缺，upsampling则重复已有的像素值。
目前，已知Conv2DTranspose方法会在输出图像中产生artifacts，或者小的棋盘格模式(如图4-4所示)，破坏输出的质量。但是，它们仍然在很多有影响力的GANs文献中被使用，并且在深度学习实践工具箱中一直是强有力的工具。
Upsampling + Conv2D 以及 Conv2DTranspose 两种方式都是将张量变换回图像域的可行方式。到底采用哪种方法，完全取决于你的问题设定，以及两种方法的实际效果。

DCGAN的训练

我们将看到，在DCGAN中，生成器和鉴别器的架构非常简单，其实与第三章中我们看到的VAE方法并没有大的不同。理解GANs的关键在于理解生成器和鉴别器的训练过程。

我们可以这样训练一个鉴别器: 构建一个训练集，其中一些图像是来自训练集的真实观察，另一些是生成器的虚假输出。然后，我们将这个作为一个有监督学习问题，其中真实图像标签为1，虚假图像标签为0，二元互熵作为损失函数。

我们该如何训练生成器呢？我们需要找到一个方法对生成图像进行打分，使得生成器可以朝着更高分数的方向优化。幸运的是，我们恰好有鉴别器来做这个事！我们可以生成一批图像，并且将它们传递给鉴别器，得到每个图形的分数。生成器的损失函数可以简单设定为这些概率与全1向量的二元互熵，因为我们想训练的生成器，能生成的图像必须能骗过鉴别器。

关键在于，我们需要在这两个网络的训练过程中切换，确保每次我们只迭代一个网络的权重。例如，在生成器训练过程中，只有生成器的权重被更新。如果我们同时也允许鉴别器的权重被挑战，那么鉴别器会做自我调整使得它尽可能的将生成图像预测为真，而这并不是我们想要的。我们希望生成图像之预测尽可能接近1(真) 完全是因为生成器是强大的，而非因为鉴别器是弱小的。

鉴别器和生成器的训练过程框图如下图4-6所示。

Keras提供给我们构建 train_step 函数的能力来实现这个逻辑。样例4-7给出了完整的DCGAN模型类。

class DCGAN(models.Model):
	def __init__(self, discriminator, generator, latent_dim):
		super(DCGAN, self).__init__()
		self.discriminator = discriminator
		self.generator = generator
		self.latent_dim = latent_dim
	def compile(self, d_optimizer, g_optimizer):
		super(DCGAN, self).compile()
		# 生成器和鉴别器的损失函数为BinaryCrossentropy()
		self.loss_fn = loss.BinaryCrossentropy()
		self.d_optimizer = d_optimizer
		self.g_optimizer = g_optimizer
		self.d_loss_metric = metrics.Mean(name="d_loss")
		self.g_loss_metric = metrics.Mean(name="g_loss")
	
	@property
	def metrics(self):
		return [self.d_loss_metric, self.g_loss_metric]
	
	def train_step(self, real_images):
		batch_size = tf.shape(real_images)[0]
		# 要训练生成器和鉴别器网络，首先从多元标准正态中采样一批向量
		random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))
		with tf.GradientTape() as gen_tape, tf.GradientTape() as disc_tape:
			# 向量传给生成器生成一批图像
			generated_images = self.generator(random_latent_vectors, training = True)
			# 让鉴别器判断生成图像是否为真
			real_predictions = self.discriminator(real_images, training = True)
			fake_predictions = self.discriminator(generated_images, training = True)
			real_labels = tf.ones_like(real_predictions)
			real_noisy_labels = real_labels + 0.1 * tf.random.uniform(tf.shape(real_predictions))
			
			fake_labels = tf.ones_like(fake_predictions)
			fake_noisy_labels = fake_labels - 0.1 * tf.random.uniform(tf.shape(fake_predictions))

			d_real_loss = self.loss_fn(real_noisy_labels, real_predictions)
			d_fake_loss = self.loss_fn(fake_noisy_labels, fake_predictions)
			# 鉴别器损失是 真实图像(标签为1) 和 伪图像(标签为0) 的二元互熵之平均
			d_loss = (d_real_loss + d_fake_loss) / 2.0
			# 生成器损失是 鉴别器在生成图像上预测结果和全1标签的二元互熵
			g_loss = self.loss_fn(real_labels, fake_predictions

		gradients_of_discriminator = disc_tape.gradient(d_loss, self.discriminator.trainable_variables)
		gradients_of_generator = disc_tape.gradient(g_loss, self.generator.trainable_variables)

		# 分别更新生成器和鉴别器权重
		self.d_optimizer.apply_gradients(zip(gradients_of_discriminator, discriminator.trainable_variables))
		self.g_optimizer.apply_gradients(zip(gradients_of_generator, generator.trainable_variables))
		self.d_loss_metric.update_state(d_loss)
		self.g_loss_metric.update_state(g_loss)
		
		return {m.name: m.result() for m in self.metrics}

dcgan = DCGAN(discriminator = discriminator, generator=generator, latent_dim = 100)

dcgan.compile(
			d_optimizer=optimizer.Adam(learning_rate=0.0002, beta_1 = 0.5, beta_2 = 0.999),
			g_optimizer=optimizer.Adam(learning_rate=0.0002, beta_1 = 0.5, beta_2 = 0.999),
)

dcgan.fit(train, epochs=300)

鉴别器和生成器一直在竞争主动权，这会导致DCGAN的训练过程不稳定。理想情况下，训练过程会找到一个均衡: 既允许生成器从鉴别器处学到有意义的信息，使得生产图像质量上升。经过足够多的epochs，鉴别器倾向于结束主导，如图4-6所示，但这个不是大的问题，因为生成器这时很可能已经学会了如何产生足够高质量图像。

在标签中加入噪声
训练GAN时一个有用的trick是: 在训练标签中加入少量的随机噪声。这有助于增强训练过程的稳定性，并让生成的图像更加锐利。标签平滑作为驯服鉴别器的一种手段，使得鉴别器面临更挑战的任务，不至于压倒生成器。

DCGAN分析

通过观察生成器在训练特定轮次的生成图像(图4-7)，很显然生成器生成的图像越来越像从训练集中抽取出来的。

一个神经网络可以将随机噪声转换成有意义的东西，这看起来真实奇迹！值得注意的是，对于模型的训练，我们除了裸像素并未提供任何多余的信息，因此它必定是仔细学会了一些高层次的概念，例如如何画阴影，长方体，圆等等。

要得到成功生成式模型的另一个要求是它所做的不是简单复制训练集中的图像。为了验证这一点，对于一个特定生成图像，我们可以找出训练集中最接近的图像。距离的一个好度量是L1距离，定义如下:

def compare_images(img1, img2):
	return np.mean(np.abs(img1, img2))

图4-8给出了一组生成图像在训练集中的最相似样本。我们可以看到尽管生成图像和训练集有一定程度的相似性，但他们并不完全相同。这表明，生成器理解了高层次特征，可以生成与其所见过完全不同的样本。

GAN训练: 建议和技巧

尽管GANs时生成式建模的一大主要突破技术，它们却以难于训练而臭名昭著。在这一小节，我们将探索GANs训练过程中一些常见的问题和挑战，以及潜在的解决办法。在下一小节中，我们将看到一些对于GAN框架的基础性调整，使得我们可以修正这些问题。

鉴别器压倒生成器

如果鉴别器变得过强，从损失函数反传的信号太弱，以至于不能驱使生成器做出有意义的改进。在最坏的情况下，鉴别器完美的学会了如何区分真实图像和伪造图像，梯度完全消失，导致无法训练，如图4-9所示。

如果你发现鉴别器损失函数塌陷，就需要找到一些方法来弱化鉴别器。可以尝试如下建议:

增大鉴别器 Dropout层的 rate参数了来抑制网络中流动的信息；
减少鉴别器的学习率。
减少鉴别器重卷积滤波器个数。
在训练鉴别器时在标签中添加噪声。
训练鉴别器时随机将一些样本进行标签翻转。

生成器压倒鉴别器

如果鉴别器不足够强大，生成器将很容易用一小撮近似相同的样本糊弄鉴别器。这被称为模式坍塌(mode collapse)。

例如，如果我们想在几批样本上训练生成器，而并不更新鉴别器。生成器将会倾向于找到单个观察(也被成为mode)，该观察始终能糊弄鉴别器，并开始将隐空间中的每个点都影射到这个观察图像上。更进一步的，损失函数的梯度会坍塌到近乎0，因此无法从这个状态中恢复。

即使我们努力尝试重新训练鉴别器来阻止它被单一的点糊弄，生成器也只会找到另外一个mode来糊弄鉴别器，因为它已经对于输入麻木了，因此并无动力来产生多样的输出。

模式坍塌效应如下4-10所示。

如果你发现生成器正在遭受模式坍塌，你可以尝试采用与上一小节中建议相反的策略来加强鉴别器。另外，你也可以减小两个网络的学习率，并增加batch size。

无信息损失

因为深度学习模型瞄准损失函数的最小化，我们很自然认为：生成器损失越小，生成的图像质量也就越好。但是，因为生成器仅仅根据当前的鉴别器打分，同时，鉴别器也在持续改进。因此，我们无法在训练过程的不同点上比较损失函数。事实上，在图4-6中，随着时间的迁移，尽管生成的图像质量明显改进，生成器的损失函数实际上在增加。生成器损失和图像质量之间关联的确实有时候让GAN的训练难于监督。

超参数

我们已经看到，即使是简单的GANs，都有一大堆超参数要调。除了鉴别器和生成器的整体架构之外，还有一系列主导参数，包括batch normalization，dropout， learning rate， activation layers，卷积滤波器，核大小，striding， batch size，以及隐空间尺寸。GANs对所有这些参数的细微变化都非常敏感，找到一组有效参数很多时候是试错的结果，并无定则可以遵循。

这也是为什么理解GAN的内在工作机理及损失函数的解释如此重要，只有理解了，我们才可以进行有意义的超参调整，使得模型的稳定性得到提升。

解决GAN的挑战

近年来，一些关键的改进极大提升了GAN模型整体的稳定性，并消除了前面列出来的一些问题，如模式坍塌。

本章剩下的部分里，我们将检查 Wasserstein GAN with Gradient Penalty (WGAN-GP), 这包含了我们已经讨论的几种GAN框架调整基数，可以帮助提升稳定性，改进图像生成质量。

带梯度惩罚的Wasserstein GAN (WGAN-GP)

在这一小节中，我们将构建一个WGAN-GP，来从CelebA数据集(第三章中已经使用过)中生成人脸。

运行示例代码
本示例代码可以在Jupyter Notebook的以下路径找到: “notebooks/04_gan/02_wgan_gp/wgan_gp.ipynb”。这部分代码修改自Keras官网上Aakash Kumar Nain的杰出WGAN-GP教程。

Wasserstein GAN (WGAN), 首次提出于Arjovsky等人在2017年发表的论文，它是推动GAN训练走向稳定的第一个里程碑。通过一系列改进，作者可以训练出具备以下两个特性的GAN(引自原文):

一个有用的损失度量，可以将生成器收敛性和样本质量关联起来。
优化过程具备更强的稳定性。

特别的，论文对于生成器和鉴别器引入了Wasserstein损失函数。通过抛弃之前的二元互熵损失函数，使用Wasserstein损失函数带来了更稳定的GAN收敛结果。

在本小节中，我们将定义Wasserstein损失函数，然后一起看看我们还需要针对模型结构和训练过程做出哪些改变来适配新的损失函数。

整个模型类在Jupyter Notebook的如下位置可以找到: “chapter05/wgan-gp/faces/train.ipynb”.

Wasserstein 损失

首先，我们回顾一下二元互熵损失的定义 — 我们当前用来训练GAN鉴别器和生成器之损失函数。

$-\frac{1}{n}\sum_{i=1}^n (y_i log (p_i) + (1 - y_i)log (1 - p_i))$

为了训练GAN中的鉴别器D，我们计算如下损失: 比较真实图像之预测 $p_i=D(X_i)$ 与响应 $y_i=1$ ，以及比较生成图像之预测 $p_i=D(G(z_i))$ 与响应 $y_i=0$ . 因此，对GAN的鉴别器而言，最小化损失函数可以写作如下式4-2:

$\min \limits_{D} -(\mathbb{E}_{x \sim p_x} [log D(x)] + \mathbb{E}_{z \sim p_z} [log(1-D(G(z)))])$

为了训练GAN中的生成器G，我们计算如下损失: 比较生成图像之预测 $p_i=D(G(z_i))$ 与响应 $y_i=1$ 。因此，对于GAN生成器，最小化损失函数可以写作如下式4-3.

$\min \limits_{G} -(\mathbb{E}_{z \sim p_z} [log(D(G(z))])$

现在，让我们将之与Wasserstein损失函数对比。

首先，Wasserstein损失要求我们使用 $y_i=1$ 和 $y_i=-1$ 作为标签，而非1和0。我们也将去掉鉴别器最后一层的sigmoid激活函数，使得预测 $p_i$ 不再受限于[0,1]，而是可以取 $(-\infin, \infin)$ 范围内的任何数。因此，WGAN中的鉴别器常被人称作输出一个分数(而非概率)的评论员 (critic)。

Wasserstein 损失函数定义如下:
$\frac{1}{n} \sum \limits_{i=1}^n(y_i p_i)$

为了训练WGAN评论员D，我们计算如下损失: 比较真实图像之预测 $p_i=D(X_i)$ 与响应 $y_i=1$ ，以及比较生成图像之预测 $p_i=D(G(z_i))$ 与响应 $y_i=-1$ 。因此，对于WGAN评论员，最小化损失函数可以用下式表示:

$\min \limits_{D} -(\mathbb{E}_{x \sim p_x} [D(x)] - \mathbb{E}_{z \sim p_z} [D(G(z)])$

换句话说，WGAN评论员试图最大化真实图像和生成图像预测之差。

为了训练WGAN生成器，我计算如下损失: 比较生成图像之预测 $p_i=D(G(z_i))$ 与响应 $y_i=1$ 。因此，对于WGAN生成器，最小化损失函数可以写作如下式：
$\min \limits_{G} -(\mathbb{E}_{z \sim p_z} [D(G(z)])$

换句话说，WGAN生成器试图生成图像，且这些生成图像在评论员视角打分越高越好(也即，评论员被糊弄了，以为她们生成的为真)。

Lipschitz限制

现在，我们不再使用sigmoid函数将输出限制在通常的[0,1]范围，而是允许评论员输出 $(-\infin, \infin)$ 范围内的任何数，这可能让你感到惊讶。因此，Wasserstein损失可能非常大，这通常会令人不安: 在神经网络中我们常常倾向于避免大的数字。

实际上，WGAN的作者指出，为了让Wasserstein损失函数生效，我们还需要在评论员上施加额外的限制。具体的，我们要求评论员是一个 1-Lipschitz 连续函数。让我们把这一点单拎出来，从细节上看看这到底意味着什么。

评论员是一个函数D，将一幅图像转换为一个预测。我们说该函数是 **1-Lipschitz **的，如果它对于任何两张输入图像 $x_1$ 和 $x_2$ ，均能满足下列不等式:

$\frac{|D(x_1)-D(x_2)|}{|x_1 - x_2|} \leq 1$

这里， $x_1 - x_2|$ 是两张图像的绝对像素差值之平均， $D(x_1)-D(x_2)|$ 是评论员预测之差的绝对值。本质上，我们对于两张图像之评论员预测变化的速率做了一个限制(例如，梯度之绝对值在各处都近似为1)。我们可以看到，图4-11中的一个 Lipschitz连续一维函数满足要求 — 存在一个双圆锥(白色)其顶点可以沿着曲线平移，使得曲线总是完全在这两个圆锥外 (参考维基百科)。换句话说，在任何点上曲线起伏的速率都有一个限制。

小贴士
如果你想更深入理解为什么 Wasserstein损失只有在施加此限制方可生效背后的数学合理性，Jonathan Hui 提供了一个很棒的解释。

强制 Lipschitz 限制

在原始的WGAN论文中，作者指出了施加Lipschitz 限制的一种可行方法: 在每批次训练后，将评论员权重修建并限制在一个很小的范围 $[- 0.01, 0.01]$ 。

对这种方法的一个批评意见是：随着我们修剪权重，评论员学习的能力逐渐消失。实际上，即使在原始的WGAN论文中，作者都提到:“在施加Lipschitz限制上，权重裁剪显然是一个糟糕的方法。” 一个强大的评论员对于WGAN是很重要的，因为没有准确的梯度，生成器就无法学会如何调整权重来生成更好的样本。

因此，其他的研究者亦在寻找施加Lipschitz限制并提升WGAN容量以学习复杂特征的替代方法。带梯度惩罚的WGAN就是其中的一种方法。

在介绍这一变种的论文中，作者展示了如果通过损失函数中添加一个梯度惩罚项来施加Lipschitz限制，该项可以在评论员模型之梯度范数偏离1时施加惩罚。这将带来一个稳定的多的训练过程。

在下一章节中，我们将看看如何在我们的评论员中将此额外的项引入损失函数。

梯度惩罚损失

图4-12 是WGAN-GP评论员训练过程的一个框图。如果我们将它与原始的鉴别器训练过程(图4-5)进行比较，我们可以看到关键增加的项目在于Wasserstein损失作为真假图像的损失，并将梯度惩罚项目作为整体损失函数的一部分。

梯度惩罚损失度量输入图像预测梯度范数与 1之间的均方差。模型自然会倾向于找到那些使得梯度惩罚项最小化的权重，从而鼓励模型符合Lipschitz限制。

事实上，在训练过程中要计算各处的梯度是不现实的，因此 WGAN-GP 只是对于一些点的梯度进行评估。为了确保均衡的混合，我们使用一组随机的内插图像(连接一批真实图像和一批虚假图像对)，如图4-13所示。

在示例4-8中，我们给出了梯度惩罚的计算代码。

def gradient_penalty(self, batch_size, real_images, fake_images):
	# batch中的每幅图像得到一个介于0到1之间的随机数，存在向量 alpha中
	alpha = tf.random.normal([batch_size, 1, 1, 1], 0.0, 1.0)
	diff = fake_images - real_images
 	# 计算一组内插图
	interpolated = real_images + alpha * diff
	
	with tf.GradientTape() as gp_tape:
		gp_tap.watch(interpolated)
		# 评论员对每幅内插图像打分
		pred = self.critic(interpolated, training = True)
	# 对于输入图像，计算预测梯度
	grads = gp_tape.gradient(pred, [interpolated])[0]
	# 计算此向量之L2范数
	norm = tf.sqrt(tf.reduce_sum(tf.square(grads), axis=[1,2,3]))
	# 函数返回 L2范数和1之间的均方距离
	gp = tf.reduce_mean((norm - 1.0) ** 2)

	return gp

WGAN-GP之训练

使用Wasserstein损失函数的一个关键优点在于，我们不在需要担心生成器和评论员训练之间的平衡—实际上，当使用Wasserstein损失时，在更新生成器之前，评论员需要训练到收敛，以确保生成器之梯度能够精确更新。这与标准GAN有所不同，在标准GAN中我们不希望鉴别器过分强大。

因此，通过Wasserstein GANs，我们可以在两次生成器更新之间多次训练评论员，以确保其接近收敛。实际应用中一个典型的比例是: 每更新一次生成器，做3-5次评论员更新。

现在，我们引入了Wasserstein-GP背后的两大关键概念 — Wasserstein损失和包含在评论员损失函数中的梯度惩罚项。包含了所有这些思想的 WGAN模型训练步骤如下示例4-9所示。

def train_step(self, real_images):
	batch_size = tf.shape(real_images)[0]
	
	# 进行评论员更新
	for i in range(3):
		random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))
		with tf.GradientTape() as tape:
			fake_images = self.generator(random_latent_vectors, training = True)
			fake_predictions = self.critic(fake_images, training = True)
			real_predictions = self.critic(real_images, training = True)
			
			# 计算评论员Wasserstein损失 --- 伪造图像和真实图像的平均预测之差
			c_wass_loss = tf.reduce_mean(fake_predictions) - tf.reduce_mean(real_predictions)
			# 计算梯度损失惩罚项 (见示例4-8)
			c_gp = self.gradient_penalty(batch_size, real_images, fake_images)
			# 评论员损失函数是Wasserstein损失和梯度惩罚的加权和
			c_loss = c_wass_loss + c_gp * self.gp_weight
		
		c_gradient = tape.gradient(c_loss, self.critic.trainable.variables)
		# 更新评论员权重
		self.c_optimizer.apply_gradients(zip(c_gradient, self.critic.trainable_variables))
	
	random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))

	with tf.GradientTape() as tape:
		fake_images = self.generator(random_latent_vectors, training = True)
		fake_predictions = self.critic(fake_images, training = True)
		# 计算生成器之Wasserstein损失
		g_loss = -tf.reduce_mean(fake_predictions)
	
	gen_gradient = tape.gradient(g_loss, self.generator.trainable_variables)
	# 更新生成器之权重
	self.g_optimizer.apply_gradients(zip(gen_gradient, self.generator.trainable_variables))

	self.c_loss_metric.update_state(c_loss)
	self.c_wass_loss_metric.update_state(c_wass_loss)
	self.c_gp_metric.update_state(c_gp)
	self.g_loss_metric.update_state(g_loss)
	
	return {m.name: m.result() for m in self.metrics}

WGAN-GP之Batch Normalization
在训练WGAN-G之前，我们还有一点需要注意: 评论员网络中不要用BN层。这是因为BN层会在相同批次的图像间构建相关性，这会导致梯度惩罚损失有效性缺失。实验结果表明: 即使评论员没有BN层，WGAN-GPs仍然可以产生比较好的结果。

目前，我们覆盖了标准GAN和WGAN-GP的几点关键差异，再回顾一下：

WGAN-GP 使用Wasserstein损失。
WGAN-GP使用标签1(真实图像)，标签-1(伪造图像)。
在评论员的最后一层没有sigmoid激活函数。
评论员损失函数中包含了一个梯度惩罚项。
在每次更新生成器之前，多次训练评论员。
评论员网络中没有batch normalization层。

WGAN-GP分析

让我们看看训练25个epochs之后生成器的一些示例输出(图4-14)。

模型学到了脸部的高层次特征，没有明显的模式坍塌出现。

我们也看到了损失函数如何随着时间演化 — 评论员和生成器的损失都高度稳定且收敛。

如果我们比较上一章VAE与WGAN-GP的输出，我们可以看到GAN图像普遍更锐利 — 尤其是头发和背景之间的清晰度。这通常是合理的：VAE更倾向于生成模糊彩色边缘的柔和图片，GANs则倾向于生成锐利，更清晰的图片。

另一个事实是，GANs比VAEs更难于训练，一般需要更长的训练时间才能达到满意的质量。但是，目前很多经典的生成式模型都是基于GAN的，因为在GPU上训练大规模GANs的收益是明显的。

条件GAN (CGAN)

截至目前，在本章中，我们已经构建了足以从给定训练集出发生成真实感图像的GANs。但是，我们无法控制想要生成的图像类别 - 例如，一个男人或女人的脸，或者一个大的或小的积木。我们可以从隐空间采样一个随机点，但是对于这个采样点将生成何种图片，我们目前还没有理解的能力。

在本章的最后一部分，我们将注意力转向构建可控生成的GAN — 即所谓的条件GAN。这一思想首次提出于 Mirza和Osindero等在2014年提出的 “Conditional Generative Adversarial Nets”，它是GAN架构的一个简单扩展。

运行示例代码
本示例代码可以在Jupyter Notebook的以下路径找到: “notebooks/04_gan/03_cgan/cgan.ipynb”。这部分代码修改自Keras官网上Sayak Paul的杰出CGAN教程。

CGAN架构

在本例中，我们将以人脸数据集金发属性为条件来构建CGAN。也即，我们可以显式指出生成的图像是否金发。CelebA数据集提供了这一标签。

高级CGAN架构如图4-16所示。

标准GAN和CGAN的核心差别在于，在CGAN中，我们向生成器和评论员传递了标签相关的额外信息。在生成器中，这个就是简单的以独热编码向量插入到隐空间。在评论员中，我们把标签信息作为额外的通道加入到RGB图像。我们通过重复独热编码向量来填充与输入图像相同的形状。

CGANs之所以能够生效，是因为评论员有了关于图像内容的额外信息，因此生成器必须确保其输出图像与给定的标签一致，以此来保持对评论员的糊弄。如果生成器产生了完美的图片，但是与图片标签不一致，那么评论员可以直接判断造假，因为图片和标签不匹配。

小贴士
在我们的例子中，我们的独热标签长度为2，因为只有两类(金发或非金发)。但是，如果你想，你可以有任意多标签 — 例如，你可以在FashionMNIST上训练一个CGAN，通过在生成器中引入长度为10的独热标签向量，并在评论员中引入10个额外的独热编码标签通道，我们可以条件化输出10种不同的衣物类别。

在架构上，我们唯一需要做的修改就是将标签信息聚合到生成器和评论员已有的输入中，如下示例4-10所示。

# 图像通道和标签通道分别传入评论员，并连接起来
critic_input = layers.Input(shape=(64,64,3))
label_input = layers.Input(shape=(64,64,2))
x = layers.Concatenate(axis=-1)([critic_input, label_input])
...
# 隐向量和类别标签分别传入生成器，并在Reshape之前连接起来
generator_input = layers.Input(shape=(32,))
label_input = layers.Input(shape=(2,))
x = layers.Concatenate(axis=-1)([generator_input, label_input])
x = layers.Reshape((1,1,34))(x)

CGAN训练

我们还需要在CGAN的train_step上做一些改变，来匹配生成器和评论员的新输入格式，如下样例4-11所示。

def train_step(self, data):
	# 从输入数据中将图像和标签解封
	real_images, one_hot_labels = data
	# 将独热编码向量扩展至与图像相同的尺寸(64x64)
	image_one_hot_labels = one_hot_labels[:, None, None,:]
	image_one_hot_labels = tf.repeat(image_one_hot_labels, repeats = 64, axis = 1)
	image_one_hot_labels = tf.repeat(image_one_hot_labels, repeats = 64, axis = 2)
	
	batch_size = tf.shape(real_images)[0]
	
	for i in range(self.critic_steps):
		random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))
		with tf.Gradient() ass tape:
			# 生成器喂养了两个输入 --- 随机隐向量 + 独热编码标签向量
			fake_images = self.generator([random_latent_vectors, one_hot_labels], training = True)
			# 评论员喂养了两个输入 --- 真假图像 + 独热编码标签通道
			fake_predictions = self.critic([fake_images, image_one_hot_labels], training = True)
			real_predictions = self.critic([real_images, image_one_hot_labels], training = True)

			c_wass_loss = tf.reduce_mean(fake_predictions) - tf.reduce_mean(real_predictions)
			# 梯度惩罚函数也要求独热标签通道
			c_gp = self.gradient_penalty(batch_size, real_images, fake_images, image_one_hot_labels)
			c_loss = c_wass_loss + c_gp * self.gp_weight
		
		c_gradient = tape.gradient(c_loss, self.critic.trainable_variables)
		self.c_optimizer.apply_gradients(zip(c_gradient, self.critic.trainable_variables))
	
	random_latent_vecotrs = tf.random.normal(shape=(batch_size, self.latent_dim))
	with tf.GradientTape() as tape:
		# 评论员训练步骤的改变也可以应用于生成器训练步骤
		fake_images = self.generator([random_latent_vectors, one_hot_labels], training = True)
		fake_predictions = self.critic([fake_images, image_one_hot_labels], training = True)
		g_loss =  - tf.reduce_mean(fake_predictions)
	
	gen_gradient =  tape.gradient(g_loss, self.generator.trainable_variables)
	self.g_optimizer.apply_gradients(zip(gen_gradient, self.generator.trainable_variables))

CGAN分析

通过输入一个特定的独热向量编码标签，我们可以控制CGAN输出。例如，为了生成非金发人脸，我传入向量[1, 0]。为了生成金发人脸，我们传入向量[0,1]。

图4-17给出了CGAN的输出。这里，我们保持随机隐向量不变，仅仅改变条件类别向量。很显然，CGAN已经将学会了如何利用标签向量来调控头发颜色属性。令我们印象深刻的是，图像的剩余部分并未改变 — 这表明，GAN可以把隐空间中的点按照单个特征解耦合的方式来进行组织。

小贴士
如果你的数据集中提供了标签，即使你不需要根据label来生成条件化输出，把标签作为GAN输入的一部分通常也是一个好主意，因为它们会提升生成图像的质量。你可以把标签理解为像素输入之外的一个高度信息化的延伸。

本章小结

在本章中，我们探索了三种不同的生成对抗网络(GAN): DCGAN, 更复杂的带梯度惩罚的Wasserstein GAN (WGAN-GP), 以及条件GAN (CGAN)。

所有的GANs都是由生成器 vs 鉴别器 (或评论员) 架构刻画，其中鉴别器努力区分真实和伪造图像，生成器致力于糊弄鉴别器。通过在这两个相反的训练过程中做均衡，GAN的生成器渐渐会学到如何生成与训练集中样本相似的观察。

首先，我们观察了怎么训练DCGAN来产生玩具积木图形。网络可以学会如何真实的用图像表示3D物体，包括精确表示阴影，形状，纹理等。我们也探索了GAN训练失败的多种原因，包括模式坍塌以及梯度消失。

接下来，我们探索了Wasserstein损失函数如何修复GAN中的大部分问题，并使得GAN的训练过程更稳定。WGAN-GP 在训练过程中通过在损失函数中引入一个梯度范数限制项(强制范数接近1)强制了 1-Lipschitz 要求。

我们应用WGAN-GP到人脸生成问题，并看到了我们如何从标准正态分布采样点，并进而生成新的人脸。这个采样过程很接近VAE，尽管GAN生成的人脸大有不同 — 通常更锐利。

最后，我们构建了CGAN，这允许我们控制图像产生的类别。这是因为，通过传入标签作为生成器和评论员的输入，给了网络所需的额外信息来根据给定标签产生条件化输出。

总之，我们已经看到了GAN框架多么灵活，并且能够应用于多个有趣的问题域。特别的，GANs已经驱动了图像生成领域的重要发展，如我们将在第10章中看到的。

在下一章，我们将探索一个不同的生成式模型家族—自回归模型，它特别适合于对序列数据建模。

译者的话: 在 diffusion 模型近乎一统天下的今天，仍然有诸多研究者基于GANs提出了许多创新性工作(如dragGAN等)，在一些场景下取得了比扩散模型更好的效果。对于致力于生成式人工智能研究的朋友来说，GAN相关的技术进展仍需要保持关注。后期，我也将添加一些关于GANs的相关工作介绍。

你可能感兴趣的:(深度学习,生成对抗网络,人工智能,AIGC)

从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
骗子太猖獗了，打着摩根士丹利何晓斌名义带股民进入虚假宝丰能源节能减排碳交易市场，大量股民被骗真相曝光墨守成法
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！这些新平台打着“低风险”、“高收益”、“慈善公益投票”等噱头先让投资人尝到甜头再通过恶意操作将投资人
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin