decinzhang

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！

生成式对抗网络(GAN)原理讲解以及实战！

文章目录

一. 判别式模型和生成式模型
二. 生成式对抗网络(GAN)原理讲解

2.1. 生成对抗网络-现实世界的启发
2.2. 生成对抗网络的原理
2.3. 生成对抗网络的训练

2.3.1. 生成对抗网络的目标函数
2.3.2. 判别模型的目标函数
2.3.3. 生成模型的目标函数

2.4. 纳什均衡

2.4.1. 判别器状态
2.4.2. 生成器状态
2.4.3. 纳什均衡点

2.5. 生成对抗网络的实现

三. 生成式对抗网络(GAN)实战

3.1. GAN的训练稳定性

四. 如何理解转置卷积(反卷积)

4.1. 普通卷积理解动画
4.2. 普通卷积深入理解
4.3. 转置卷积深入理解
4.4. 形象化的转置卷积
4.5. 转置卷积动画演示

参考文章及推荐

一. 判别式模型和生成式模型

开始之前可以先看一下我之前的文章： 2.6. 判别式模型和生成式模型，更仔细点!

深度学习模型大概可以分为如下两类：

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第1张图片

注意： 目前深度学习取得的成果主要集中在判别式模型，所谓的判别式模型就是：将一个高维的感官输入(比如图像)映射为类别标签，它是属于车还是人之类的，这些判别式模型主要归功于反向传播理论。相比之下生成式模型进展缓慢一些。
这里：生成式模型的研究意义如下：

① 是对我们处理高维数据和复杂概率分布能力很好的检测。

② 当面临缺乏数据或失数据时，我们可以通过生成模型来补足。比如，用在半监督学习中。因为现在我们取得的很好性能里面，其实很多都是基于监督学习的，这就需要很多良好的标注的样本的，那么经常并没有那么多的样本，怎么生成一些样本，弥补这个不足。

③ 可以输出多模态(multimodal multimodal)等等。

还有一些其它生成式模型(这些方法都有明显的缺点：计算复杂度高。这节将的GAN就是克服了这一点)：

① 最大似然估计： 以真实样本进行最大似然估计，参数更新直接来自于样本数据，导致学习到的生成模型收到限制。

② 近似法： 由于目标函数难解一般只能在学习过程中逼近目标函数的下界，并不是对目标函数逼近。

③ 马尔科夫链： 计算复杂度高。

④ 等等！

生成式模型方法介绍：

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第2张图片

这里： 因为GAN是生成式模型的一种，这里介绍下生成式方法，上面这幅图右边每个小黑点表示真实分布的一个数据点(比如图像)，蓝色轮廓表示以高概率包含了真实图像的一个图像样本空间，生成式模型就是将高斯噪声矢量映射为一个生成概率分布，使得这个生成概率分布尽量和真实数据分布相一致(例如，使得KL散度 最小)。简言之就是逐渐撑开图中中间绿色的区域使得绿色区域形状逐渐逼近右边真实的蓝色区域的形状，最终使得他们一样，这就是最终优化的目的。

这里： 在这个优化过程中传统的生成式方法往往采用最大似然函数作为目标函数(存在计算复杂度高问题)。然而GAN在生成模型之外引入一个判别模型，通过二者之间的对抗训练达到优化目的。

二. 生成式对抗网络(GAN)原理讲解

2.1. 生成对抗网络-现实世界的启发

什么是生成对抗网络，我们知道现实世界中名人的真迹字画往往会存在一些仿制的赝品，例如下图第一行为真迹，第二行为赝品，因此有一种工作叫做鉴定师，判断哪些是真迹，哪些是赝品，仿制者和鉴定师之间构成了博弈。为了更好的鉴定真伪，鉴定师不断学习。而仿制者为了达到以假乱真的目的，也要不断的学习。所以双方水平的提高，都有助于提高彼此的水平。

2.2. 生成对抗网络的原理

生成对抗网络(Generative Adversarial Network，GAN)属于生成式模型的一种，由Ian Goodfellow 2014年首先提出，此后到今天成为了深度学习中最热门的研究方向之一。

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第3张图片

这里： 生成网络G的输入是一个来自常见概率分布的随机噪声矢量 $\boldsymbol z$ (随机噪声通常从均匀分布或高斯分布中获取)，经过神经网络生成一张图片；判别网络D的输入是图片一张图片 $\boldsymbol x$ ，但是 $\boldsymbol x$ 来源有两种可能，可能是真实图片也可能是刚刚判别其生成的假的图像 $\boldsymbol z$ ，判别网络D的输出是一个标量(0到1之间的数)，用来代表 $\boldsymbol x$ 是真实图片的概率，真为1，假为0。

为什么GAN的性能这么强大呢？ GAN的核心思想来源于博弈论的纳什均衡，它设定参与游戏双方分别为一个生成器和一个判别器，生成器的目的是尽量去学习真实的数据分布，而判别器的目的是尽量正确判别输入数据是来自真实数据还是来自生成器(对于真实图像输出1，对于判别器生成的假图像输出0)；为了取得游戏胜利，两个参与者需要不断优化，各自提高自己的生成能力和判别能力，这个学习的优化过程就是寻找二者之间的一个纳什均衡。

2.3. 生成对抗网络的训练

开始之前可以先看一下我之前的文章： 信息量、信息熵、交叉熵、KL散度(相对熵)、JS散度以及逻辑损失！

2.3.1. 生成对抗网络的目标函数

GAN的优化问题是一个极小-极大化问题，GAN的目标函数：

$\min _{G} \max _{D} V(D, G)\tag{1}$ $\begin{aligned} V(D, G)&= \mathrm{E}_{ x \sim p_{data}(x)}[\log D( x)]+ E_{ z \sim p_{ z}( z)}[\log (1-D(G( z)))] \\ &= \mathrm{E}_{x \sim p_{data}(x)}[\log D( x)]+ E_{x \sim p_{ g}( x)}[\log (1-D(x))] \end{aligned} \tag{2}$ 其中： $x$ 采样于真实数据分布 $p_{data}(x)$ ， $z$ 采样于先验分布 $p_{z}(z)$ (例如高斯噪声)。其实和一般的基于sigmoid二分类模型一样，我们只需要最下化它的交叉熵。因为这个判别网路要做的就是对这个对象分类，只不过这里不像Resnet那样1000个类，这里就是一个二分类，判断图像是真还是假(最后只有一个神经元)。
注意： 在连续空间上，期望可以写成积分的形式，此时上式 $(2)$ 可以写成：
$\begin{aligned} V(D, G)&=\int_{x} p_{data}(x) \log (D({x})) d x+\int_{ z} p_{{z}}({z}) \log (1-D(g({z}))) d z \\ &= \int_{ x}\left[p_{data}(x) \log (D( x)) +p_{g}( x) \log (1-D( x))\right] d x \end{aligned} \tag{3}$ 上式在
$D_{G}^{*}( x)=\frac{p_{d a t a}( x)}{p_{d a t a(x)}+p_{g(x)}}\tag{4}$
处取得最小值，此处即是判别器的最优解。 由此可知，GAN估计的是两个概率分布密度的比值，这也是和其他基于下界优化或者马尔科夫链方法的关键不同之处。

采用交替优化的方法：

① 先保持生成器 $G$ 不变，优化(或者叫训练)判别器 $D$ ，使得 $D$ 的判别准确率最大化(提升鉴别器的鉴别能力)。

② 再保持判别器 $D$ 不变，优化生成器 $G$ ，使得判别准确率最小化(让鉴别器鉴别不出来真假)。

当且仅当 $p_{data}=p_g$ 时，达到全局最优。

2.3.2. 判别模型的目标函数

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第4张图片

判别模型的目标函数可以这样理解： 对于判别网络 $D$ ，它的目标是能够很好地分辨出真样本 $x$ 与假样本 $G (z)$ 。以图片生成为例。它的目标是最小化图片的预测值和真实值之间的交叉熵损失函数：
$\min _{\theta} \mathcal{L}=\operatorname{CrossEntropy}\left(D_{\theta}\left({x}\right), y_{x}, D_{\theta}\left(D(x)\right), y_{z}\right) \tag{5}$ 其中： $D_{\theta}({x})$ 表示真实样本 $x$ 在判别网络 $D_{\theta}$ 的输出， $\theta$ 为判别网络的参数集， $D_{\theta}({G(z)})$ 为生成样本 $z$ 在判别网络的输出， $y_{x}$ 为 $x$ 的标签，由于真实样本标注为真，故 $y_{x}=1$ ， $y_{z}$ 为生成样本 $z$ 的标签，由于生成样本标注为假，故 $y_{z}=0$ 。二分类问题的交叉熵损失函数定义为：
$\mathcal{L}=-\sum_{x \sim p_{data}(x)} \log D_{\theta}\left(x\right)-\sum_{z \sim p_{ z}( z)} \log \left(1-D_{\theta}\left(G(z)\right)\right) \tag{6}$ 因此判别网络 $D$ 的优化目标是： $\theta^*=\underset{\theta}{\operatorname{argmin}}\left[-\sum_{x \sim p_{data}(x)} \log D_{\theta}\left(x\right)-\sum_{z \sim p_{ z}( z)} \log \left(1-D_{\theta}\left(G(z)\right)\right)\right] \tag{7}$ 把 $\min _{\theta} \mathcal{L}$ 问题转换为 $\max _{\theta}-\mathcal{L}$ ，即
$\min _{\theta} \mathcal{L}=\max _{\theta} -\mathcal{L} \tag{8}$ 写成期望形式：
$\begin{aligned} \mathcal{L}&= \mathrm{E}_{ x \sim p_{data}(x)}[\log D_{\theta}( x)]+ \mathrm{E}_{ z \sim p_{ z}( z)}[\log (1-D_{\theta}(G( z)))] \\ &= \mathrm{E}_{x \sim p_{data}(x)}[\log D_{\theta}( x)]+ \mathrm{E}_{x \sim p_{ g}( x)}[\log (1-D_{\theta}(x))] \end{aligned} \tag{9}$

2.3.3. 生成模型的目标函数

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第5张图片

注意： 因为目标函数的第一项不包含 $G$ ，是常数，所以可以直接忽略不受影响。

生成器 $G$ 的损失函数(就是判别器损失函数前面取负号，因为生成器和判别器它们之间的训练是一个二元零和博弈，博弈双方的利益就是零，也就是一方的多得就是另一方的所失。所以这里前面加一个负号就得到了生成器G的损失函数)，其实也就是最小化和最大化之间差了一个负号的关系：

$Obj^{G}=-Obj^{D}\tag{10}$

生成模型的目标函数可以这样理解： 对于生成网络 $G (z)$ ，我们希望 $G (z)$ 能够很好地骗过判别网络 $D$ ，假样本 $G (z)$ 在判别网络的输出越接近真实的标签越好。也就是说，在训练生成网络时，希望判别网络的输出 $D (G (z)))$ 越逼近1 越好，最小化 $D (G (z)))$ 与 $1$ 之间的交叉熵损失函数：
$\min _{\phi} \mathcal{L}=\operatorname{CrossEntropy}\left(D\left(G_{\phi}({z})\right), 1\right)=-\log D\left(G_{\phi}(\mathbf{z})\right)\tag{11}$ 其中： $\phi$ 为生成网络的参数集。把 $\min _{\phi} \mathcal{L}$ 问题转换为 $\max _{\phi}-\mathcal{L}$ ，即
$\min _{\phi} \mathcal{L}=\max _{\phi}-\mathcal{L}\tag{12}$ 并写成期望形式：
$\phi^{*}=\underset{\phi}{\operatorname{argmax}} \left[\mathrm{E}_{{z} \sim p_{z}(z)} \log D\left(G_{\phi}({z})\right)\right]\tag{13}$ 再次等价转化为： $\phi^{*}=\underset{\phi}{\operatorname{argmin}} \left[\mathrm{E}_{{z} \sim p_{z}(z)} \log D\left(1-G_{\phi}({z})\right)\right]\tag{14}$

2.4. 纳什均衡

现在从理论层面进行分析，通过博弈学习的训练方式，生成器 $G$ 和判别器 $D$ 分别会达到什么平衡状态。具体地，我们将探索以下两个问题：

①. 固定 $G$ ， $D$ 会收敛到什么最优状态 $D^*$ ?

②. 在 $D$ 达到最优状态 $D^*$ 后， $G$ 会收敛到什么状态?

2.4.1. 判别器状态

判别器状态： 回顾GAN的损失函数：
$\begin{aligned} \mathcal{L}\left(G, D\right) &=\int_{x} p_{data}(x) \log (D({x})) d x-\int_{ z} p_{{z}}({z}) \log (1-D(g({z}))) d z \\ &= \int_{ x}\left[p_{data}(x) \log (D( x)) +p_{g}( x) \log (1-D( x))\right] d x \end{aligned} \tag{15}$ 对于判别器 $D$ ，优化的目标是最大化 $\mathcal{L}\left(G, D\right)$ 函数，需要找出如下函数的最大值，其中 $\theta$ 为判别器 $D$ 的网络参数：
$f_{\theta}=p_{data}(x) \log (D(x)) +p_{g}(x) \log (1-D(x))\tag{16}$

我们来考虑 $f_{\theta}$ 更通用的函数的最大值情况： $\log x+B \log (1- x)\tag{17}$ 要求得函数 $f (x)$ 的最大值。考虑 $f (x)$ 的导数： $\begin{aligned} \frac{\mathrm{d} f(x)}{\mathrm{d} x}&=A \frac{1}{\ln 10} \frac{1}{x}-B \frac{1}{\ln 10} \frac{1}{1-x} \\ &= \frac{1}{\ln 10}\left(\frac{A}{x}-\frac{B}{1-x}\right)\\ &=\frac{1}{\ln 10} \frac{A-(A+B) x}{x(1-x)} \end{aligned} \tag{18}$ 令 $\frac{\mathrm{d} f(x)}{\mathrm{d} x}=0$ ，我们可以求得 $f (x)$ 函数的极值点 $x=\frac{A}{A+B}\tag{19}$ 因此，可以得知， $f_{\theta}$ 函数的极值点同样为： $D_{\theta}=\frac{p_{data}(x)}{p_{data}(x)+p_{g}(x)}\tag{20}$ 也就是说，判别器网络 $D_{\theta}$ 处于 $D_{\theta ^*}$ 状态时， $f_{\theta}$ 函数取得最大值， $\mathcal{L}\left(G, D\right)$ 函数也取得最大值。

现在回到最大化 $\mathcal{L}\left(G, D\right)$ 的问题， $\mathcal{L}\left(G, D\right)$ 的最大值点在： $D^{*}=\frac{A}{A+B}=\frac{p_{data}(x)}{p_{data}(x)+p_{g}(x)}\tag{21}$ 此时也是 $D_{\theta}$ 的最优状态 $D_{\theta ^*}$ 。

2.4.2. 生成器状态

开始之前可以先看一下我之前的文章，看一下JS散度：信息量、信息熵、交叉熵、KL散度(相对熵)、JS散度以及逻辑损失！

我们先介绍一下与KL散度类似的另一个分布距离度量标准：JS 散度，它定义为KL 散度的组合，首先给出DS散度： $D_{K L}(p \| q)=\int_{x} p(x) \log \frac{p(x)}{q(x)} d x\tag{22}$ 然后再给出DS散度： $D_{J S}(p \| q)=\frac{1}{2} D_{K L}\left(p \| \frac{p+q}{2}\right)+\frac{1}{2} D_{K L}\left(q \| \frac{p+q}{2}\right)\tag{23}$ 其中： JS 散度克服了KL散度不对称的缺陷

当 $D_{\theta}$ 达到最优状态 $D_{\theta ^*}$ 时， 我们来考虑此时 $p_{data}$ 和 $p_{g}$ 的JS 散度：
$D_{J S}\left(p_{data} \| p_{g}\right)=\frac{1}{2} D_{K L}\left(p_{data} \| \frac{p_{data}+p_{g}}{2}\right)+\frac{1}{2} D_{K L}\left(p_{g} \| \frac{p_{data}+p_{g}}{2}\right)\tag{24}$ 根据 KL 散度的定义展开为：
$\begin{aligned} D_{J S}\left(p_{data} \| p_{g}\right) &=\frac{1}{2}\left(\log 2+\int_{x} p_{data}(x) \log \frac{p_{data}(x)}{p_{data}(x)+p_{g}(x)} d x\right) \\&+\frac{1}{2}\left(\log 2+\int_{x} p_{g}(x) \log \frac{p_{g}(x)}{p_{data}(x)+p_{g}(x)} d x\right) \end{aligned}\tag{25}$ 合并常数项可得：
$\begin{aligned} D_{J S}\left(p_{data} \| p_{g}\right) &=\frac{1}{2}(\log 4) +\frac{1}{2}\left(\int_{x} p_{data}(x) \log \frac{p_{data}(x)}{p_{data}(x)+p_{g}(x)} d x+\int_{x} p_{g}(x) \log \frac{p_{g}(x)}{p_{data}(x)+p_{g}(x)} d x\right) \end{aligned}\tag{26}$ 考虑在判别网络到达 $D_{\theta ^*}$ 时，此时的损失函数为：
$\begin{aligned} \mathcal{L}\left(G, D^{*}\right) &=\int_{x} p_{data}(x) \log \left(D^{*}(x)\right)+p_{g}(x) \log \left(1-D^{*}(x)\right) d x \\&=\int_{x} p_{data}(x) \log \frac{p_{data}(x)}{p_{data}(x)+p_{g}(x)} d x+\int_{x} p_{g}(x) \log \frac{p_{g}(x)}{p_{data}(x)+p_{g}(x)} d x \end{aligned}\tag{27}$ 因此在判别网络到达 $D_{\theta ^*}$ 时， $D_{J S}\left(p_{data} \| p_{g}\right)$ 和 $\mathcal{L}\left(G, D^{*}\right)$ 满足关系：
$D_{J S}\left(p_{data} \| p_{g}\right)=\frac{1}{2}\left(\log 4+\mathcal{L}\left(G, D^{*}\right)\right)\tag{28}$ 即：
$\mathcal{L}\left(G, D^{*}\right)=2 D_{J S}\left(p_{data} \| p_{g}\right)-2 \log 2\tag{29}$

对于生成网络 $G$ 而言，训练目标是 $\min _{G} \mathcal{L}(G, D^{*})$ ，考虑到JS 散度具有性质：
$D_{J S}\left(p_{data} \| p_{g}\right) \geq 0\tag{30}$ 因此 $\mathcal{L}(G, D^{*})$ 取得最小值仅在 $D_{J S}\left(p_{data} \| p_{g}\right) = 0$ 时(此时 $p_{data} =p_{g}$ )， $\mathcal{L}(G, D^{*})$ 取得最小值： $\mathcal{L}\left(G^{*}, D^{*}\right)=-2 \log 2\tag{31}$ 此时生成网络 $G^{*}$ 的状态是：
$p_{g}=p_{data}\tag{32}$ 即 $G^{*}$ 学到的分布 $p_{g}$ 与真实分布 $p_{r}$ 一致，网络达到平衡点，此时： $D^{*}=\frac{p_{data}(x)}{p_{data}(x)+p_{g}(x)}=0.5\tag{33}$

2.4.3. 纳什均衡点

通过上面的推导，我们可以总结出生成网络G 最终将收敛到真实分布，即： $p_{g}=p_{data}\tag{34}$ 此时生成的样本与真实样本来自同一分布，真假难辨，在判别器中均有相同的概率判定为真或假，即 $D(\cdot)=0.5\tag{35}$
此时损失函数为
$\mathcal{L}\left(G^{*}, D^{*}\right)=-2 \log 2\tag{36}$

2.5. 生成对抗网络的实现

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第6张图片

这里： 实际上生成式对抗网络并没有对生成器和判别器的具体结构进行限制，目前使用比较多的使用卷积神经网络对生成式对抗网络进行实现，叫做DCGAN(Deep CNN GNN!)。它是在生成对抗网络基础上增加了深度卷积神经网络结构。

生成器： 图中输入是一个100维的向量(就是前面说的噪声向量)，去的网路第一层是全连接层，从第2层开始它用转置的卷积做一个上采样，越靠后的层图像的尺寸越大，从 $4 \times 4 = > 8 \times 8 =, . . ., = > 64 \times 64$ 。另外转置卷积进行上采样的过程中也逐渐减少了通道的数量，从 $1024 = > 512 = >, . . ., = > 128 = > 3 (R G B 三通道)$ 。最后输出的是一张 $64 \times 64$ 三通道的图像。

判别器： 就是一个普通的分类网络，特别之处就是一个二分类模型，用来判断输入图像是真实图像还是生成的图像。它的输入就是一张图像，输出就是这张输入的图像为真实图像的概率。

三. 生成式对抗网络(GAN)实战

3.1. GAN的训练稳定性

GAN训练的时候经常不稳定，下面尝试分析。

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第7张图片

这里： 在GAN训练刚开始的时候， $\sim p_{data}$ 的真实分布，和生成的 $x_g$ 的分布 $x_g \sim p_{g}$ 。这些分布有没有overlapped？刚开始的时候可以想象，生成器不好，生成的肯定是一些噪声，也就是说不可能和真实分布有重叠的。

基于上面这个点，在不overlaped的情况下， $J S$ 散度会出现什么情况？
首先给出KL和JS散度公式： $\begin{array}{l}{D_{K L}(p \| q)=\int_{x} p(x) \log \frac{p(x)}{q(x)} d x} \\ {D_{J S}(p \| q)=\frac{1}{2} D_{K L}\left(p \| \frac{p+q}{2}\right)+\frac{1}{2} D_{K L}\left(q \| \frac{p+q}{2}\right)}\end{array}$ 下面考虑这样一个情况，有两个变量的分布：第一个分布 $P_1$ ， $\forall(x, y) \in P, x=0$ and $\sim U(0,1)$ (0-1的均值分布)。第二个分布 $P_2$ ： $\forall(x, y) \in Q, x=\theta, 0 \leq \theta \leq 1 \text { and } y \sim U(0,1)$ ，图形表示如下：

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第8张图片

只要这 $\theta \neq 0$ ，这两个分布绝对不可能有重叠。下面考虑这种情况，当 $\theta \neq 0$ 时：
$D_{K L}(p \| q)=\sum_{x=0, y \sim U(0,1)} 1 \cdot \log \frac{1}{0}=+\infty$ 这里情况下： 对于 $p$ 分布永远是1， $q$ 只能为0。
$D_{K L}(q \| p)=\sum_{x=\theta, y \sim U(0,1)} 1 \cdot \log \frac{1}{0}=+\infty$ 这里情况下： 也是同样的道理。最终到代入到 $J S$ 散度中去： $D_{J S}(p, q)=\frac{1}{2}\left(\sum_{x=0, y \sim U(0,1)} 1 \cdot \log \frac{1}{1 / 2}+\sum_{x=0, y \sim U(0,1)} 1 \cdot \log \frac{1}{1 / 2}\right)=\log 2$
我们可以发现： 只要 $\theta \neq 0$ ，不管 $\theta$ 是多少，这两个KL散度总是为无穷大，JS总是 $\log 2$ 。这就意味着，两个分布没有交叉重叠的时候，意味KL散度不能很好的量化这两个分布之间的距离(比如：服务员问你吃饱了没？你说没饱，你这信息量给的太少了。服务员没法帮你加菜，不知道几成饱，比如只有一成饱给你加个汉堡，如果你有8成饱给你加个饼干)。就这这个道理，对于两个不一样的分布，这个KL散度或者JS散度，只能给出这么浅显的标准，就有一定的局限性。

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第9张图片

上面很好解释了为什么GAN在刚开始训练的时候容易出现训练不稳定的现象。

可以参考这个链接！

下面又有两个例子参考！

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第10张图片

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第11张图片

四. 如何理解转置卷积(反卷积)

首先声明这部分内容主要摘取自作者：抽丝剥茧，带你理解转置卷积（反卷积）

转置卷积又叫反卷积、逆卷积。一句话解释：逆卷积相对于卷积在神经网络结构的正向和反向传播中做相反的运算。不过转置卷积是目前最为正规和主流的名称，因为这个名称更加贴切的描述了卷积的计算过程，而其他的名字容易造成误导。
我们先说一下为什么人们很喜欢叫转置卷积为反卷积或逆卷积。首先举一个例子，将一个 $4 \times 4$ 的输入通过 $3 \times 3$ 的卷积核在进行普通卷积(无padding, stride=1)，将得到一个 $2 \times 2$ 的输出。而转置卷积将一个 $2 \times 2$ 的输入通过同样 $3 \times 3$ 大小的卷积核将得到一个 $4 \times 4$ 的输出，看起来似乎是普通卷积的逆过程。就好像是加法的逆过程是减法，乘法的逆过程是除法一样，人们自然而然的认为这两个操作似乎是一个可逆的过程。但事实上两者并没有什么关系，操作的过程也不是可逆的。

4.1. 普通卷积理解动画

如下表普通卷积动画：蓝色映射是输入，青色映射是输出。

half/same padding(半填充/相同填充)：保证输入和输出的feature map尺寸相同。

valid padding(有效填充)：完全不使用填充。

full padding(全填充)：在卷积操作过程中，每个像素在每个方向上被访问的次数相同。

arbitrary padding(任意填充)：人为设定填充。

输出尺寸大小为： $\left\lceil\frac{n+2 p-f}{s}+1\right\rceil*\left\lceil\frac{n+2 p-f}{s}+1\right\rceil$ 向上取整， $n$ 表示输入尺寸大小， $p$ 表示padding， $s$ 表示strides， $f$ 卷积核尺寸。或者是 $\left\lfloor \frac{n+2p-f}{s}\right\rfloor+ 1$ 向下取整。

No padding, no strides	Arbitrary padding, no strides	Half padding, no strides

No padding, strides	Padding, strides	Padding, strides (odd)

4.2. 普通卷积深入理解

普通的卷积过程可以直观的理解为一个带颜色小窗户(卷积核)在原始的输入图像一步一步的挪动，来通过加权计算得到输出特征。

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第12张图片

实际在计算机中计算的时候，并不是像这样逐个位置的进行滑动计算，因为这样的效率太低了。计算机会将卷积核转换成等效的矩阵，将输入转换为向量。通过输入向量和卷积核矩阵的相乘获得输出向量。输出的向量经过整形便可得到我们的二维输出特征。
具体的操作如下图所示。由于我们的 $3 \times 3$ 卷积核要在输入上不同的位置卷积 $4$ 次，所以通过补零的方法将卷积核分别置于一个 $4 \times 4$ 矩阵的四个角落。这样我们的输入可以直接和这四个 $4 \times 4$ 的矩阵进行卷积，而舍去了滑动这一操作步骤。

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第13张图片

进一步的，我们将输入拉成长向量(这里按行来拉)，四个 $4 \times 4$ 卷积核也拉成长向量并进行拼接，如下图。

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第14张图片

这里将向量化的图像表示为 $\boldsymbol I$ ，向量化的卷积矩阵为 $\boldsymbol C$ ，输出特征向量为 $\boldsymbol O$ ， 这里都是用的列向量表示。则 $\boldsymbol I^{T} \boldsymbol C=\boldsymbol O^{T}\tag{37}$

如下图所示：

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第15张图片

我们将一个 $1 \times 16$ 的行向量乘以 $16 \times 4$ 的矩阵，得到了 $1 \times 4$ 的行向量。那么反过来将一个 $1 \times 4$ 的向量乘以一个 $4 \times 16$ 的矩阵是不是就能得到一个 $1 \times 16$ 的行向量呢？没错，这便是转置卷积的思想。

4.3. 转置卷积深入理解

一般的卷积操作(这里只考虑最简单的无padding, stride=1的情况)，都将输入的数据越卷越小。根据卷积核大小的不同，和步长的不同，输出的尺寸变化也很大。但是有的时候我们需要输入一个小的特征，输出更大尺寸的特征该怎么办呢？比如图像语义分割中往往要求最终输出的特征尺寸和原始输入尺寸相同，但在网络卷积核池化的过程中特征图的尺寸却逐渐变小。在这里转置卷积便能派上了用场。
在数学上， 转置卷积的操作也非常简单，把正常卷积的操作反过来即可。对应上面公式，我们有转置卷积的公式： $\boldsymbol O^{T} \boldsymbol C^{T}=\boldsymbol I^{T}\tag{38}$

如下图所示：

注意：需要注意的是这两个操作并不是可逆的，对于同一个卷积核，经过转置卷积操作之后并不能恢复到原始的数值，保留的只有原始的形状。所以转置卷积的名字就由此而来，而并不是“反卷积”或者是“逆卷积”，不好的名称容易给人以误解。

4.4. 形象化的转置卷积

但是仅仅按照矩阵转置形式来理解转置卷积似乎有些抽象，不像直接卷积那样理解的直观。所以我们也来尝试一下可视化转置卷积。前面说了在将直接卷积向量化的时候是将卷积核补零然后拉成列向量，现在我们有了一个新的转置卷积矩阵，可以将这个过程反过来，把 $16$ 个列向量再转换成卷积核。以第一列向量为例，如下图：

这里将输入还原为一个 $2 \times 2$ 的张量，新的卷积核由于只有左上角有非零值直接简化为右侧的形式。对每一个列向量都做这样的变换可以得到：

这是一个很有趣的结果，结合整体来看，仿佛有一个更大的卷积核在 $2 \times 2$ 大小的输入滑动(如下图第1张)。但是输入太小，每一次卷积只能对应卷积核的一部分。 我们来把更大的卷积核补全，如下图：

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第16张图片

这里和直接卷积有很大的区别，直接卷积我们是用一个“小窗户”去看一个“大世界”，而转置卷积是用一个“大窗户”的一部分去看“小世界”。这里有一点需要注意，我们定义的卷积核是左上角为 $a$ ，右下角为 $i$ ，但在可视化转置卷积中，需要将卷积核旋转 $180 °$ 后再进行卷积。由于输入图像太小，我们按照卷积核尺寸来进行补零操作，每边的补零数量显而易见是 $2$ ，即 $3 - 1 = 2$ 。这样我们就将一个转置卷积操作转换为对应的直接卷积。如下图：

〖TensorFlow2.0笔记24〗生成式对抗网络(GAN)原理讲解以及实战！_第17张图片

总结一下将转置卷积转换为直接卷积的步骤：(这里只考虑stride=1，padding=0的情况)

设卷积核大小为 $k \times k$ ，输入为方形矩阵。

对输入进行四边补零，单边补零的数量为 $k - 1$ 。

将卷积核旋转 $180 °$ ，在新的输入上进行直接卷积。

这里调用TensorFlow2.0的conv_transpose函数来进行转置卷积

import tensorflow as tf

# 输入: 1张图片, 尺寸2*2, 通道为1
x = tf.reshape(tf.constant([[1,2],
                            [4,5]],dtype=tf.float32), [1, 2, 2, 1])
# kernel: 尺寸3*3, 个数是1
kernel = tf.reshape(tf.constant([[1,2,3],
                                 [4,5,6],
                                 [7,8,9]],dtype=tf.float32), [3, 3, 1, 1])
transpose_conv = tf.nn.conv2d_transpose(x, kernel, output_shape=[1, 4, 4, 1],
                                        strides=[1,1,1,1], padding='VALID')
# 为了方便观察，把维度size=1的去掉。
print(tf.squeeze(x))
print(tf.squeeze(kernel))
print(tf.squeeze(transpose_conv))

输出结果：

tf.Tensor(
[[1. 2.]
 [4. 5.]], shape=(2, 2), dtype=float32)
tf.Tensor(
[[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]], shape=(3, 3), dtype=float32)
tf.Tensor(
[[ 1.  4.  7.  6.]
 [ 8. 26. 38. 27.]
 [23. 62. 74. 48.]
 [28. 67. 76. 45.]], shape=(4, 4), dtype=float32)

Process finished with exit code 0

接下来按照上面的方式，将转置卷积转换为一个等效的直接卷积

import tensorflow as tf

# 转换为等效普通卷积
x2 = tf.reshape(tf.constant([[0, 0, 0, 0, 0, 0],
                             [0, 0, 0, 0, 0, 0],
                             [0, 0, 1, 2, 0, 0],
                             [0, 0, 4, 5, 0, 0],
                             [0, 0, 0, 0, 0, 0],
                             [0, 0, 0, 0, 0, 0]],dtype=tf.float32), [1, 6, 6, 1])
kernel2  = tf.reshape(tf.constant([[9,8,7],
                                   [6,5,4],
                                   [3,2,1]],dtype=tf.float32), [3, 3, 1, 1])
conv = tf.nn.conv2d(x2,kernel2, strides=[1,1,1,1], padding='VALID')
print(tf.squeeze(x2))
print(tf.squeeze(kernel2))
print(tf.squeeze(conv))

输出结果：

tf.Tensor(
[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 2. 0. 0.]
 [0. 0. 4. 5. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]], shape=(6, 6), dtype=float32)
tf.Tensor(
[[9. 8. 7.]
 [6. 5. 4.]
 [3. 2. 1.]], shape=(3, 3), dtype=float32)
tf.Tensor(
[[ 1.  4.  7.  6.]
 [ 8. 26. 38. 27.]
 [23. 62. 74. 48.]
 [28. 67. 76. 45.]], shape=(4, 4), dtype=float32)

Process finished with exit code 0

4.5. 转置卷积动画演示

如下：蓝色映射是输入，青色映射是输出。

No padding, no strides, transposed	Arbitrary padding, no strides, transposed	Half padding, no strides, transposed

No padding, strides, transposed	Padding, strides, transposed	Padding, strides (odd), transposed

参考文章及推荐

龙龙老师Tensorflow深度学习书！
参考了浙江大学城市学院的深度学习应用开发PPT，表示感谢！
参考了哈尔滨工业大学刘远超老师的PPT资料，表示感谢！
抽丝剥茧，带你理解转置卷积（反卷积）
训练GAN的技巧清单
生成式模型合集
pix2pix模型在线Demo
GAN入门理解及公式推导
50行代码实现GAN-pytorch
https://github.com/vdumoulin/conv_arithmetic#convolution-arithmetic
开发者自述：我是这样学习 GAN 的

你可能感兴趣的:(Machine,Learning学习笔记,Deep,Learning学习笔记)

【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
一口气告诉你Deepseek与manus有什么区别？小二爱编程· ai 人工智能
DeepSeek像是个特别聪明的“顾问”，你问他问题，他能给你写论文、改合同、算数学题，甚至能讲冷笑话。但他有个特点：动嘴不动手。比如你说“帮我做个PPT”，他会给你写个特别详细的提纲，但最后你得自己打开电脑动手做。Manus更像是个“动手达人”，你只要说“帮我做个PPT”，他能直接打开软件，自己找模板、排版、插图片，最后把做好的PPT文件甩给你，全程不用你动手。具体区别在哪？擅长的事不一样Dee
DeepSeek来袭！低代码+AI竟让程序员摸鱼接私单月入5W！工业甲酰苯胺低代码人工智能
目录一、引言：开启低代码+AI新时代二、DeepSeek与低代码、AI的关联（一）DeepSeek简介（二）低代码开发概述（三）AI赋能低代码三、低代码+AI开启私单赚钱大门（一）成功案例剖析（二）私单项目类型（三）赚钱模式解析四、实战：利用DeepSeek接私单（一）工具准备与环境搭建（二）需求分析与项目规划（三）低代码开发实战（四）AI技术融合应用（五）项目测试与交付五、挑战与应对策略（一）技
Linux学习1_Linux命令及英文全称 Wang_Zhenwei —Linux 转载 linux
LinuxCommandreferences(命令全称，方便记忆)aliasCreateyourownnameforacommandarchprintmachinearchitectureashashcommandinterpreter(shell)awk(gawk)patternscanningandprocessinglanguagebasenameRemovedirectoryandsuff
rust学习笔记16-206.反转链表(递归) 水蜜桃one 学习笔记链表
rust函数递归在14中已经提到，接下来我们把206.反转链表，用递归法实现递归函数通常包含两个主要部分：基准条件（BaseCase）：递归终止的条件，避免无限递归。递归步骤（RecursiveStep）：将问题分解为更小的子问题，并调用自身来解决这些子问题。//Definitionforsingly-linkedlist.#[derive(PartialEq,Eq,Clone,Debug)]pu
AI界劳斯莱斯o1 -Pro来了！百万token收费600刀，OpenAI在AI普惠反方向狂奔？算家计算话题文章人工智能算家云 OpenAI o1-pro API OpenAI发布最贵模型 DeepSeek
刚刚，OpenAI宣布推出其最新的高性能推理模型o1-pro。当大家还在为GPT-4.5的订阅费感到肉痛时，OpenAI用一记价格暴击刷新了认知——全新推理模型o1-pro的API定价，输入每百万token收费150美元，输出每百万token收费600美元，比前代模型贵了10倍，更是将DeepSeek-R1甩出270倍价差。与OpenAI其他模型相比，o1-pro的价格高出了不止一点：目前o1-p
办公提效高阶 DeepSeek 提示词，适用于多种 AI 工具东锋17 人工智能人工智能
1、高效会议管理请根据[会议主题]和[参会人角色]生成会议议程框架，包含会前准备清单（背景材料/数据需求）、会中讨论要点（需决策事项+时间分配）、会后跟进任务表（责任人/DDL），最后用思维导图形式输出。2、周报自动生成基于我本周完成的[任务清单]和[工作数据]，请先总结3项核心成果与2个待改进点，再结合OKR目标制定下周工作计划，要求用对比柱状图呈现进度数据，以PPT分页形式输出。3、周报自动生
u-net系列算法㡽闧㔯人工智能算法
语义分割M整体结构：M概述就是编码解码过程简单但是很实用，应用广起初是做医学方向，现在也是U-net主要网络结构：还引入了特征拼接操作M以前我们都是加法，现在全都要这么简单的结构就能把分割任务做好U-net++整体网络结构：特征融合，拼接更全面其实跟densenet思想一致把能拼能凑的特征全用上就是升级版了U-net++DeepSupervision：也是很常见的事，多输出损失由多个位置计算，再更
day11 学习笔记豆豆学习笔记 python
文章目录前言一、类方法二、静态方法三、构造方法四、魔术方法前言通过今天的学习，我掌握了更多Python中有关面向对象编程思想中方法的概念与操作，包括类方法，静态方法，构造方法，魔术方法一、类方法类方法是属于类的行为，一般使用类而非对象进行调用类方法需要使用@classmethod装饰器定义类方法至少有一个形参用于绑定类，约定为cls类和该类的实例都可以调用类方法，但一般不用实例进行调用类方法不能访
DeepSeek带来服务器与显卡需求激增的核心逻辑 DeepSeek+NAS 人工智能服务器运维网络安全计算机网络
随着DeepSeek等开源AI模型的普及，个人开发者和小型企业正加速构建私有化AI服务器，以处理敏感数据和定制化任务。这种趋势不仅重构了算力需求的结构，更推动服务器和显卡市场进入新一轮增长周期。以下从技术迭代、行业需求、市场格局三个维度展开论述。一、私有化部署：从数据安全到算力自主的核心驱动力数据隐私与合规性需求公共AI平台的数据泄露风险促使企业选择本地化部署。例如，医疗机构的患者数据、金融企业的
【DeepSeek】全方位使用指南————简版諰. 人工智能 ai AI写作
一、平台概述DeepSeek（深度求索）是专注实现AGI的中国的人工智能公司，提供多款AI产品：智能对话（Chat）文生图（Art）代码助手（Coder）API开发接口企业定制解决方案二、注册与登录2.1账号创建访问官网https://www.deepseek.com点击右上角「注册」支持三种方式：手机号+短信验证邮箱注册（需验证邮件）第三方登录（微信/Google账号）2.2订阅计划套餐类型免费
CVPR 2024 | 低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力小白学视觉计算机顶会顶刊论文解读计算机视觉深度学习 CVPR 计算机顶会论文解读
论文信息题目：Low-ResLeadstheWay:ImprovingGeneralizationforSuper-ResolutionbySelf-SupervisedLearning低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力作者：HaoyuChen,WenboLi,JinjinGu,JingjingRen,HaozeSun,XueyiZou,ZhensongZhang,Youlia
ACI EP Learning Whitepaper 1. ACI EP组件 m0_54931486 思科 ACI 网络思科 ACI Endpoint ACI fabric Nexus EP 学习
1.ACIEndpointACI网络架构的Endpoint表整合了传统MAC地址表和ARP表的功能。其核心机制是通过硬件层直接学习数据包的源MAC地址与IP地址映射关系，摒弃了传统ARP协议依赖广播请求获取下一跳MAC地址的模式。这种设计优化体现在两方面：1）减少控制面ARP流量处理带来的资源消耗；2）基于终端实际流量即可实时感知主机IP/MAC地址的拓扑迁移，无需依赖GARP通告即可实现终端移动
deepseek api参数详解孽小倩大语言模型 python java 前端人工智能 deepseek
deepseek的参数与openai保持兼容，所以openai能用的参数deepseek都可以使用，以下是常用的参数介绍。在使用Deepseek/OpenAI的PythonAPI时，最常用的API端点是chat/completions，用于调用deepseek生成文本对话内容。以下是openai.ChatCompletion.create()方法的主要参数及其作用：1.model作用：指定使用的模
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
Virtual Machine Platform is not enabled. Enable it using the following PowerShell script (in an admi 朋也透william docker
DockerDesktop安装指南以及Windows下WSL2和Hyper-V相关问题追查-寂寞姜大虎-博客园(cnblogs.com)https://www.cnblogs.com/qfl-blog/p/18200575
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
Pollinations AI文生图html源码酷爱码 html HTML
源码介绍用deepseek辅助制作了一个电脑端文生图小程序，html语言的，接口使用的是Pollinations，上传服务器访问首页即可一次生成4张，提示词最好用英文，点击小图可以预览大图，也可以点击下载按钮直接下载截图预览源码免费获取PollinationsAI文生图html源码
正则表达式：编程中的瑞士军刀，如何借助智能工具实现高效开发 inscode_039
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE正则表达式：编程中的瑞士军刀，如何借助智能工具实现高效开发正则表达式（RegularExpression，简称regex或regexp）是一种用于匹配字符串的模式描述语言。它广泛应用于文本处理、数据验证、搜索和替换等场景中。然而，正则表达式的复杂性和晦涩性常常让编程初学者望而却步。幸运的是，随着AI技术的进步，像InsCo
深入解析 DeepSeek-R1 模型的显存与内存需求 gs80140 基础知识科谱 deepseek
DeepSeek-R1系列模型涵盖从轻量级到超大规模的多个版本，适用于不同的应用场景。了解各版本在不同量化精度下的显存和内存需求，有助于选择适合自身硬件配置的模型。模型参数与量化精度的关系模型的参数量决定了其基础大小，而量化精度（如FP16、INT8、INT4）则影响每个参数所占用的存储空间。通过降低量化精度，可以显著减少模型的显存和内存占用，但可能会对模型性能产生一定影响。以下是不同量化精度下，
《北京大学-DeepSeek系列教程（1）》电子书下载 AI智研社人工智能 ai AI写作 AIGC 生活
哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“《北京大学-DeepSeek系列教程（1）》电子书下载”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。《北京大学-DeepSeek
【微信小程序（云开发模式）变通实现DeepSeek支持语音】技术与健康微信小程序 notepad++小程序
整体架构前端（微信小程序）：使用微信小程序云开发能力，实现录音功能。将录音文件上传到云存储。调用云函数进行语音识别和DeepSeek处理。界面模仿DeepSeek，支持文本编辑。后端（云函数+Node.js）：使用云函数调用腾讯云语音识别（ASR）服务。调用DeepSeekAPI处理文本。步骤1：初始化云开发环境在微信开发者工具中创建小程序项目，并开通云开发。在project.config.jso
多家车企接入DeepSeek，AI汽车战争爆发，谁站上风口，谁会下牌桌？高工智能汽车人工智能汽车
日前，多家车企宣布接入DeepSeek。在吉利汽车、岚图汽车率先宣布后，东风汽车、零跑汽车、奇瑞、上汽集团、长城几家车企也紧随其后。其中东风汽车宣布旗下自主品牌已完成DeepSeek全系列大语言模型接入工作，并将于近期陆续搭载应用于包括东风岚图、东风猛士、东风奕派、东风风神、东风纳米在内的东风自主品牌车型。其中岚图品牌方面，岚图知音将成为汽车行业首个融合DeepSeek的量产车型，全新岚图梦想家也
职场人必存！DeepSeek提示词大合集：周报速成、爆款文案、旅行攻略一键生成阳光永恒736 AI工具人工智能 deepseek AI提示词
引言：AI时代，为什么你的提示词总“词不达意”？“同样的AI工具，同事用DeepSeek半小时写完周报还附赠数据分析图，我却只会问‘帮我总结本周工作’？”这可能是多数职场人的真实写照。AI工具的能力边界早已超越基础问答，但90%的用户仍停留在“无效提问”阶段10。而真正拉开差距的，是一套精准的提示词指令库——它能将模糊需求转化为AI可执行的“操作指南”，让效率提升10倍不止。一、职场效率：从“加班
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
DeepLabv3+改进18:在主干网络中添加REP_BLOCK AICurator 深度学习 python 机器学习 deeplabv3+语义分割
【DeepLabv3+改进专栏！探索语义分割新高度】你是否在为图像分割的精度与效率发愁？本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，可在不增加推理时间成本的情况下提升性能。该模块名为多样化分支块（DBB），通过结合不同尺度和复杂度的多样化分支
使用spring data MongoDB对MongoDB进行简单CURD操作示例其实我就是个萌新 spring mongodb java
本文章为作者个人学习笔记，仅作参考。1.application.properties配置spring.data.mongodb.database=[数据库名]spring.data.mongodb.host=localhost[主机名,本机：localhost]spring.data.mongodb.port=[数据库端口，默认:27017]2.根据数据库文档定义实体类：@RequiredArgs
【DeepSeek干货总结】对不同类型学术内容进行润色的顶级提示词汇总！ AIWritePaper官方账号 DeepSeek Prompt AIWritePaper AIWritePaper deepseek 深度学习人工智能 AIGC 论文润色
目录1.英文润色2.中文润色3.SCI润色4.润色Prompt汇总连贯性与句子逻辑提示词多参考版本提示词语法矫正提示词润色内容定位提示词修改建议提示词大家好这里是AIWritePaper官方账号！AIWritePaper官网AIWritePaper宝子们在写学术论文的过程中要想让DeepSeek发挥出最佳效能，尤其在进行文本润色时，精确和具体的提示词至关重要。很多宝子们在请求DeepSeek文本润
华为OD机试九日集训第2期 - 按算法分类，由易到难，循序渐进，提升编程能力和解题技巧，从而提高机试通过率哪吒搬砖工逆袭Java架构师华为od 算法九日集训 Java
目录一、适合人群二、本期训练时间三、如何参加四、数据结构与算法大纲五、华为OD九日集训第1期第1天、逻辑分析第2天、队列第3天、双指针第4天栈第5天滑动窗口第6天、二叉树第7天、并查集第8天、矩阵第9天、贪心算法六、国内直接使用满血ChatGPT4o、o1、o3-mini-high、Claude3.7Sonnet、满血DeepSeekR11、纯原版ChatGPT、Claude2、技术支持3、支持所
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发