Paul-Huang

【论文阅读-3】生成模型——变分自编码器(Variational Auto-Encoder，VAE)

【论文阅读】生成模型——变分自编码器

1. VAE设计思路：从PCA到VAE
- 1.1 PCA
- 1.2 自编码器(Auto-Encoder, AE)
- 1.3 从AE到VAE
2. VAE模型框架
- 2.1 问题描述
- 2.2 变分下限
- 2.3 SGVB估计和AEVB算法
- 2.4 重参数化技巧(The reparameterization trick)
3. 变分自编码器（VAE）
- 3.1 VAE 基本流程
- 3.2 VAE 的对抗
4. 代码示例
- 4.1 编码器
- 4.2 解码器
- 4.3 整体待训练模型
- 4.4 训练
- 4.5 生成测试
参考：

1. VAE设计思路：从PCA到VAE

VAE最想解决的问题是如何构造编码器和解码器，使得图片能够编码成易于表示的形态，并且这一形态能够尽可能无损地解码回原真实图像。

1.1 PCA

这似乎听起来与PCA（主成分分析）有些相似，而PCA本身是用来做矩阵降维的：

如图：

$X$ 本身是一个矩阵，通过一个变换 $W$ 变成了一个低维矩阵 $c$ ；
因为这一过程是线性的，所以再通过一个 $\hat{W}$ 变换就能还原出一个 $\hat{X}$ ；
现在找到一种变换 $W$ ，使得矩阵 $X$ 与能够尽可能地一致，这就是PCA做的事情。

在PCA中找这个变换 $W$ 用到的方法是 $\color{blue}SVD（奇异值分解）算法$ ，在VAE/AE中不再需要使用SVD，直接用神经网络代替。

1.2 自编码器(Auto-Encoder, AE)

PCA与想要构造的自编码器(AE)的相似之处是：如果把矩阵 $X$ 视作输入图像， $W$ 视作一个编码器，低维矩阵 $c$ 视作图像的编码，然后 $\hat{W}$ 和 $\hat{X}$ 分别视作解码器和生成图像，PCA就变成了一个自编码器(AE)网络模型的雏形。
对这一雏形进行改进。用神经网络代替 $W$ 变换和 $\hat{W}$ 变换，就得到了如下Deep Auto-Encoder模型：

引入了神经网络强大的拟合能力，使得编码（Code）的维度能够比原始图像（ $X$ ）的维度低非常多。在一个手写数字图像的生成模型中，Deep Auto-Encoder能够把一个784维的向量（28*28图像）压缩到只有30维，并且解码回的图像具备清楚的辨认度（如下图）。

1.3 从AE到VAE

AE的缺陷
对于一个生成模型而言，解码器部分应该是单独能够提取出来的，并且对于在规定维度下 $\color{red}任意采样的一个编码，都应该能通过解码器产生一张清晰且真实的图片$ 。如下图，AE模型无法实现：

如上图所示，假设有两张训练图片，一张是全月图，一张是半月图，经过训练我们的自编码器模型已经能无损地还原这两张图片。接下来，我们在code空间上，两张图片的编码点中间处取一点，然后将这一点交给解码器，我们希望新的生成图片是一张清晰的图片（类似3/4全月的样子）。但是，实际的结果是，生成图片是模糊且无法辨认的乱码图。

一个比较合理的解释是，因为编码和解码的过程使用了深度神经网络，这是一个非线性的变换过程，所以 $\color{red}在code空间上点与点之间的迁移是非常没有规律$ 。
VAE的引入
如何解决上述问题呢？我们引入噪声，使得图片的编码区域得到扩大，从而掩盖掉失真的空白编码点。
1. 如上图所示，给两张图片编码的时候加上一点噪音，使得每张图片的编码点出现在 $\color{green}绿色箭头$ 所示范围内，于是在训练模型的时候，绿色箭头范围内的点都有可能被采样到，这样解码器在训练时会把绿色范围内的点都尽可能还原成和原图相似的图片。
2. 之前关注的失真点，现在它处于全月图和半月图编码的交界上，于是解码器希望它既要尽量相似于全月图，又要尽量相似于半月图，于是它的还原结果就是两种图的折中（3/4全月图）。
3. 给编码器增添一些噪音，可以有效覆盖失真区域。不过这还并不充分，因为在上图的距离训练区域很远的 $\color{Chocolate}黄色点处$ ，它依然不会被覆盖到，仍是个失真点。
4. 为了解决上述问题，试图把噪音无限拉长，使得对于每一个样本，它的编码会 $\color{red}覆盖整个编码空间$ ，不过我们得保证，在 $\color{red}原编码附近编码的概率最高，离原编码点越远，编码概率越低$ 。在这种情况下，图像的编码就由原先离散的编码点变成了一条 $\color{red}连续的编码分布曲线$ ，如下图所示。
  
  上述的这种 $\color{red}将图像编码由离散变为连续的方法$ ，就是 $\color{red}变分自编码的核心思想$ 。

降维方法	线性	非线性
生成式	概率PCA	VAE
非生成式	PCA	AE

2. VAE模型框架

2.1 问题描述

情况介绍
观测数据集 $X=\left\{ \mathtt{x}^{(i)} \right\}^N_{i=1} i.i.d$ （ $X$ 本身可能是连续分布或者离散分布），假设 $X$ 由隐变量 $\mathtt{z}$ (unobserved continuous random variable)生成。此过程包含2个步骤：
- $\color{red}先验分布p_{\theta^*}(\mathtt{z})生成一个\mathtt{z}^{(i)}$ ;
- $\color{red}条件分布p_{\theta^*}(\mathtt{x|z})生成一个\mathtt{x}^{(i)}$ 。
假设 $p_{\theta^*}(\mathtt{z}) ,p_{\theta^*}(\mathtt{x|z})$ 来自 $p_{\theta}(\mathtt{z}) ,p_{\theta}(\mathtt{x|z})$ 函数族，并且它们的概率密度函数（PDF）几乎在 $\theta$ 和 $z$ 的任何地方都是可微的。这个过程中 $\color{green}真正的参数\theta^*$ 和 $\color{green}隐变量z^{(i)}$ 的值都是 $\color{green}未知的$ 。
存在问题
- 难处理性：
  边际似然函数的积分 $\color{blue}p_\theta {(\mathtt{x})}=\int_{}^{}{ p_\theta {(\mathtt{z})}p_\theta {(\mathtt{x|z})} dz}$ 难以计算（没办法估计边际似然分布，因为其中的后验分布 $\color{blue}p_{\theta}(\mathtt{z|x})=\frac{p_{\theta}(\mathtt{x|z})p_{\theta}(\mathtt{z})}{p_{\theta}(\mathtt{x})}$ 难以计算，所以不能用EM算法）。mean-field所需要计算的积分也是难以处理的。
- A large dataset：
  例如Monte Carlo EM算法，需要遍历所有数据进行采样，这样的代价过于高昂。
解决方法
可以有以下方法进行求解：
- 对参数 $\theta$ 进行有效的ML或MAP近似；
- 给定观测值 $x$ 并选择一个参数 $\phi$ ，有效近似后验推断隐变量 $z$ ；
- 利用边际推断高效逼近 $x$ 。
选择引入一个 $\color{red}生成模型q_{\phi}(\mathtt{z}|\mathtt{x})来逼近真正的后验分布\color{red}p_{\theta}(\mathtt{z}|\mathtt{x})$ ，则：
- 将 $\color{red}q_{\phi}(\mathtt{z}|\mathtt{x})$ 看做 $\color{red}编码器(encoder)$ ，编码器将产生一个高斯分布， $\mathtt{z}$ 可能的值可以覆盖 $\mathtt{x}$ 所有范围；
- 将 $\color{red}p_{\theta}(\mathtt{x}|\mathtt{z})$ 看做 $\color{red}解码器(decoder)$ ， $\mathtt{z}$ 将产生一个关于分布 $\mathtt{x}$ 的值的可能性的分布。
VAE的核心在于 $\color{red}使用一个q_{\phi}(\mathtt{z}|\mathtt{x})来对真实的后验概率分布p_{\theta}(\mathtt{x}|\mathtt{z})进行估计$ 。

2.2 变分下限

变分推断中常用的方法是求观察量 $x$ 的似然函数：
$\log p_\theta(\mathtt{x}^{(1)},\mathtt{x}^{(2)},...,\mathtt{x}^{(N)})=\sum_{i=1}^{N}{\log p_{\theta}(\mathtt{x}^{(i)}})\tag{2.2.1}$
每个 $\mathtt{x}^{(i)}$ 可以写成：
$\begin{aligned}\log\; p_{\theta}(\mathtt{x}^{(i)} )&=\log\; p_{\theta }(\mathtt{x}^{(i)},\mathtt{z})- \log\; p_{\theta }(\mathtt{z}|\mathtt{x}^{(i)})\\ &=\log\; \frac{p_{\theta }(\mathtt{x}^{(i)},\mathtt{z})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}-\log\; \frac{p_{\theta }(\mathtt{z}|\mathtt{x}^{(i)})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}\; \; (q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})\neq 0).\end{aligned}\tag{2.2.2}$
(2.2.2)式两边对 $q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})$ 求期望得：
$\log p_\theta(\mathtt{x}^{(i)})=D_{KL}{(q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})||p_{\theta }(\mathtt{z}|\mathtt{x}^{(i)}))}+\mathcal{L}(\theta,\phi;\mathtt{x}^{(i)})\tag{2.2.3}$
其中：
$\color{blue}\{ \begin{aligned} \mathcal{L}(\theta,\phi;\mathtt{x}^{(i)})&=\int_z q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)}) \log\ \frac{p_{\theta }(\mathtt{z},\mathtt{x}^{(i)})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}dz\\ D_{KL}{(q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})||p_{\theta }(\mathtt{z}|\mathtt{x}^{(i)}))}&= - \int_z q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})\log\ \frac{p_{\theta }(\mathtt{z}|\mathtt{x}^{(i)})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}dz \end{aligned}$

公式(2.2.3)可以描述成：

根据KL散度的定义， $D_{KL}\geq 0$ （ $\mathcal{L}(\theta,\phi;\mathtt{x}^{(i)})$ 成为lower bound），因此：
$\color{red}\log p_\theta(\mathtt{x}^{(i)})\geq \mathcal{L}(\theta,\phi;\mathtt{x}^{(i)}) = \mathbb{E}_{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}[-\log q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})+\log p_{\theta }(\mathtt{x}^{(i)},\mathtt{z})]\tag{2.2.4}$
公式(2.2.4)还能写成：
$\begin{aligned}\color{red}\mathcal{L}(\theta,\phi;\mathtt{x}^{(i)}) &=\sum_{\mathbf{z}} q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)}) \log \left(\frac{p_{\theta}(\mathbf{z},\mathbf{x}^{(i)})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}\right)=\sum_{\mathtt{z}} q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)}) \log \left(\frac{p_{\theta}(\mathtt{x}^{(i)}| \mathtt{z}) p_{\theta}(\mathtt{z})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}\right) \\ &=\sum_{\mathbf{z}} q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})\left[\log \left(p_{\theta }(\mathtt{x}^{(i)}|\mathtt{z})\right)+\log \left(\frac{p_{\theta}(\mathbf{z})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}\right)\right] \\ &\color{red}= -D_{KL}(q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})||p_{\theta}(\mathtt{z}))+ \mathbb{E}_{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}[\log p_{\theta }(\mathtt{x}^{(i)}|\mathtt{z})]\end{aligned}\tag{2.2.5}$

对带有变分参数 $\phi$ 和生成参数 $\theta$ 的 $\mathcal{L}(\theta,\phi;\mathtt{x}^{(i)})$ 求导，就是对公式(2.2.5)求导，来优化 $\mathcal{L}(\theta,\phi;\mathtt{x}^{(i)})$ ，从而达到求解 $\log p_\theta(\mathtt{x}^{(i)})$ ；
但是计算 $\mathcal{L}(\theta,\phi;\mathtt{x}^{(i)})$ 的梯度十分困难，若用 $\color{red}蒙特卡洛方法来估计$ (令公式（2.2.4）或公式（2.2.5）中中括号里面的函数为 $f(\mathbf{z})$ )，其形式如下：
$\begin{aligned}\nabla_{\phi} \mathbb{E}_{q_{\phi}(\mathbf{z})}[f(\mathbf{z})]&=\mathbb{E}_{q_{\phi}(\mathbf{z})}\left[f(\mathbf{z}) \nabla_{q_{\phi}(\mathbf{z})} \log q_{\phi}(\mathbf{z})\right] \simeq \frac{1}{L} \sum_{l=1}^{L} f(\mathbf{z}) \nabla_{q_{\phi}\left(\mathbf{z}^{(l)}\right)} \log q_{\phi}\left(\mathbf{z}^{(l)}\right)\\ &where\;\; \mathbf{z}^{(l)}\sim q_{\phi}\left(\mathbf{z}| \mathbf{x}^{(i)}\right) \end{aligned}\tag{2.2.6}$
$L$ 为蒙塔卡罗方法的采样个数。

推导过程参考:https://arxiv.org/abs/1906.10652

$\color{red}此方法计算方差特别大，对目的求解是不合适$ 。

2.3 SGVB估计和AEVB算法

重参数化技巧
$\nabla_{\phi} \mathbb{E}_{q_{\phi}(\mathbf{z})}[f(\mathbf{z})]$ 难以计算梯度(公式(2.2.6))的主要原因是:
$\color{red}公式(2.2.4)中q_{\phi}(\mathbf{z})中\phi 是未知数，也需要求导，使得很难计算。\\因此，此处我们使用重参数化技巧(reparameterization\;trick)!$
引入 $\color{green}噪声变量（一般符合高斯分布）\epsilon$ 和 $\color{green}分布转换函数g_{\phi}(\mathbf{\epsilon},\mathbf{x})$ 重写 $\color{green}\mathbf{z}$ 这个隐藏变量 $\color{green}\tilde{\mathbf{z}}\sim q_{\phi}(\mathbf{z}|\mathbf{x})$ :
$\color{red}\tilde{\mathbf{z}}=g_\phi(\epsilon,\mathbf{x}) \; with \; \epsilon\sim p(\epsilon)\tag{2.3.1}$

下图给出了重参数技巧的作用：

在下一节(2.4节)会具体说重参数化技巧（如何选择一个合适的分布 $p(\epsilon)$ 和函数 $g_{\phi}(\epsilon, x)$ ）。现在 $\color{blue}用蒙特卡洛估计重写\mathbb{E}_{q_{\phi}(\mathbf{z}|\mathbf{x}^{(i)})}[f(\mathbf{z})]$ （其中 $f(\mathbf{z})$ 代指一些特殊的函数，例如 $q_{\phi}(\mathbf{z}|\mathbf{x})$ ，等式最右边可以理解为分成 $L$ 分然后进行采样）:
$\color{blue}\begin{aligned}\mathbb{E}_{q_{\phi}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right)}[f(\mathbf{z})]=&\mathbb{E}_{p(\epsilon)}\left[f\left(g_{\phi}\left(\boldsymbol{\epsilon}, \mathbf{x}^{(i)}\right)\right)\right] \simeq \frac{1}{L} \sum_{l=1}^{L} f\left(g_{\phi}\left(\boldsymbol{\epsilon}^{(l)}, \mathbf{x}^{(i)}\right)\right) \\ &\text { where } \quad \epsilon^{(l)} \sim p(\boldsymbol{\epsilon})\end{aligned}\tag{2.3.2}$
第一种形式随机梯度变分贝叶斯（SGVB）
利用公式(2.3.2)求解 $\color{green}公式(2.2.4)$ 得 $\color{red}\widetilde{\mathcal{L}}^{A}\left(\boldsymbol{\theta}, \phi ; \mathbf{x}^{(i)}\right) \simeq \mathcal{L}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)$ ，其中：
$\color{red}\begin{aligned} &\widetilde{\mathcal{L}}^{A}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)=\frac{1}{L} \sum_{l=1}^{L} \log p_{\theta}\left(\mathbf{x}^{(i)}, \mathbf{z}^{(i, l)}\right)-\log q_{\phi}\left(\mathbf{z}^{(i, l)} \mid \mathbf{x}^{(i)}\right) \\ &\text { where } \quad \mathbf{z}^{(i, l)}=g_{\phi}\left(\boldsymbol{\epsilon}^{(i, l)}, \mathbf{x}^{(i)}\right) \quad \text { and } \quad \boldsymbol{\epsilon}^{(l)} \sim p(\boldsymbol{\epsilon}) \end{aligned}\tag{2.3.3}$

$i$ 表示数据 $X$ 的第 $i$ 个样本， $l$ 表示蒙特卡洛采样总是 $L$ 的第 $l$ 个采样点。
第二种形式随机梯度变分贝叶斯（SGVB）
利用公式(2.3.2)求解 $\color{green}公式(2.2.5)$ 得 $\color{red}\widetilde{\mathcal{L}}^{B}\left(\boldsymbol{\theta}, \phi ; \mathbf{x}^{(i)}\right) \simeq \mathcal{L}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)$ ，其中：
$\color{red}\begin{aligned}&\widetilde{\mathcal{L}}^{B}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)=\underbrace{-D_{K L}\left(q_{\phi}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right) \| p_{\boldsymbol{\theta}}(\mathbf{z})\right)}_{Regularization\;Loss}+\underbrace{\frac{1}{L} \sum_{l=1}^{L}\left(\log p_{\boldsymbol{\theta}}\left(\mathbf{x}^{(i)} \mid \mathbf{z}^{(i, l)}\right)\right)}_{Reconstruction\;Loss}\\ &where \quad \mathbf{z}^{(i, l)}=g_{\phi}\left(\boldsymbol{\epsilon}^{(i, l)}, \mathbf{x}^{(i)}\right) \quad and \quad \boldsymbol{\epsilon}^{(l)} \sim p(\boldsymbol{\epsilon})\end{aligned}\tag{2.3.4}$
对于公式(2.3.4)：
- 第一项（ $\color{green}z\text{先验分布}$ 和 $\color{green}给定x的z的后验分布$ 的 $\color{green}KL散度$ ）充当 $\color{blue}正则项$ ，第二项是 $\color{blue}自动编码的期望重构误差的负数$ 。
- 函数 $\color{green}g_\phi(.)$ 是事先选择使得他能够映射数据集 $\color{green}\mathbf{x}^{(i)}$ 和随机噪声 $\color{green}\epsilon$ 到 $\color{green}\mathbf{z}$ 的后验分布（也就是 $\mathbf{z}^{(i,l)}\sim q_{\phi}(\mathbf{z}|\mathbf{x})$ ）的一次采样，即：
  $\color{blue}{\mathbf{z}}^{(i,l)}=g_\phi(\epsilon^{(l)},\mathbf{x}^{(i)})$
- 然后， $\color{green}{\mathbf{z}}^{(i,l)}$ 带入 $\color{green}\log p(\mathbf{x}^{(i)}|\mathbf{z}^{(i,l)})$ ，也就是该生成模型的 $\color{blue}\mathbf{x}^{(i)}的似然函数$ ，这一项也是自动编码的重构误差的负数。
数据集 $\mathbf{X}$ （一共 $\color{green}N$ 个），如果采用minibatch（一个batch $\color{green}M$ 个数据），可以通过下面的方式进行估计:
$\color{red}\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{X}) \simeq \widetilde{\mathcal{L}}^{M}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{X}^{M}\right)=\frac{N}{M} \sum_{i=1}^{M} \widetilde{\mathcal{L}}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)\tag{2.3.5}$
- 作者的实验证明：如果minibatch足够大（例如 $\color{blue}M=100$ ），那么公式(2.3.4)中的 $\color{red}\widetilde{\mathcal{L}}^{B}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)$ 函数当中的第二项 $\color{red}L$ 可以取 $\color{red}1$ 。
- $\color{blue}\widetilde{\mathcal{L}}(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)})$ 可以取 $\color{blue}\widetilde{\mathcal{L}}^{A}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)$ (公式(2.3.3))或者 $\color{blue}\widetilde{\mathcal{L}}^{B}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)$ (公式(2.3.4))。
SGVB算法的一般流程

2.4 重参数化技巧(The reparameterization trick)

重参数化技巧的目的是： $\color{red}将随机变量中的随机性与数据正式信息解耦$ 。
在上一节(2.3节)中，我们使用：
$\begin{aligned} \boldsymbol{\epsilon} \sim p(\boldsymbol{\epsilon})&\;\;\;(R1)\\ \boldsymbol{z} =g_{\phi}(\boldsymbol{\epsilon}, \boldsymbol{x})&\;\;\;(R2)\\ \Rightarrow \mathbb{E}_{p_{\phi}(z)}\left[f\left(\boldsymbol{z}^{(i)}\right)\right] =\mathbb{E}_{p(\epsilon)}\left[f\left(g_{\phi}\left(\boldsymbol{\epsilon}, \boldsymbol{x}^{(i)}\right)\right)\right]&\;\;\;(R3)\\ \Rightarrow \nabla_{\phi} \mathbb{E}_{p_{\phi}(z)}\left[f\left(\boldsymbol{z}^{(i)}\right)\right] =\nabla_{\phi} \mathbb{E}_{p(\epsilon)}\left[f\left(g_{\phi}\left(\boldsymbol{\epsilon}, \boldsymbol{x}^{(i)}\right)\right)\right]&\;\;\;(a)\\ =\mathbb{E}_{p(\epsilon)}\left[\nabla_{\phi} f\left(g_{\phi}\left(\boldsymbol{\epsilon}, \boldsymbol{x}^{(i)}\right)\right)\right]&\;\;\;(b)\\ \approx \frac{1}{L} \sum_{l=1}^{L} \nabla_{\phi} f\left(g_{\phi}\left(\boldsymbol{\epsilon}^{(l)}, \boldsymbol{x}^{(i)}\right)\right)&\;\;\;(c) \end{aligned}$
其中：
- R1和R2是重参数化技巧的通用步骤： $\color{blue}将随机变量z中的随机性与数据正式信息解耦$ 。
- R3的话是将R2代入原先无法求梯度的期望后的结果，核心点在于 $\color{blue}期望对象的变化$ 。
- 通过a/b/c步运算以后，我们可以将期望的梯度，转换成梯度的期望，并使用Monte Carlo方法进行近似求解。
重参数技巧：
- 易处理累积分布函数(CDF)的逆；例如：Exponential, Cauchy, Logistic, Rayleigh, Pareto, Weibull, Reciprocal,Gompertz, Gumbel and Erlang distributions.
- 对于任何“位置-尺度”分布族，都可以选择标准分布(位置= 0，尺度= 1)作为辅助变量 $\epsilon$ ，让 $=\text{location}+\text{scale}\cdot \epsilon$ 。例如：Laplace, Elliptical, Student’s t, Logistic,Uniform, Triangular and Gaussian distributions.
- 通常可以将随机变量表示为辅助变量的不同变换。例如：Log-Normal (exponentiation of normally distributed variable), Gamma (a sum over exponentially distributed variables), Dirichlet (weighted sum of Gamma variates), Beta, Chi-Squared, and F distributions.
当这三种方法都失败时，逆CDF的良好逼近需要与PDF相当的时间复杂度的计算。

3. 变分自编码器（VAE）

3.1 VAE 基本流程

本部分用神经网络对概率编码器 $q_{\phi}(\mathbf{z}|\mathbf{x})$ 和利用AEVB优化参数 $\phi$ 和 $\theta$ .

设隐变量的分布为 $\color{green}p_{\theta}(\mathbf{z})=\mathcal{N}(\mathbf{z};\mathbf{0},\mathbf{I})$ ，则变分近似后验具有对角协方差结构的多元高斯：
$\color{red}\log q_{\phi}(\boldsymbol{z}|\boldsymbol{x}^{(i)}) = \log \mathcal{N}(\boldsymbol{z} ;\boldsymbol{\mu}^{(i)},\boldsymbol{\sigma}^{2(i)}\boldsymbol{I})\tag{3.1.1}$
则 $\color{red}先验概率p_{\theta}(\mathbf{z})和q_{\phi}(\mathbf{z}|\mathbf{x})都是高斯分布$ 。上述公式可知：每一个 $\boldsymbol{x}^{(i)}$ 都配上了一个专属的正态分布。正态分布有两组参数：均值 $\boldsymbol{\mu}^{(i)}$ 和方差 $\boldsymbol{\sigma^{(i)}}^2$ （多元的话，它们都是向量），用神经网络来拟合出来！
根据重参数化技巧：引入 $\color{green}噪声变量（一般符合高斯分布）\epsilon$ 和 $\color{green}分布转换函数g_{\phi}(\mathbf{\epsilon},\mathbf{x})$ 重写 $\color{green}\mathbf{z}$ 这个隐藏变量 $\color{green}{\mathbf{z}^{(i,l)}}\sim q_{\phi}(\mathbf{z}|\mathbf{x}^{(i)})$ :
$\color{red}\begin{aligned}\mathbf{z}^{(i,l)}=&g_\phi(\mathbf{x}^{(i)},\epsilon^{(l)})=\boldsymbol{\mu}^{(i)} + \boldsymbol{\sigma^{(i)}}\odot \epsilon^{(l)}\\ & \; with \; \epsilon\sim \mathcal{N}(\mathbf{0},\mathbf{I})\end{aligned}\tag{3.1.2}$
$\odot$ 表示元素的乘积。如下图所示：
根据公式(3.1.1)和公式（3.1.2）对 $\color{green}公式(2.3.4)$ 进行化简得 $-D_{K L}\left(q_{\phi}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right) \| p_{\boldsymbol{\theta}}(\mathbf{z})\right)$ ：
$\begin{aligned} \int q_{\boldsymbol{\theta}}(\mathbf{z}) \log p(\mathbf{z}) d \mathbf{z} &=\int \mathcal{N}\left(\mathbf{z} ; \boldsymbol{\mu}, \boldsymbol{\sigma}^{2}\right) \log \mathcal{N}(\mathbf{z} ; \mathbf{0}, \mathbf{I}) d \mathbf{z} \\ &=-\frac{J}{2} \log (2 \pi)-\frac{1}{2} \sum_{j=1}^{J}\left(\mu_{j}^{2}+\sigma_{j}^{2}\right) \end{aligned}\tag{3.1.3}$
$\begin{aligned} \int q_{\theta}(\mathbf{z}) \log q_{\boldsymbol{\theta}}(\mathbf{z}) d \mathbf{z} &=\int \mathcal{N}\left(\mathbf{z} ; \boldsymbol{\mu}, \boldsymbol{\sigma}^{2}\right) \log \mathcal{N}\left(\mathbf{z} ; \boldsymbol{\mu}, \boldsymbol{\sigma}^{2}\right) d \mathbf{z} \\ &=-\frac{J}{2} \log (2 \pi)-\frac{1}{2} \sum_{j=1}^{J}\left(1+\log \sigma_{j}^{2}\right) \end{aligned}\tag{3.1.4}$
具体推导见论文附录。因此：
$\color{red}\begin{aligned} -D_{K L}\left(q_{\phi}\left(\mathbf{z} \mid \mathbf{x}^{(i)}\right) \| p_{\boldsymbol{\theta}}(\mathbf{z})\right)&=\int q_{\theta}(\mathbf{z})\left(\log p_{\boldsymbol{\theta}}(\mathbf{z})-\log q_{\boldsymbol{\theta}}(\mathbf{z})\right) d \mathbf{z} \\ &=\frac{1}{2} \sum_{j=1}^{J}\left(1+\log \left(\left(\sigma_{j}^{(i)}\right)^{2}\right)-\left(\mu_{j}^{(i)}\right)^{2}-\left(\sigma_{j}^{(i)}\right)^{2}\right)\end{aligned}\tag{3.1.5}$
$J$ 为 $\mathbf{z}$ 的维数， $\boldsymbol{\mu}$ 和 $\boldsymbol{\sigma}$ 表示第 $i$ 个数据 $\mathbf{x}^{(i)}$ 的均值和方差， $\boldsymbol{\mu}_j$ 和 $\boldsymbol{\sigma}_j$ 表示均值和方差的第 $j$ 项。
对于数据 $\mathbf{x}^{(i)}$ 的最终模型为：
$\color{red}\begin{aligned}&\widetilde{\mathcal{L}}^{B}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right)\simeq \underbrace{\frac{1}{2} \sum_{j=1}^{J}\left(1+\log \left(\left(\sigma_{j}^{(i)}\right)^{2}\right)-\left(\mu_{j}^{(i)}\right)^{2}-\left(\sigma_{j}^{(i)}\right)^{2}\right)}_{Regularization\;Loss}+\underbrace{\frac{1}{L} \sum_{l=1}^{L}\left(\log p_{\boldsymbol{\theta}}\left(\mathbf{x}^{(i)} \mid \mathbf{z}^{(i, l)}\right)\right)}_{Reconstruction\;Loss}\\ &where \quad\mathbf{z}^{(i,l)}=g_\phi(\mathbf{x}^{(i)},\epsilon^{(l)})=\boldsymbol{\mu}^{(i)} + \boldsymbol{\sigma^{(i)}}\odot \epsilon^{(l)} \quad and \quad \boldsymbol{\epsilon}^{(l)} \sim \mathcal{N}(\mathbf{0},\mathbf{I})\end{aligned}\tag{3.1.6}$
VAE整体流程：
$\widetilde{\mathcal{L}}^{B}\left(\boldsymbol{\theta}, \boldsymbol{\phi} ; \mathbf{x}^{(i)}\right) = - D_{K L}[\overbrace{q_{\phi}(\textbf{z} \mid \textbf{x}^{(i)})}^{\text{Encoder}} \lVert \overbrace{p_{\theta}(\textbf{z})}^{\text{Fixed}}] + \frac{1}{L} \sum_{l=1}^{L} \log \overbrace{p_{\boldsymbol{\theta}}(\textbf{x}^{(i)} \mid \textbf{z}^{(l)})}^{\text{Decoder}}\tag{3.1.7}$
具体来说，当先验和近似后验是高斯时，这是一次遍历计算图：
$\begin{aligned} \boldsymbol{\mu}_x, \boldsymbol{\sigma}_x = M(\textbf{x}), \Sigma(\textbf{x})& \;\;\; \text{Push $\textbf{x}$ through encoder}\\ \boldsymbol{\epsilon} \sim \mathcal{N}(0, 1)&\;\;\; \text{Sample noise}\\ \textbf{z} = \boldsymbol{\epsilon} \boldsymbol{\sigma}_x + \boldsymbol{\mu}_x &\;\;\; \text{Reparameterize}\\ \textbf{x}_r = p_{\boldsymbol{\theta}}(\textbf{x} \mid \textbf{z})& \;\;\; \text{Push $\textbf{z}$ through decoder}\\ \text{recon. loss} = \text{MSE}(\textbf{x}, \textbf{x}_r) &\;\;\;\text{Compute reconstruction loss}\\ \text{var. loss} = -\text{KL}[\mathcal{N}(\boldsymbol{\mu}_x, \boldsymbol{\sigma}_x) \lVert \mathcal{N}(0, I)] &\;\;\; \text{Compute variational loss}\\ \text{L} = \text{recon. loss} + \text{var. loss}&\;\;\; \text{Combine losses} \end{aligned}$

其中黄色代表输入。

3.2 VAE 的对抗

如上图， $\color{red}重构的过程是希望没噪声的，而KL loss则希望有高斯噪声的，两者是对立的$ 。所以， $\color{red}VAE跟GAN一样，内部其实是包含了一个对抗的过程，只不过它们两者是混合起来，共同进化的$ 。

4. 代码示例

4.1 编码器

利用简单堆叠卷积层与全连接层将MNIST的数字图像转换为2维的正态分布均值与对数方差：

import keras
from keras import layers,Model,models,utils
from keras import backend as K
from keras.datasets import mnist
from scipy.stats import norm
from keras.utils.vis_utils import plot_model
import numpy as np
import matplotlib.pyplot as plt

img_shape = (28, 28, 1)
latent_dim = 2

input_img = layers.Input(shape=img_shape)
x = layers.Conv2D(filters=32, kernel_size=3, padding='same', activation='relu')(input_img)   # 28*28*1
x = layers.Conv2D(filters=64, kernel_size=3, padding='same', activation='relu', strides=2)(x) # 28*28*32
x = layers.Conv2D(filters=64, kernel_size=3, padding='same', activation='relu')(x)   # 14*14*64
x = layers.Conv2D(filters=64, kernel_size=3, padding='same', activation='relu')(x)   # 14*14*64
inter_shape = K.int_shape(x)  # int_shape是返回张量或变量的shape，作为int或None条目的元组。
x = layers.Flatten()(x)
x = layers.Dense(32, activation='relu')(x)

encode_mean = layers.Dense(2, name='encode_mean')(x)       # 分布均值
encode_log_var = layers.Dense(2, name='encode_logvar')(x)  # 分布对数方差

encoder = Model(input_img, [encode_mean,encode_log_var], name='encoder')
plot_model(encoder, to_file='encoder.png', show_shapes=True)

4.2 解码器

利用简单的堆叠卷积层、逆卷积层与全连接层将解码器接受2维向量，将这个向量“解码”为图像：

#%%解码器
input_code = layers.Input(shape=[2])  # [(None, 2)]
x = layers.Dense(np.prod(inter_shape[1:]), activation='relu')(input_code)   # (None, 12544)
x = layers.Reshape(target_shape=inter_shape[1:])(x)   # (None, 14, 14, 64)
x = layers.Conv2DTranspose(filters=32, kernel_size=3, padding='same', activation='relu', strides=2)(x)  # (28, 28, 32)
x = layers.Conv2D(filters=1, kernel_size=3, padding='same', activation='sigmoid')(x)    # (28, 28, 1)

decoder = Model(input_code, x, name='decoder')
plot_model(decoder, to_file='decoder.png', show_shapes=True)

4.3 整体待训练模型

整体待训练模型包括编码器、抽样层、解码器。
- $\color{green}中间的抽样操作$ 在获取编码器传出的均值与方差后，通过一个自定义的lambda层来实现。这个抽样是先从标准正态分布中抽样，再通过乘生成分布的标准差，加上均值来获得。因此这个操作并不会把反向传播中断，可以将编码器与解码器的张量流连接起来。
定义好模型后是损失的定义，如前面所说，最终损失（目标函数）是生成图像与原图像之间的二元交叉熵和生成分布的正则化的平均值。使用add_loss方法来添加模型的损失。

# %%整体待训练模型
# 定义lambda要执行的函数
def sampling(arg):
  mean = arg[0]
  logvar = arg[1]
  epsilon = K.random_normal(shape=K.shape(mean), mean=0., stddev=1.)  # 从标准正态分布中抽样
  return mean + K.exp(0.5 * logvar) * epsilon  # 获取生成分布的抽样

# 使用lambda表达式，对函数进行传参
input_img = layers.Input(shape=img_shape, name='img_input')
code_mean, code_log_var = encoder(input_img)  # 获取生成分布的均值与方差
x = layers.Lambda(sampling, name='sampling')([code_mean, code_log_var])
x = decoder(x)
training_model = Model(input_img, x, name='training_model')

decode_loss = keras.metrics.binary_crossentropy(K.flatten(input_img), K.flatten(x))
kl_loss = -5e-4 * K.mean(1 + code_log_var - K.square(code_mean) - K.exp(code_log_var))
training_model.add_loss(K.mean(decode_loss + kl_loss))  # 新出的方法，方便得很
training_model.compile(optimizer='rmsprop')
training_model.summary()

4.4 训练

因为损失函数并没有定义真实数据与预测数据直接的损失，因此fit方法只需传入输入即可（不用输出）。

# %%读取数据集训练
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train = x_train.astype('float32') / 255
x_train = x_train[:, :, :, np.newaxis]

training_model.fit(
  x_train,
  batch_size=512,
  epochs=100,
  validation_data=(x_train[:2], None))

4.5 生成测试

使用scipy.stats中的norm.ppf方法在概率区间(0.01,0.99)内生成20*20个解码器输入，这个方法类似在标准正态分布中抽样，但并不是随机的，是正态分布下的等概率。生成的二维点分布如下图：

这样抽样而不均匀抽样为了和编码器的生成分布契合，因为编码器正则化后生成的分布是靠近标准正态分布的。然后用解码器生成图片：

n = 25
x = y = norm.ppf(np.linspace(0.01, 0.99, n))  # 生成标准正态分布数
X, Y = np.meshgrid(x, y)                      # 形成网格
X = X.reshape([-1, 1])                       # 数组展平
Y = Y.reshape([-1, 1])
input_points = np.concatenate([X, Y], axis=-1)  # 连接为输入
for i in input_points:
  plt.scatter(i[0], i[1])
plt.show()

img_size = 28
predict_img = decoder.predict(input_points)
pic = np.empty([img_size*n, img_size*n, 1])
for i in range(n):
  for j in range(n):
    pic[img_size*i:img_size*(i+1), img_size*j:img_size*(j+1)] = predict_img[i*n+j]
plt.figure(figsize=(10, 10))
plt.axis('off')
pic = np.squeeze(pic)
plt.imshow(pic, cmap='bone')
plt.show()

参考：

【学习笔记】生成模型——变分自编码器
变分自编码器（一）：原来是这么一回事
VAE中的重参数化技巧-reparameterization trick
VAE论文阅读
变分自编码器VAE
《A Deep Generative Framework for Paraphrase Generation》论文笔记
VAE变分自编码器Keras实现

你可能感兴趣的:(GAN,医学图像&论文笔记,神经网络,深度学习,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
在Ubuntu中编译含有JSON的文件出现报错芝麻糊76 Linux kill_bug linux ubuntu json
在ubuntu中进行JSON相关学习的时候，我发现了一些小问题，决定与大家进行分享，减少踩坑时候出现不必要的时间耗费截取部分含有JSON部分的代码进行展示char*str="{\"title\":\"JSONExample\",\"author\":{\"name\":\"JohnDoe\",\"age\":35,\"isVerified\":true},\"tags\":[\"json\",\"
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
matlab mle 优化,MLE+: Matlab Toolbox for Integrated Modeling, Control and Optimization for Buildings... Simon Zhong matlab mle 优化
摘要：FollowingunilateralopticnervesectioninadultPVGhoodedrat,theaxonguidancecueephrin-A2isup-regulatedincaudalbutnotrostralsuperiorcolliculus(SC)andtheEphA5receptorisdown-regulatedinaxotomisedretinalgan
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
LeetCode 53. Maximum Subarray 枯萎的海风算法与OJ C/C++leetcode
1.题目描述Findthecontiguoussubarraywithinanarray(containingatleastonenumber)whichhasthelargestsum.Forexample,giventhearray[−2,1,−3,4,−1,2,1,−5,4],thecontiguoussubarray[4,−1,2,1]hasthelargestsum=6.clicktos
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
[Swift]LeetCode767. 重构字符串 | Reorganize String weixin_30591551 swift runtime
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号：山青咏芝（shanqingyongzhi）➤博客园地址：山青咏芝（https://www.cnblogs.com/strengthen/）➤GitHub地址：https://github.com/strengthen/LeetCode➤原文地址：https://www.cnblogs.com/streng
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【LeetCode】53. Maximum Subarray 墨染百城 LeetCode leetcode
问题描述问题链接：https://leetcode.com/problems/maximum-subarray/#/descriptionFindthecontiguoussubarraywithinanarray(containingatleastonenumber)whichhasthelargestsum.Forexample,giventhearray[-2,1,-3,4,-1,2,1,-
LeetCode 673. Number of Longest Increasing Subsequence (Java版; Meidum) littlehaes 字符串动态规划算法 leetcode 数据结构
welcometomyblogLeetCode673.NumberofLongestIncreasingSubsequence(Java版;Meidum)题目描述Givenanunsortedarrayofintegers,findthenumberoflongestincreasingsubsequence.Example1:Input:[1,3,5,4,7]Output:2Explanatio
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Ubuntu Juju 与 Ansible的区别 xidianjiapei001 #Kubernetes ubuntu ansible linux 云原生 Juju
JujuandAnsiblearebothpowerfultoolsusedformanagingandorchestratingITinfrastructureandapplications,buttheyhavedifferentapproachesandusecases.Here’sabreakdownofthekeydifferencesbetweenthem:1.ConceptualFo
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后