oldmao_2001

李宏毅学习笔记35.GAN.06.Tips for Improving GAN

文章目录

简介

JS divergence来衡量分布的问题
What is the problem of JS divergence?

Least Square GAN (LSGAN)
Wasserstein GAN (WGAN): Earth Mover’s Distance

Why Earth Mover’s Distance?
WGAN

Improved WGAN (WGAN-GP)
Spectrum Norm
GAN to WGAN（如何将GAN的算法改为WGAN的算法）

Algorithm of GAN（Review）
Algorithm of WGAN

Energy-based GAN (EBGAN)
Outlook: Loss-sensitive GAN (LSGAN)
Reference

简介

Martin Arjovsky, Soumith Chintala, Leon Bottou, Wasserstein GAN, arXiv prepring, 2017
Ishaan Gulrajani, Faruk Ahmed,Martin Arjovsky, Vincent Dumoulin, Aaron Courville, “Improved Training of Wasserstein GANs”,arXiv prepring,2017
这节讲GAN的优化。
公式输入请参考：在线Latex公式

JS divergence来衡量分布的问题

JS divergence is not suitable. 原因在于：
In most cases, $P_G$ and $P_{data}$ are not overlapped.
就是生成的数据和真实数据是不重叠的。不重叠有两方面的原因：
1、数据本身的问题The nature of data
Both $P_{data}$ and $P_G$ are low-dim manifold in high-dim space.The overlap can be ignored.
例如：图片是高（三）维空间中的低（二）维空间的manifold。
如下图所示，可以看到两个曲线overlap的部分是很小的。

2、采样Sampling的原因
尽管数据本来是有overlap，但是我们不是取所有的数据：
Even though $P_{data}$ and $P_G$ have overlap.

我们是对这两堆分布进行采样，我们不会采样全部，而是部分：

以上两个分布采样的结果是不会有overlap的，除非你采样超多点，因此这两个采样结果可以看做是两个不同的分布：

也就是说If you do not have enough sampling ……结果就是没有重合。
没有重合的时候，用JS divergence来衡量分布，会发生什么？

What is the problem of JS divergence?

只要两个分布不重合，那么算出来的结果都一样： $l o g 2$
JS divergence is $l o g 2$ if two distributions do not overlap

按理说 $P_{G_1}$ 要比 $P_{G_0}$ 好，因为它比 $P_{G_0}$ 要更加接近 $P_{data}$ ，JS divergence都一样，除非二者重合，两个才会有JS divergence=0。这样在不重合的状态下是没有办法做优化（train）的。
结果为什么会是： $l o g 2$ ？
Intuition: If two distributions do not overlap, binary classifier achieves 100% accuracy.
用一个二分类的分类器对不重叠的两个分布做分类，总是可以得到100%的准确率，因此其cost都是一样的。
Same objective value is obtained. →Same divergence.
因此在GAN中用二分类来训练是很难收敛的。例如：
用绿色点代表真实数据
蓝色点代表生成数据
如果是一个sigmoid函数的话，可以看到蓝色点这块的梯度都是0，所以在GD的时候是不会更新（动）的。所以有人提出说，不要把这个分类函数训练得太好，使得整个分类函数在蓝色点部分有梯度，这样才可以进行梯度更新，但是这个训练得好不好（太用力，没梯度，不够用力，discriminator无法工作），很难把握。

因此为了做GAN的优化，出现了LSGAN

Least Square GAN (LSGAN)

算法思想就是用线性分类器替换sigmoid分类器。也就是把分类问题换成了回归问题。
Replace sigmoid with linear (replace classification with regression)

train的目标是使得真实数据越接近1越好，生成数据越接近0越好。

Wasserstein GAN (WGAN): Earth Mover’s Distance

Wasserstein中a发[æ]的音，思想就是不用JS divergence来衡量两个分布的差别，而是用另外一个方法：Earth Mover’s Distance。这个玩意的概念很土。。。
把P和Q看作是两堆土，而你是蓝翔毕业的挖掘机(Earth Mover)司机，要把P这堆土（原文是挖到Q那里，但是应该不是这个意思）挖成Q的形状，而Earth Mover’s Distance就是挖掘机来回移动的平均距离。
• Considering one distribution P as a pile of earth, and another distribution Q as the target
• The average distance the earth mover has to move the earth.

上面的分布是简化了的，土堆应该是这样：

要把P变成Q，可以有很多种挖法：

上图中的左边是是把邻近的土进行移动，右边是比较远的土进行移动。我们一般用左边的那种。
There many possible “moving plans”.
Using the “moving plan” with the smallest average distance to define the earth mover’s distance.
Best “moving plans” of this example

正式的定义：
A “moving plan” is a matrix. The value of the element is the amount of earth from one position to another.
Average distance of a plan $\gamma$ :
$B(\gamma)=\sum_{x_p,x_q}\gamma(x_p,x_q)||x_p-x_q||$
Earth Mover’s Distance:
$W(P,Q)=\underset{\gamma\in\prod}{min}B(\gamma)$
这个矩阵中某个点(x,y)代表从行x移动多少土到列y，这个点的颜色越亮，那么代表移动的土越多。
行x所有点加起来，对应P中对应第x堆土；
列y所有点加起来，对应Q中对应第y堆土。
给定矩阵（确定移动方案后） $\gamma$ ，计算移动距离 $B(\gamma)$ ，如上面公式所示，然后穷举所有移动方案，找到最小那个。

也就是说这个方法要接一个优化方案后才能得到解。

Why Earth Mover’s Distance?

用Earth Mover’s Distance来替换JS divergence

那么也就改善了之前两个分布不重叠无法更新梯度的缺点：

可以看到d50比d0是有进步的，所以梯度才能不断更新迭代，最后到达两个分布距离为0的目标。

WGAN

如何用wasserstein distance来衡量两个分布，这个过程的证明比较复杂，直接给结论：
Evaluate wasserstein distance between $P_{data}$ and $P_G$
$V(G,D)=\underset{D\in 1-Lipschitz}{max}\{E_{x\sim P_{data}}[D(x)]-E_{x\sim P_{G}}[D(x)]\}$
公式的意思是：如果x是从 $P_{data}$ 采样出来的，希望他的Discriminator值越大越好，如果是从 $P_G$ 采样出来的，希望他的Discriminator值越小越好，另外还有一个约束就是D要是一个 $1 - L i p s c h i t z$ 的函数（啥意思后面讲，就是要D越平滑越好）
为什么要平滑呢，如果没有平滑的这个限制：

D就会在生成数据 $P_{data}$ 的地方趋向于负无穷大，在真实数据 $P_G$ 的地方趋向于正无穷大。两个分布就会差很多。加入平滑限制，会使得D不会无限的上升和下降，会停在某个地方。

$Lipschitz\space Function$
$||f(x_1)-f(x_2)||\leq K||x_1-x_2||$
可以看到公式左边是输出的变化，右边是输入的变化，也就是说输出的变化要小于K倍的输入的变化。
当K=1，我们就把这个满足这个不等式的函数称为 $1 - L i p s c h i t z$
也就是
$||f(x_1)-f(x_2)||\leq ||x_1-x_2||$
也就是不会变化很快。例如下面的绿色函数比较像 $1-Lipschitz\space Function$ ，蓝色函数就肯定不是 $1-Lipschitz\space Function$

如何满足 $1-Lipschitz\space Function$ 约束条件呢？原论文使用的方法是：Weight Clipping
Force the parameters $w$ between $c$ and $- c$ . After parameter update,
if w > c, w = c;
if w < -c, w = -c
这个方法很简单，其实用这个方法弄出来的函数并不满足 $1-Lipschitz\space Function$ 约束条件，但是基本能work，能达到使得D平滑的目的。也是没有办法的办法，因为 $1-Lipschitz\space Function$ 不好优化。

Improved WGAN (WGAN-GP)

对Weight Clipping进行改进，函数还是一样：
$V(G,D)=\underset{D\in 1-Lipschitz}{max}\{E_{x\sim P_{data}}[D(x)]-E_{x\sim P_{G}}[D(x)]\}$
但是Improved WGAN对于约束换了一个角度，就是梯度的norm要小于等于1。
A differentiable function is 1-Lipschitz if and only if it has gradients with norm less than or equal to 1 everywhere.
这个转换和之前的约束是一样的。

关于norm的计算是有一个近似计算的方法的：
$V(G,D)\approx\underset{D}{max}\{E_{x\sim P_{data}}[D(x)]-E_{x\sim P_{G}}[D(x)]-\lambda\int_xmax(0,||\triangledown _xD(x)||-1)dx\}$
后面这个积分项类似于正则项，它的作用是对所有的x做积分，然后取一个max，这个max的意思当Discriminator的梯度的norm大于1，那么就会存在正则项，如果Discriminator的梯度的norm小于1，那么这项为0，没有正则项（不惩罚）。但是这样会有问题，我们不可能对所有高维空间中的x都进行求积分这个操作，我们的x是sample出来的。因此再次把正则项进行近似：
$-\lambda E_{x\sim P_{penalty}}[max(0,||\triangledown _xD(x)||-1)]$
这个正则项保证所有采样出来的x满足Discriminator的梯度的norm小于1
把这个惩罚项拿出来，做一个可视化，实际上这个penalty项就是从 $P_{data}$ 中随便取一点，然后从 $P_G$ 中随便取一点，然后在这两点的连线上进行采样，得到 $x\sim penalty$

把这些sample到的 $x\sim penalty$ 范围画出来就是上面的蓝色部分，为什么不是对整个空间中的x都做penalty呢？原文说实验结果表明这样做结果比较好。。。
“Given that enforcing the Lipschitz constraint everywhere is intractable, enforcing it only along these straight lines seems sufficient and experimentally results in good performance.”
从另外一个方面来看， $P_G$ 要沿着梯度的方向向 $P_{data}$ 靠近，靠近移动的方向就是蓝色区域，其他区域也不会去，所以这样解释也可以。
Only give gradient constraint to the region between $P_{data}$ and $P_G$ because they influence how $P_G$ moves to $P_{data}$ .
再来一个trick，之前说近似后的约束是希望梯度大于1就会有惩罚，小于1不会有惩罚（ $max(0,||\triangledown _xD(x)||-1)$ 这里。）但是在实作的时候，用的正则项为： $(||\triangledown _xD(x)||-1)^2$ ，意思是希望梯度越接近1越好。原文：
“Simply penalizing overly large gradients also works in theory, but experimentally we found that this approach converged faster and to better optima.”
理由就是实作上效果好。。。
当然这个方法也有缺点，它的penalty的点是从两个分布中随机选点然后连接，然后做采样，如果有下图的两个分布明显这样做有问题：

选择红色那个点是不好的，（因为黄色的点移动也是移动到黑色点那个位置，也就是以黑色点为目标，而不是以红色点为目标。）应该选下图中黑色的点的连线来做采样比较合适。但是找黑色的点又比较麻烦。。。

后来又研究者对Improved WGAN提出Improved Improved WGAN算法，改进的地方在于把penalty放在了 $P_{data}$ 的范围。

Spectrum Norm

上面讲的WGAN比较弱，一来都是用近似的方法搞的，解释不通就说反正实作就是这样；二来只有在某个区域Discriminator的norm才会满足小于1的条件。Spectrum Norm就直接，所有范围的x经过Discriminator后的norm都会满足小于1的条件。（不展开）
Spectral Normalization → Keep gradient norm smaller than 1 everywhere [Miyato, et al., ICLR, 2018]
下面是生成狗狗的DEMO，原文是动图。。。

GAN to WGAN（如何将GAN的算法改为WGAN的算法）

Algorithm of GAN（Review）

Initialize $\theta_d$ for $D$ and $\theta_g$ for $G$ .
• In each training iteration:

这块分割线内是训练Discriminator，重复k次，这里一定要训练到收敛为止，目的是找到 $\underset{D}{\text{max}}V(G,D)$ （实作的时候一般没有办法真的训练到收敛或者卡在局部最小点，因此这里找到的是 $\underset{D}{\text{max}}V(G,D)$ 的lower bound）。
••Sample m examples $\{x^1,x^2,\cdots,x^m\}$ from data distribution $P_{data}(x)$ .（找到真实对象）
••Sample m noise examples $\{z^1,z^2,\cdots,z^m\}$ from the prior $P_{prior}(z)$ .（这个先验分布种类不是很重要）
•••Obtaining generated data $\{\tilde x^1,\tilde x^2,\cdots,\tilde x^m\},\tilde x^i=G(z^i)$ .（找到生成对象）
•• Update discriminator parameters $\theta_d$ to maximize
$\tilde V=\cfrac{1}{m}\sum_{i=1}^mlogD(x^i)+\cfrac{1}{m}\sum_{i=1}^mlog(1-D(\tilde x^i))\tag1$
$\theta_d\leftarrow\theta_d+\eta\triangledown\tilde V(\theta_d)$

这块分割线内是训练Generator，重复1次，目的是减少JSD
••Sample another m noise samples $\{z^1,z^2,\cdots,z^m\}$ from the prior $P_{prior}(z)$
••Update generator parameters $\theta_g$ to minimize
$\tilde V=\cfrac{1}{m}\sum_{i=1}^mlogD(x^i)+\cfrac{1}{m}\sum_{i=1}^mlog(1-D(G(z^i)))\\ \theta_g\leftarrow\theta_g-\eta\triangledown\tilde V(\theta_g)$
由于 $\cfrac{1}{m}\sum_{i=1}^mlogD(x^i)$ 和 $G$ 函数无关，所以在求最小值的时候可以忽略：
$\tilde V=\cfrac{1}{m}\sum_{i=1}^mlog(1-D(G(z^i)))\tag2$
$\theta_g\leftarrow\theta_g-\eta\triangledown\tilde V(\theta_g)$

Algorithm of WGAN

把原始GAN算法中的公式1和公式2进行修改，具体如下：
对于公式1（训练discriminator），实际上就是把sigmoid函数去掉，变成：
$\tilde V=\cfrac{1}{m}\sum_{i=1}^mD(x^i)-\cfrac{1}{m}\sum_{i=1}^mD(\tilde x^i)\tag3$
当然在训练discriminator的时候要注意使用Weight clipping /Gradient Penalty …等技巧，否则很难收敛。
对于公式2（训练generator），改为：
$\tilde V=-\cfrac{1}{m}\sum_{i=1}^mD(G(z^i))$

Energy-based GAN (EBGAN)

Junbo Zhao, et al., arXiv, 2016
这个算法还有一个变形，不展开，大概看看这个算法。
大概思想就是Generator不变，用autoencoder来做Discriminator。
Using an autoencoder as discriminator D.
计算过程如下图所示：

生成的图片进入粉色部分（Discriminator），先经过一个Autoencoder，还原后，计算出还原图像和原图的reconstruction error（上图中是0.1），然后乘上一个 -1，得到Discriminator的输出（上例中是-0.1）
所以从整体上来看Discriminator和之前的GAN的Discriminator一样，输入一个对象，得到这个对象和真实对象的差距，只不过是得到这个差距的方法不一样，之前是JS divergence，这里是Autoencoder。简单来说就是根据一个图片是否能够被reconstruction，如果能被还原得很好，说明这个图片是一个high quality的图片，反之亦然。
这个方法的好处就是Autoencoder是可以pretrain的，不需要negative example来训练，直接给它positive example来minimize reconstruction error即可。
➢Using the negative reconstruction error of auto-encoder to determine the goodness.
➢Benefit: The auto-encoder can be pre-train by real images without generator.
这样还有一个好处，原来的GAN刚开始训练的时候generator和discriminator都很弱，要不断迭代后discriminator才随着generator的变强而变强，这个方法discriminator不依赖generator，直接开局就很强。
EBGAN在训练的时候有一个trick，如果只是希望生成图片（蓝色）的分数，即reconstruction error越大越好（取负号后变小），那么会让autoencoder训练出来直接输出noise，因为Hard to reconstruct, easy to destroy，要得到低分很简单，只要输出noise，就会得到reconstruction error超级大（取负号后变小），这样训练出来的discriminator不是我们想要的。

因此我们会在训练的过程中为reconstruction error（取负号后）添加一个margin下限（超参数），让reconstruction error（取负号后）小到一定程度即可。

Outlook: Loss-sensitive GAN (LSGAN)

这个GAN也用到了margin的概念，之前的WGAN，Discriminator是希望真实数据得分越大越好，生成数据得分越小越好

但是有些生成数据已经比较真实了，没有必要要搞得很小。例如：下图中的 $x^{''}$ 比较接近真实数据 $x$ ，即 $\Delta(x,x'')$ 比较小， $x^{'}$ 没有那么接近真实数据 $x$ ，即 $\Delta(x,x')$ 比较大，可以看到 $\Delta(x,x')$ 的margin压得比较小，而 $\Delta(x,x'')$ 的margin比较大。

Reference

• Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David WardeFarley, Sherjil Ozair, Aaron Courville, Yoshua Bengio, Generative Adversarial Networks, NIPS, 2014
• Sebastian Nowozin, Botond Cseke, Ryota Tomioka, “f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization”, NIPS, 2016
• Martin Arjovsky, Soumith Chintala, Léon Bottou, Wasserstein GAN, arXiv, 2017
• Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, Aaron Courville, Improved Training of Wasserstein GANs, NIPS, 2017
• Junbo Zhao, Michael Mathieu, Yann LeCun, Energy-based Generative Adversarial Network, arXiv, 2016
• Mario Lucic, Karol Kurach, Marcin Michalski, Sylvain Gelly, Olivier Bousquet, “Are GANs Created Equal? A Large-Scale Study”, arXiv, 2017
• Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen Improved Techniques for Training GANs, NIPS, 2016
• Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, Sepp Hochreiter, GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium, NIPS, 2017
• Naveen Kodali, Jacob Abernethy, James Hays, Zsolt Kira, “On Convergence and Stability of GANs”, arXiv, 2017
• Xiang Wei, Boqing Gong, Zixia Liu, Wei Lu, Liqiang Wang, Improving the Improved Training of Wasserstein GANs: A Consistency Term and Its Dual Effect, ICLR, 2018
• Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida, Spectral Normalization for Generative Adversarial Networks, ICLR, 2018

李宏毅机器学习笔记——反向传播算法小陈phd 机器学习机器学习算法神经网络
反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降等优化算法结合使用。反向传播的基本原理反向传播的核心思想是利用链式法则（ChainRule）来高效地计算损失函数相对于每个参数的梯度。以下是反向传播的基本步骤：前向传播（Forwa
李宏毅机器学习笔记 2.回归 Simone Zeng 机器学习机器学习
最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课1.机器
2023春季李宏毅机器学习笔记 02 ：机器学习基本概念女王の专属领地机器学习深度学习 #李宏毅2023机器学习机器学习笔记人工智能
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、機器學習基
2023春季李宏毅机器学习笔记 03 ：机器如何生成文句女王の专属领地 #李宏毅2023机器学习机器学习深度学习笔记机器学习人工智能深度学习
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、大语言模型
Chat GPT4来了，它和3.5区别在哪？李宏毅机器学习笔记抱抱小杠杠机器学习人工智能笔记
听说GPT4模型更大、参数更多，功能更强，具体它好在哪里？GPT4真的能看懂图片吗？官方回答：不太能~~下面这张图片是将两个不存在的网址输入进GPT4，问它看到了什么，结果发现GPT真的会胡言乱语，它会根据网址中出现了“man”这个单词，就说他看到了“一个拿着手枪的男人。。。巴拉巴拉”明显就是在胡编乱造！而如果网址中出现了“girl”这个单词，GPT又会说他看到了“一个穿着校服的女孩子。。。巴拉巴
2023春季李宏毅机器学习笔记 05 ：机器如何生成图像女王の专属领地 #李宏毅2023机器学习机器学习笔记人工智能机器学习李宏毅 AI产品
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、图像生成常
2023春季李宏毅机器学习笔记01 ：正确认识 ChatGPT 女王の专属领地深度学习机器学习机器学习李宏毅人工智能 AI产品
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、对Chat
【23-24 秋学期】NNDL 作业11 LSTM HBU_David lstm 机器学习人工智能
习题6-4推导LSTM网络中参数的梯度，并分析其避免梯度消失的效果习题6-3P编程实现下图LSTM运行过程李宏毅机器学习笔记：RNN循环神经网络_李宏毅rnn笔记_ZEERO~的博客-CSDN博客https://blog.csdn.net/weixin_43249038/article/details/132650998L5W1作业1手把手实现循环神经网络-CSDN博客https://blog.c
李宏毅老师机器学习课程笔记_ML Lecture 1: ML Lecture 1: Regression - Demo leogoforit
引言：最近开始学习“机器学习”，早就听说祖国宝岛的李宏毅老师的大名，一直没有时间看他的系列课程。今天听了一课，感觉非常棒，通俗易懂，而又能够抓住重点，中间还能加上一些很有趣的例子加深学生的印象。视频链接（bilibili）：李宏毅机器学习(2017)另外已经有有心的同学做了速记并更新在github上：李宏毅机器学习笔记(LeeML-Notes)所以，接下来我的笔记只记录一些我自己的总结和听课当时的
李宏毅机器学习笔记.Flow-based Generative Model(补) oldmao_2000 李宏毅机器学习笔记机器学习笔记人工智能
文章目录引子生成问题回顾：GeneratorMathBackgroundJacobianMatrixDeterminant行列式ChangeofVariableTheorem简单实例一维实例二维实例网络G的限制基于Flow的网络构架G的训练CouplingLayerCouplingLayer反函数计算CouplingLayerJacobian矩阵计算CouplingLayerStacking1×1
李宏毅机器学习笔记-transformer ZEERO~ 深度学习机器学习笔记 transformer 深度学习
transformer是什么呢？是一个seq2seq的model。具体应用如上图所示，输入和输出的序列长度不固定，由model自己决定。语音翻译指的是，直接输入一段语音信号，例如英文，输出的直接是翻译之后的中文。seq2seq如今已经是一个应用非常广泛的模型，可以应用于NLP的各种任务，如语义分析，语义分类，聊天机器人等。另外还有个值得说明的功能是做multilabelclassification
李宏毅机器学习笔记-半监督学习 ZEERO~ 深度学习机器学习笔记学习
半监督学习，一般应用于少量带标签的数据（数量R）和大量未带标签数据的场景（数量U），一般来说，U>>R。半监督学习一般可以分为2种情况，一种是transductivelearning，这种情况下，将unlabeleddata的feature利用进来。另外一种是inductivelearning，这种情况下，在训练的整个过程中，完全不看任何unlabeleddata的信息。为什么要做semi-sup
李宏毅机器学习笔记第7周_局部最小值与鞍点 MoxiMoses 机器学习深度学习
文章目录一、OptimizationFailsbecause……二、TaylerSeriesApproximation三、Example总结一、OptimizationFailsbecause……1．问题：我们在做optimization的时候会发现，随着参数的不断更新，training的loss不会再下降，但是我们对loss并不满意。因此我们会发现，一开始model就train不起来，不管我们怎
李宏毅机器学习笔记：RNN循环神经网络 ZEERO~ 深度学习机器学习机器学习笔记 rnn
RNN一、RNN1、场景引入2、如何将一个单词表示成一个向量3种典型的RNN网络结构二、LSTMLSTM和普通NN、RNN区别三、LSTM的训练一、RNN1、场景引入例如情景补充的情况，根据词汇预测该词汇所属的类别。这个时候的Taipi则属于目的地。但是，在订票系统中，Taipi也可能会属于出发地。到底属于目的地，还是出发地，如果不结合上下文，则很难做出判断。因此，使用传统的深度神经网络解决不了问
李宏毅机器学习笔记：结构学习，HMM，CRF ZEERO~ 机器学习机器学习笔记学习
李宏毅机器学习笔记：结构学习，HMM，CRF1、隐马尔可夫模型HMM1.1Sequence2Sequence1.2HMM1.3Viterbi算法1.3HMM模型的缺点2、CRF2.1CRF模型2.2CRF模型训练1、隐马尔可夫模型HMM1.1Sequence2Sequence什么是Seq2Seq问题呢？简单来说，就是输入是一个序列，输出也是一个序列。输入和输出的序列可以相等，也可以不相等。在本文中
李宏毅机器学习笔记——16. Conditional Generation by RNN&Attention(RNN条件生成与注意力机制) HSR CatcousCherishes 机器学习基础课程知识机器学习人工智能神经网络
摘要：本章内容是讲解了Generation，Attention，TipsforGeneration，一是围绕用RNN实现Generation（生成）的方法与基本原理，先应用生成句子去介绍生成的基本原理，接着举例无条件的生成图片，其不同的是：将图片上的每个像素点看成一个word，并需要考虑各像素之间的几何关系，所以我们需要借助3D-LSTM完善了Generation图片功能。但是在实际应用中，我们的
李宏毅机器学习笔记——生成模型荆棘鸟》深度学习人工智能
介绍了三种方法，pixelRNN，VAE,GAN。笔记以VAE为主。pixelRNN比较容易理解，由已知推未知。这种方法还能应用到语音生成等领域在这里有个tips值得说一下，图的每个像素一般RGB三色，问题出在当RGB三个值相差不大时最终的结果像素点的颜色趋向灰色，于是乎，为了使生成的图像更加鲜亮，就需要拉高三个值的差距。简而言之，原本用三个数表示颜色，现在只用一个。VAE是一个相对复杂的东西，事
李宏毅机器学习笔记——概率模型荆棘鸟》机器学习人工智能神经网络
很有意思的一门课，但关于如何利用P(x)生成x还存在疑惑。在神经网络中y=w*x+b，为什么是这个形式？这门课将在最后归结到这一点上。举一个实际的例子，训练集中A类71个B类69个我们假定A类的71个点遵循gaussiondistribution，上图涉及的函数：输入一个点(代表一个实例的特征vector)，输出sample中该点的概率，在下文中即为P(x|A)与P(x|B)该函数有两个参数，μ与
李宏毅机器学习笔记 learn_for_more 机器学习人工智能深度学习
DataWhale–李宏毅老师机器学习P5-P8《误差来源》和《梯度下降法》学习笔记学习笔记本文是李宏毅老师B站–《机器学习》课程的学习笔记，在此非常感谢DataWhale提供的平台，希望大家加入到这个学习的大家庭中，共同成长。本文主要是关于误差来源及梯度下降法的介绍，是在老师的讲解视频和学习文档的基础上总结而来。一、误差来源在机器学习中，模型估计的误差可以分为两种，偏差（Bias）和方差（Var
【ML入门】李宏毅机器学习笔记02-回归问题（Regression） BG大龍
【ML入门】李宏毅机器学习笔记02-回归问题（Regression）-知乎https://zhuanlan.zhihu.com/p/74684108
李宏毅机器学习笔记第8周_批次与动量 MoxiMoses 机器学习深度学习
文章目录一、Review：OptimizationwithBatch二、SmallBatchv.s.LargeBatch三、Momentum1.SmallGradient2.VanillaGradient3.GradientDescent+Momentum一、Review：OptimizationwithBatch在计算微分的时候，并不是把所有的data对计算出来的L做微分，而是把data分成一个
【ML入门】李宏毅机器学习笔记01-Learning Map BG大龍
【ML入门】李宏毅机器学习笔记01-LearningMap-知乎https://zhuanlan.zhihu.com/p/74377397
李宏毅机器学习—机器学习介绍修_远李宏毅机器学习
李宏毅机器学习笔记github链接：https://github.com/datawhalechina/leeml-notes李宏毅机器学习笔记在线阅读链接：https://datawhalechina.github.io/leeml-notes机器学习介绍这门课，我们预期可以学到什么呢？我想多数同学的心理预期就是你可以学到一个很潮的人工智慧。我们知道，从今年开始，人工智慧这个词突然变得非常非常非
【李宏毅机器学习笔记】9、卷积神经网络（Convolutional Neural Network，CNN） qqqeeevvv 机器学习深度学习机器学习深度学习
【李宏毅机器学习笔记】1、回归问题（Regression）【李宏毅机器学习笔记】2、error产生自哪里？【李宏毅机器学习笔记】3、gradientdescent【李宏毅机器学习笔记】4、Classification【李宏毅机器学习笔记】5、LogisticRegression【李宏毅机器学习笔记】6、简短介绍DeepLearning【李宏毅机器学习笔记】7、反向传播（Backpropagatio
李宏毅机器学习笔记第8周_自动调整学习速率 MoxiMoses 机器学习深度学习
文章目录一、Trainingstuck≠SmallGradient二、Waitaminute三、Trainingcanbedifficultevenwithoutcriticalpoints四、Differentparametersneedsdifferentlearningrate五、Rootmeansquare六、RMSProp七、Adam:RMSProp+Momentum八、Learning
【李宏毅机器学习笔记1】第一节机器学习基本概念简介（上） freezing001 深度学习深度学习机器学习
第一节机器学习基本概念简介（上）1.机器学习第一步：function机器学习MachineLearning≈LookingforFunctionML的三大任务：Regression(回归)+classification（分类）+strcturedlearning(createsomethingwithstructure)即让机器产生有结构的东西机器学习的model：带有未知parameters的f
李宏毅机器学习笔记-Lecture1 不废江河954 笔记深度学习学习机器学习学习人工智能
李宏毅机器学习笔记-Lecture1_续机器学习基本概念（下）PiecewiseLinearCurvesBeyondPiecewiseLinearCurvesSigmoidFunction各参数对Sigmoid的影响用Sigmoid拟合PiecewiseLinearCurvesNewModelwithMoreFeatures最终模型对各个参数的认识MLFramework构造模型构造损失函数找到最优
2021李宏毅机器学习笔记--7.1 backpropagation guoxinxin0605 机器学习神经网络人工智能深度学习
2021李宏毅机器学习笔记--7.1backpropagation1摘要2步骤2.1chainrule链式法则2.2lossfunction2.2.1forwardpass2.2.2backwardpasscase1未知的两项在输出层case2未知的两项并不在输出层3小结及展望1摘要上文讲到可以用Backpropagation的方法对网络中的所有参数（w和b）进行更新，最终使totalloss达到
2021李宏毅机器学习笔记--16 Recursive Network guoxinxin0605 网络神经网络
2021李宏毅机器学习笔记--16RecursiveNetwork递归网络摘要一、Application:SentimentAnalysis(应用：情绪分析)二、RecursiveNetwork三、RecursiveNetworkTensorNetwork四、Matrix-VectorRecursiveNetwork五、TreeLSTM六、MoreApplication(更多应用：句子关联)总结摘
2021李宏毅机器学习笔记--7 deep learning深度学习与 fully connect feedforward network全连接前馈网络 guoxinxin0605 神经网络机器学习深度学习人工智能网络
2021李宏毅机器学习笔记--7deeplearning深度学习与fullyconnectfeedforwardnetwork全连接前馈网络摘要步骤step1NeuralnetworkFullyConnectFeedforwardNetwork全连接前馈网络step2goodnessofafunctionstep3Backpropagation小结与展望摘要近些年来。在各个领域，用到深度学习的地方
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag