我是管小亮 :)

深度学习入门笔记（十二）：权重初始化

专栏——深度学习入门笔记

声明

1）该文章整理自网上的大牛和机器学习专家无私奉献的资料，具体引用的资料请看参考文献。
2）本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。
3）博主才疏学浅，文中如有不当之处，请各位指出，共同进步，谢谢。
4）此属于第一版本，若有错误，还需继续修正与增删。还望大家多多指点。大家都共享一点点，一起为祖国科研的推进添砖加瓦。

文章目录

专栏——深度学习入门笔记
声明
深度学习入门笔记（十二）：深入理解梯度

1、梯度消失/梯度爆炸
2、神经网络的权重初始化

1_对w随机初始化
2_Xavier初始化
3_He初始化

3、TensorFlow实现权重初始化

1_常量初始化
2_正态分布初始化
3_均匀分布初始化
4_截断正态分布初始化
5_正交矩阵初始化
6_Xavier初始化、He_初始化

4、总结

推荐阅读
参考文章

深度学习入门笔记（十二）：深入理解梯度

1、梯度消失/梯度爆炸

早些时间写过一个博客——深度学习100问之深入理解Vanishing/Exploding Gradient（梯度消失/爆炸），感兴趣的小伙伴可以看一下。

训练神经网络，尤其是深度神经网络所面临的一个问题就是 梯度消失或梯度爆炸，那么什么是 梯度消失或梯度爆炸？

其实就是训练神经网络时，导数或坡度 有时会变得非常大，或者非常小，甚至于以指数方式变小，这加大了训练的难度。下面通过一个例子来详细的讲解：

假设正在训练这样一个极深的神经网络，为了简化问题，假设神经网络每层只有两个隐藏单元，但是因为极深，所以还有很多参数，如 $W^{[1]}$ ， $W^{[2]}$ ， $W^{[3]}$ 等等，直到 $W^{[l]}$ 。为了简单起见，假设使用线性激活函数 $g (z) = z$ ，同时忽略偏置 $b$ ，即假设 $b^{[l]}$ =0，这样的话，输出：

$y=W^{[l]}W^{[L -1]}W^{[L - 2]}\ldots W^{[3]}W^{[2]}W^{[1]}x$

如果你是数学帕金森患者或者想考验我的数学水平，那么就简单说一下推导过程：

根据前向传播中的公式 $W^{[1]} x = z^{[1]}$ ，又因为 $b = 0$ ，所以 $z^{[1]} =W^{[1]} x$ ， $a^{[1]} = g(z^{[1]})$ ，而由于使用的事线性激活函数 $g (z) = z$ ，所以第一项 $W^{[1]} x = a^{[1]}$ ，通过推理。。。得出 $W^{[2]}W^{[1]}x =a^{[2]}$ ，因为 $a^{[2]} = g(z^{[2]})=g(W^{[2]}a^{[1]})$ ，第一项 $W^{[1]} x = a^{[1]}$ ，故可以用 $W^{[1]}x$ 替换 $a^{[1]}$ ，所以 $a^{[2]}=g(W^{[2]}W^{[1]}x)=W^{[2]}W^{[1]}x$ 。依次类推，可得 $a^{[l]}=W^{[l]}W^{[L -1]}W^{[L - 2]}\ldots W^{[3]}W^{[2]}W^{[1]}x$ 。

吴恩达老师手稿如下：

假设每个权重矩阵 $W^{[l]} = \begin{bmatrix} 1.5 & 0 \\0 & 1.5 \\\end{bmatrix}$ ，从技术上来讲，最后一项有不同维度，可能它就是余下的权重矩阵，比如这里就是（None，1），所以根据上面推导的公式，可以得到 $W^{[L]}\begin{bmatrix} 1.5 & 0 \\ 0 & 1.5 \\\end{bmatrix}^{(L -1)}x$ 。又因为 $\begin{bmatrix} 1.5 & 0 \\ 0 & 1.5 \\\end{bmatrix} = 1.5 * \begin{bmatrix} 1 & 0 \\ 0 & 1 \\\end{bmatrix}$ ，是1.5倍的单位矩阵（注意：网络的输出是 $\hat y$ 而不是 $y$ ），所以计算结果是 $\hat{y}={1.5}^{(L-1)}x$ 。

如果对于一个深度神经网络来说，它的 $L$ 值明显较大，那么 $\hat{y}$ 的值也会非常大。在数学上分析的话，实际上它就是一个指数函数，因此是呈指数级增长的。该函数的增长比率是 $1.5$ ，其实就是 $1.5^L$ ，相当于下图中 $a > 1$ 的情况，是爆炸式增长的趋势。因此对于一个深度神经网络，输出值将爆炸式增长。

相反的，如果权重是 $0.5$ ，即 $W^{[l]} = \begin{bmatrix} 0.5& 0 \\ 0 & 0.5 \\ \end{bmatrix}$ ，这项也就变成了 ${0.5}^{L}$ ，矩阵 $W^{[L]}\begin{bmatrix} 0.5 & 0 \\ 0 & 0.5 \\\end{bmatrix}^{(L - 1)}x$ ，再次忽略 $W^{[L]}$ ，因此每个矩阵都小于1，相当于上图中 $0 < a < 1 0 的情况。现在我们假设 x 1 x_{1} 和 x 2 x_{2} 都是1，经过激活函数的输出将变成（ 1 2 \frac{1}{2} ， 1 2 \frac{1}{2} ），（ 1 4 \frac{1}{4} ， 1 4 \frac{1}{4} ），（ 1 8 \frac{1}{8} ， 1 8 \frac{1}{8} ）等等，直到最后一项变成 1 2 L \frac{1}{2^{L}} ，也就是指数下降的情况，因为它是与网络层数数量 L L 相关的函数， L L 越大，经过激活函数的输出越小，甚至接近于0。因此对于一个深度神经网络，输出值将爆炸式减少。小结一下，直观理解上，分两种情况：$

权重 $W $ 只比1略大一点，可能是 $\begin{bmatrix}0.9 & 0 \\ 0 & 0.9 \\ \end{bmatrix}$ ，深度神经网络的激活函数将爆炸式增长；
权重 $W $ 只比1略小一点，可能是 $\begin{bmatrix}1.1 & 0 \\ 0 & 1.1 \\ \end{bmatrix}$ ，深度神经网络的激活函数将爆炸式减小。

在深度神经网络中，激活函数与 $L$ 呈指数级增长或呈指数递减，在这样一个深度神经网络中，如果梯度函数也与 $L$ 相关的指数增长或递减，它们的值将会变得极大或极小，从而导致训练难度上升，尤其是梯度指数小于 $L$ 时，梯度下降算法的步长会非常非常小，梯度下降算法将花费很长时间来学习。在很长一段时间内，它曾是训练深度神经网络的阻力，虽然有一个不能彻底解决此问题的解决方案，但是还是有一些方法可以提供帮助。

2、神经网络的权重初始化

针对深度神经网络产生梯度消失和梯度爆炸的问题，我们想出了一个不完整的解决方案，虽然不能彻底解决问题，却很有用，即为神经网络更谨慎地选择随机初始化参数。除此之外，初始化还对模型的收敛速度和性能有着至关重要的影响，因为说白了，神经网络其实就是对权重参数 w 的不停迭代更新，以期达到较好的性能。

那么神经元初始化的方式有哪些？

1_对w随机初始化

目前最常使用的就是随机初始化权重，比如常数初始化、正态分布初始化、均匀分布初始化、截断正态分布初始化、正交矩阵初始化等等。然而这是有弊端的，一旦随机分布选择不当，就会导致网络优化陷入困境，所以很多时候是调参去解决这个问题，避免陷入局部最优，会出现损失函数不收敛等情况。

首先创建了一个10层的神经网络，非线性变换为 tanh，每一层的参数都是随机正态分布。

W = tf.Variable(np.random.randn(node_in, node_out))

随着层数的增加，输出值迅速向0靠拢，在后几层中，几乎所有的输出值 x 都很接近0！根据反向传播算法的链式法则，梯度等于当前函数的梯度乘以后一层的梯度，这意味着输出值是计算梯度的一个乘法因子，输出值接近于0将直接导致梯度很小，使得参数难以被更新。如果把初始值调大一些：W = tf.Variable(np.random.randn(node_in, node_out))。

几乎所有的值集中在-1或1附近，神经元saturated了！注意到tanh在-1和1附近的梯度都接近0，这同样导致了梯度太小，参数难以被更新。

2_Xavier初始化

论文地址：Understanding the difficulty of training deep feedforward neural networks

Xavier 初始化可以解决上面的问题！其初始化方式也并不复杂，保持输入和输出的方差一致，这样就避免了所有输出值都趋向于0。

W = tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in)

不过在应用 RELU 激活函数时：

后面的趋势却是越来越接近0。。。

3_He初始化

论文地址：Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

He 初始化的思想是：在 ReLU 网络中，假定每一层有一半的神经元被激活，另一半为0，所以，要保持 variance 不变，只需要在 Xavier 的基础上再除以2。

W = tf.Variable(np.random.randn(node_in,node_out)) / np.sqrt(node_in/2)

看起来效果非常好，RELU 激活函数中效果不错。

3、TensorFlow实现权重初始化

1_常量初始化

x = tf.get_variable('x', shape, initializer=tf.constant_initializer(1))

2_正态分布初始化

x = tf.get_variable('x', shape,
    initializer=tf.random_normal_initializer(
        mean=0.0,
        stddev=1.0,
        seed=None,
        dtype=tf.float32))
y = tf.get_variable('y', shape,
    initializer=tf.truncated_normal_initializer(
        mean=0.0,
        stddev=1.0,
        seed=None,
        dtype=tf.float32))

3_均匀分布初始化

x = tf.get_variable('x', shape,
    initializer=tf.random_uniform_initializer(
        minval=0,
        maxval=10,
        seed=None,
        dtype=tf.float32))
# 或
x = tf.get_variable('x', shape,
    initializer=tf.uniform_unit_scaling_initializer(
        factor=1.0,
        seed=None,
        dtype=tf.float32))

4_截断正态分布初始化

x = tf.get_variable('x', shape,
    initializer=tf.truncated_normal_initializer(
        mean=0.0,
        stddev=1.0,
        seed=None,
        dtype=tf.float32))

5_正交矩阵初始化

x = tf.get_variable('x', shape,
    initializer=tf.orthogonal_initializer(
        gain=1.0,
        seed=None,
        dtype=tf.float32))

6_Xavier初始化、He_初始化

在上面给出了具体的代码，还有：

tf.glorot_uniform_initializer()
# 或
tf.glorot_normal_initializer()

4、总结

RELU 激活函数初始化推荐使用 He 初始化，tanh 初始化推荐使用 Xavier 初始化。

不过我个人目前用的比较多的是截断正态分布初始化，其他也都有在用，但是提升不是太明显，需要尝试才能确定针对不同问题时是不是能有效的提升，也可能是因为专业不是前端精密行业，还是需要斟酌。

推荐阅读

深度学习入门笔记（一）：深度学习引言
深度学习入门笔记（二）：神经网络基础
深度学习入门笔记（三）：求导和计算图
深度学习入门笔记（四）：向量化
深度学习入门笔记（五）：神经网络的编程基础
深度学习入门笔记（六）：浅层神经网络
深度学习入门笔记（七）：深层神经网络
深度学习入门笔记（八）：深层网络的原理
深度学习入门笔记（九）：深度学习数据处理
深度学习入门笔记（十）：正则化
深度学习入门笔记（十一）：深度学习数据读取
深度学习入门笔记（十二）：权重初始化

参考文章

吴恩达——《神经网络和深度学习》视频课程
https://zhuanlan.zhihu.com/p/25110150

你可能感兴趣的:(#,深度学习入门笔记)

深度学习入门笔记（九）自编码器 zhanghui_cuc 深度学习笔记深度学习笔记人工智能
自编码器是一个无监督的应用，它使用反向传播来更新参数，它最终的目标是让输出等于输入。数学上的表达为，f(x)=x，f为自编码器，x为输入数据。自编码器会先将输入数据压缩到一个较低维度的特征，然后利用这个较低维度的特征重现输入的数据，重现后的数据就是自编码器的输出。所以，从本质上来说，自编码器就是一个压缩算法。自编码器由3个部分组成：编码器（Encoder）：用于数据压缩。压缩特征向量（Compre
深度学习入门笔记（八）可以不断思考的模型：RNN与LSTM zhanghui_cuc 深度学习笔记深度学习 rnn 笔记
8.1循环神经网络RNN之前学到的CNN和全连接，模型的输入数据之间是没有关联的，比如图像分类，每次输入的图片与图片之间就没有任何关系，上一张图片的内容不会影响到下一张图片的结果。但在自然语言处理领域，这就成了一个短板。RNN因此出现，它是一类用于处理序列数据的神经网络。其基本单元结构如下自底向上的三个蓝色的节点分别是输入层、隐藏层和输出层。U和V分别是连接两个层的权重矩阵。如果不考虑右边的棕色环
深度学习入门笔记（五）前馈网络与反向传播 zhanghui_cuc 深度学习笔记深度学习笔记人工智能
接着上一节，本节讲解模型自我学习的数学计算过程究竟是怎么样的。5.1前馈网络一个最简单的前馈神经网络如图所示，对于每一个隐藏层，输入对应前一层每一个节点权重乘以节点输出值，输出则是经过激活函数（例如sigmoid函数）计算后的值。在这样的网络中，输入的数据x经过网络的各个节点之后，即可计算出最终的模型结果。这样就完成了一个最基本的前馈网络从输入到输出的计算过程。5.2反向传播在实际工作中这部分的内
深度学习入门笔记（1）——什么是深度学习？ ZRX_GIS 深度学习深度学习数据挖掘机器学习神经网络 pytorch
深度学习入门笔记（1）——什么是深度学习？在很多人眼里，深度学习（DeepLearning）是一个十分高大上的研究手段，它可以模拟人的判断，让数据处理和结果输出具有“人性”，在没接触过的人看来，深度学习简直是“玄学”范畴，网络一通，谁都不爱。但是，在所有人追捧深度学习的同时，对学习这一手段却是望而却步，更有甚者在网上买完“韭菜课”后，原理部分还没看完就不在继续学习。其实，说句实话，深度学习只是被过
深度学习入门笔记（6）—— Logistic Regression cnhwl 深度学习入门笔记深度学习机器学习逻辑回归人工智能 python
对比第三节中的Adaline和LogisticRegression，可以发现它们只有两点不同：1、激活函数，Adaline中的激活函数是恒等函数（线性），而LogisticRegression中的激活函数是Sigmoid函数（非线性）；2、损失函数，Adaline中的损失函数是均方误差，而LogisticRegression中的损失函数则是交叉熵。Sigmoid函数如图所示，其值域为0到1，输入为
深度学习入门笔记（三）常用AI术语 zhanghui_cuc 深度学习笔记人工智能深度学习笔记
本节我们介绍一些深度学习领域常用的术语。训练确定模型中的参数的过程，我们就称为“训练”。Epoch遍历一遍训练数据就叫作“一个Epoch”。训练模型的时候，我们要告诉模型预计训练多少个Epoch，但这个值并不是固定的，因为并没有一个准确的Epoch数能一定能得到一个比较好的模型。我们有一个标准：模型训练的Epoch数必须要让模型达到一个收敛的状态。并且为了模型有更多的选择，我们可以让模型收敛后，再
深度学习入门笔记4 深度神经网络深度学习从入门到放弃深度学习笔记神经网络深度学习人工智能机器学习算法
多层感知器在之前的课程中，我们了解到，感知器（指单层感知器）具有一定的局限——无法解决异或问题，即线性不可分的问题。将多个单层感知器进行组合，就可以得到一个多层感知器（MLP——Multi-LayerPerceptron）结构。多层感知器包含输入层，一个或多个隐藏层以及一个输出层。每层的神经元与下一层进行完全连接。如果网络中包含一个以上的隐层，则称其为深度人工神经网络。说明：通常我们说的神经网络的
深度学习入门笔记：第二章感知机维持好习惯深度学习深度学习笔记人工智能
深度学习入门笔记：第二章感知机笔记来源书籍：《深度学习入门：基于+Python+的理论与实现》文章目录深度学习入门笔记：第二章感知机前言为什么学习感知机2.1感知机是什么2.2简单逻辑电路2.2.1与门2.2.2与非门和或门2.3感知机实现2.3.1简单的实现2.3.2导入权重和偏置2.3.3使用权重和偏置的实现2.4感知机的局限性2.4.1异或门2.4.2线性和非线性2.5多层感知机2.5.1已
深度学习入门笔记（二）神经元激励函数神经网络花落雨微扬神经网络网络深度学习人工智能机器学习
声明：本文内容源自《白话深度学习与tensorflow》高扬卫峥编著一书读书笔记！！！神经网络：神经网络又称为人工神经网络（artificialneutralnetwork,ANN）。神经网络是一种人类由于受到生物神经细胞结构启发而研究出的一种算法体系神经元：如上图所示是一个最简单的神经元，有一个输入，一个输出。我们现在所使用的神经元通常有两个部分组成，一个是“线性模型”，另一个是“激励函数”。假
深度学习入门笔记（二）神经元的结构 zhanghui_cuc 深度学习笔记深度学习笔记人工智能
神经网络的基本单元是神经元，本节我们介绍神经元的结构。2.1神经元一个神经元是由下面5部分组成的：输入：x1,x2,…,xk。权重：w1,w2,…,wk。权重的个数与神经元输入的个数相同。偏移项：可省略。激活函数：一般都会有，根据实际问题也是可以省略的。输出。2.2激活函数激活函数有很多种，不同的激活函数适用于不同的问题。二分类问题我们一般采用Sigmoid函数，多分类问题我们采用Softmax函
深度学习入门笔记（七）卷积神经网络CNN zhanghui_cuc 深度学习笔记深度学习笔记 cnn
我们先来总结一下人类识别物体的方法：定位。这一步对于人眼来说是一个很自然的过程，因为当你去识别图标的时候，你就已经把你的目光放在了图标上。虽然这个行为不是很难，但是很重要。看线条。有没有文字，形状是方的圆的，还是长的短的等等。看细节。纹理、颜色、方向等。卷积神经网络就是对上述过程的程序实现。7.1卷积卷积在卷积神经网络中的主要作用是提取图片的特征，同时保留原来图片中各个像素的相对位置（空间）关系。
深度学习入门笔记（八）实战经验 zhanghui_cuc 深度学习笔记深度学习笔记性能优化
前面几节介绍了很多理论，难免会好奇：理论如何与实战结合呢？本节我们就穿插一点实战经验，来换换脑子~1.显卡warmup进行深度学习训练和推理时，往往第一次运行的耗时比较高，这是因为显卡需要warm-up，就是“热身”，才能发挥出显卡的性能。关于热身，个人理解，显卡开始工作时控制单元需要对资源进行调度，例如分配warp等。这些应该都是在第一次推理的时候进行。类似的，举个栗子，在F1比赛中，每场赛车的
深度学习入门笔记（六）线性回归模型 zhanghui_cuc 深度学习笔记深度学习笔记线性回归
本节，我们用线性回归为例子，回顾一些基本概念6.1相关性相关性的取值范围是-1到1，越接近1或者-1代表越相关，越接近0则越不相关。相关系数大于0称为正相关，小于0称为负相关。假如A与B正相关，则是说A（B）会随着B（A）的增大而增大，减小而减小。假如A与B负相关，则是说A（B）会随着B（A）的增大而减小，减小而增大。皮尔逊系数就是常用的相关性方法。6.2什么是线性回归顾名思义，就是用一种线性关系
深度学习入门笔记（四）函数与优化方法 zhanghui_cuc 深度学习笔记深度学习笔记人工智能
深度学习有三大部分模型表征（包括模型设计、网络表示等）模型评估（上一篇文章提到的准确召回和损失函数等）优化算法（模型如何学习或更新）本节我们就来介绍模型是如何学习或更新的。4.1损失函数模型的学习，实际上就是对参数的学习。参数学习的过程需要一系列的约束，这个约束就是损失函数。以函数曲线拟合为例，对于每一个样本点，真实值和拟合值之间就存在了一个误差，我们可以通过一个公式来表示这个误差：L(x)=(F
深度学习入门笔记（7）—— Multinomial Logistic Regression / Softmax Regression cnhwl 深度学习入门笔记深度学习机器学习人工智能 pytorch 算法
首先介绍一个非常著名的多分类数据集MNIST，也就是0到9的手写数字数据集。每个图像都是28*28，用于Pytorch数据读取的格式是NCHW，即Number、Channel、Height、Weight。读取图像之后，就能看到一个只有单通道的（灰度）图像，实际上就是一行行像素值的组合，用于SoftmaxRegression时输入得是一个向量，所以要将一行行的像素进行拼接，成为一个长的向量。同时，将
计算机视觉深度学习入门笔记-从理论到实战案例 HopES0 计算机视觉深度学习笔记
计算机视觉深度学习入门笔记-从理论到实战案例第一章深度学习概论1.1神经网络基础1.1.1为什么是神经网络？1.1.2为什么神经网络有效？1.1.3神经网络的运行1.2卷积神经网络1.2.1图像——矩阵1.2.2为什么是卷积？1.2.3卷积神经网络的传播1.3VGG模型——传统串行网路的大成之作1.3.1网络结构1.3.2运行过程1.3.3模型的优化第二章神经网络的训练2.1pytorch与面向对
深度学习入门笔记：第一章python入门维持好习惯深度学习 python 深度学习笔记
深度学习入门笔记：第一章python入门笔记来源书籍：《深度学习入门：基于+Python+的理论与实现》文章目录深度学习入门笔记：第一章python入门前言第一章python入门1.1深度学习为什么使用python？1.2python环境1.3python解释器1.3.1算术计算和数据类型1.3.2变量定义1.3.3列表1.3.4字典1.3.5布尔型1.3.6if语句1.3.7for语句1.3.8
TensorFlow深度学习入门笔记（四）一些基本函数长青_changqingqingge01 深度学习深度学习入门 TensorFlow
写在前面学习建议：以下学习过程中有不理解可以简单查找下资料，但不必纠结（比如非得深究某一个函数等），尽量快速的学一遍，不求甚解无妨。多实操代码，不能只复制代码，或者感觉懂了就只看。熟能生巧，我亦无他，唯手熟尔今天介绍一些基础函数及其用法，基本全是代码，一些解释都放在代码的注释里了。直接看代码吧，记得在你本地跑一下看哦代码1#tensor.get_shape()获取tensor的shape，就是维度
深度学习入门笔记（二）梯度下降法 _CyberAngel 深度学习笔记费曼笔记本逻辑回归算法机器学习
如愚见指月，观指不观月。目录上节回顾——logistic回归模型和成本函数梯度下降梯度下降法的执行过程计算图logistic模型中的梯度下降算法上节回顾——logistic回归模型和成本函数是在条件下，的概率。。如果想要让我们的模型更加精确的话，就要让尽可能的接近。所以，我们定义了损失函数和成本函数，用于评估与的接近程度，以及模型的准确率。损失函数是对单个样本来说的。成本函数是对整个数据集来说的。
PyTorch深度学习入门笔记（一）PyTorch环境配置及安装雪天鱼
@[Toc]OS：ubuntu20.04（虚拟机）一、工具安装1.1Anaconda安装首先安装Anaconda,我是去清华大学镜像站下载，版本为Anaconda3-5.2.0-Linux-x86_64.sh参考这篇CSDN博客安装好。安装成功测试：在这里插入图片描述首先创建一个虚拟环境：condacreate-npytorchpython=3.6在这里插入图片描述输入sourceactivate
深度学习入门笔记1--梯度下降之--为什么是负方向--为什么局部下降最快的是负梯度方向闪闪发亮的小星星深度学习入门机器学习人工智能 python
本节目标理解梯度下降的原理，主要围绕以下几个问题展开：梯度下降法的用途？什么是梯度？为什么是负的梯度为什么局部下降最快的方向就是梯度的负方向。需要的知识储备：一级泰勒展开公式向量内积计算公式1.梯度下降算法无论是在线性回归（LinearRegression）、逻辑回归（LogisticRegression）还是神经网络（NeuralNetwork）等等，都会用到梯度下降算法。梯度下降算法主要用于辅
深度学习入门笔记2-从零开始实现线性回归闪闪发亮的小星星深度学习入门深度学习笔记线性回归
该节内容主要摘自李沐大神的动手学AI。sec_linear_scratch在了解线性回归的关键思想之后，我们可以开始通过代码来动手实现线性回归了。在这一节中，(我们将从零开始实现整个方法，包括数据流水线、模型、损失函数和小批量随机梯度下降优化器)。虽然现代的深度学习框架几乎可以自动化地进行所有这些工作，但从零开始实现可以确保我们真正知道自己在做什么。同时，了解更细致的工作原理将方便我们自定义模型、
TensorFlow深度学习入门笔记（三）基本概念与代码2 长青大哥
写在前面学习建议：以下学习过程中有不理解可以简单查找下资料，但不必纠结（比如非得深究某一个函数等），尽量快速的学一遍，不求甚解无妨。多实操代码，不能只复制代码，或者感觉懂了就只看。熟能生巧，我亦无他，唯手熟尔今天突然有个想法，准备把部分英文也贴上。因后期是不可避免的要接触英文(论文之类)，现在就少量穿插在文章中，大家试着读下看。常量Constants与变量Variable前面已经使用过consta
PyTorch深度学习入门笔记（四）TensorBoard的使用雪天鱼深度学习 pytorch 深度学习 python
课程学习笔记，课程链接学习笔记同步发布在我的个人网站上，欢迎来访查看。文章目录一、TensorBoard1.1SummaryWriter1.2add_image()首先安装TensorBoard:pipinstalltensorboard一、TensorBoard1.1SummaryWriterfromtorch.utils.tensorboardimportSummaryWriter从函数介绍可
TensorFlow深度学习入门笔记（四）一些基本函数长青大哥
写在前面学习建议：以下学习过程中有不理解可以简单查找下资料，但不必纠结（比如非得深究某一个函数等），尽量快速的学一遍，不求甚解无妨。多实操代码，不能只复制代码，或者感觉懂了就只看。熟能生巧，我亦无他，唯手熟尔今天介绍一些基础函数及其用法，基本全是代码，一些解释都放在代码的注释里了。直接看代码吧，记得在你本地跑一下看哦代码1#tensor.get_shape()获取tensor的shape，就是维度
深度学习入门笔记 life情怀神经网络机器学习
前言博客内容均是对《深度学习入门—基于Python的理论与实现》一书2-6章的总结。以前也或多或少接触过一些相关知识，但都不成体系，故于此总结,大佬轻喷。文章目录前言感知机神经网络激活函数损失函数神经网络学习中的技巧参数更新方法权重的初始化抑制过拟合的方法超参数的选择感知机信号特征：感知机有多输入，而仅一输出。以两输入一输出为例，其数学模型如下：y={0(ω1x1+ω2x2)+b⩽01(ω1x1+
PyTorch深度学习入门笔记（十一）神经网络池化层雪天鱼深度学习 pytorch 深度学习神经网络
我是雪天鱼，一名FPGA爱好者，研究方向是FPGA架构探索和数字IC设计。关注公众号【集成电路设计教程】，获取更多学习资料，并拉你进“IC设计交流群”。QQIC设计&FPGA&DL交流群群号：866169462。课程学习笔记，课程链接文章目录一、MaxPool2d简介二、代码演示一、MaxPool2d简介这一节讲解池化层。还是通过Pytorch官方文档来进行学习：打开torch.nn的poolin
PyTorch深度学习入门笔记（九）卷积操作雪天鱼深度学习 pytorch 深度学习 python
课程学习笔记，课程链接学习笔记同步发布在我的个人网站上，欢迎来访查看。Pytorch的nn模块有ConvolutionLayers,有3种卷积操作，nn.Conv1d、nn.Conv2d、nn.Conv3d分别对应一维二维以及三维：注：在Pytorch官网文档左侧，有torch.nn和torch.nn.fuctional，torch.nn是对torch.nn.fuctional进行了一个封装，方便
深度学习入门笔记系列 ( 四 ) weixin_34015336 人工智能 python 数据结构与算法
基于tensorflow的回归代码实现本系列将分为8篇。今天是第四篇。总是理论有些枯燥，今天来动手基于TF框架实现两个简单的案例，以小搏大熟悉一下整个过程。整体来说，训练神经网络分为3个步骤：定义神经网络的结构和前向传播的输出结果定义损失函数以及选择反向传播优化的算法生成会话（tf.Session)并在训练数据上反复运行反向传播优化算法现以直线拟合和回归拟合两个简单案例来熟悉以上3个步骤。1.直线
PyTorch深度学习入门笔记（六）torchvision 中的数据集使用雪天鱼深度学习 pytorch 深度学习 python
课程学习笔记，课程链接学习笔记同步发布在我的个人网站上，欢迎来访查看。文章目录一、torchvision二、CIFAR数据集2.1下载数据集2.2数据集的使用2.3transforms的使用2.3其他数据集的使用目的：如何把数据集和Transforms结合在一起介绍科研中使用的一些标准数据集和下载、查看、使用方法一、torchvisionpytorch官网：https://pytorch.org/
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他