JaneLeeee

学习笔记——卷积神经网络CNN的理解

参考：
https://blog.csdn.net/weixin_42451919/article/details/81381294
https://blog.csdn.net/yjl9122/article/details/70198357?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
https://www.jianshu.com/p/1ea2949c0056

感知机 Perceptron

（结合《机器学习》5.1-5.2节）

感知机由两层神经元组成，分别为输入层与输出层（M-P神经元），是二元线性分类器。神经网络是以感知机为单元的集合。

如上图所示，输入 x1 和 x2 分别和各自的权重 w1 和 w2 相乘、求和，所以函数 f=x1w1+x2w2+b（偏置项，可以选择性地添加）。函数 f 可以是任意的运算，但是对于感知机而言通常是求和。函数 f 随后会通过一个激活函数来评估，该激活函数能够实现期望分类。Sigmoid 函数是用于二元分类的最常见的激活函数。（输出层/M-P神经元 = 函数 f + 激活函数）

神经网络

把多个输入堆叠在一起，并且使用函数 f 将其与位于另一层的多个堆叠在一起的单元连接在一起，这就形成了多个全连接的感知机；隐藏层单元的输出成为最后一个单元的输入，再通过函数 f 和激活函数得到最终的分类。

神经网络的分类：

前馈神经网络（Feedforward Neural Network，FNN）：最简单的神经网络，单向多层结构。每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层，各层间没有反馈，即信息流是单向、无环的。包括感知器网络、BP网络、RBF网络、卷积神经网络等。
反馈神经网络：是一种反馈动力学系统。在这种网络中，每个神经元同时将自身的输出信号作为输入信号反馈给其他神经元，它需要工作一段时间才能达到稳定。

如下图所示，这个就是最简单的神经网络/前馈神经网络。当数百个输入连接到数个这样的隐藏层，则会形成一个复杂的神经网络，通常被称为深度神经网络或者深度前馈神经网络。

神经网络被称作泛逼近函数（Universal Approximation function），其拓扑和结构变体是很多样化的，因此神经网络可以模拟任何函数。

四种基本的神经网络架构：

卷积神经网络 CNN：卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，且具有深度结构。
循环/递归神经网络 RNN
深度信念网络 DBN
生成对抗网络 GAN

卷积神经网络 CNN

卷积神经网络（Convolutional Neural Network，CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元。由INPUT（输入层）-CONV（卷积层）-RELU（激活函数）-POOL（池化层）-FC（全连接层）组成，最后进行分类或回归。

卷积神经网络的层级结构

数据输入层/ Input layer
卷积计算层/ CONV layer
ReLU激励层 / ReLU layer
池化层 / Pooling layer
全连接层 / FC layer

卷积神经网络与全连接神经网络的对比

左图：全连接神经网络（平面），组成：输入层、激活函数、全连接层
右图：卷积神经网络（立体），组成：输入层、卷积层、激活函数、池化层、全连接层
在卷积神经网络中有一个重要的概念：深度

1.数据输入层（input layer, INPUT）

该层主要是对原始图像数据进行预处理，其中包括：

去均值：把输入数据各个维度都中心化为0，如下图所示，其目的就是把样本的中心拉回到坐标系原点上。
归一化：幅度归一化到同样的范围，如下所示，即减少各维度数据取值范围的差异而带来的干扰。比如，我们有两个维度的特征A和B，A范围是0到10，而B范围是0到10000，如果直接使用这两个特征是有问题的，好的做法就是归一化，即A和B的数据都变为0到1的范围。
PCA/白化：用PCA降维；白化是对数据各个特征轴上的幅度归一化。

去均值与归一化效果图：

去相关与白化效果图：

2.卷积层（convolutional layer, CONV）

由若干卷积核/滤波器组成，其目的是在原始的输入上进行特征提取，即在原始输入上一个小区域一个小区域进行特征的提取。

名词解释

滤波器（filter）：用于提取图像特征，它使用优化算法来决定矩阵中的权重参数。可在神经网络的一层卷积操作中使用多个滤波器来提取多个特征（一个滤波器提取一个特征/得到一个特征图）。此外，滤波器的深度必须和输入图像的深度相同。
输入图像大小（Input Size）：要求为整数。
滤波器的大小（Kernel Size）：要求为整数或者列表等。
步长（Stride）：滤波器窗口滑动的大小。
填充（Zero-padding）：零填充指在输入图像的边界周围补充零，以使尽可能多地保留原始输入内容的信息，或直接使输入图像和卷积后的特征图具有相同的维度。一般F=3 => zero pad with 1、F=5 => zero pad with 2、F=7=> zero pad with 3
输出图像大小（Output Size）：Output_size = 1 + ( Input_size + 2 * Padding - Kernel_size ) / Stride
感受野/窗口（Receptive Field）：卷积神经网络每一层输出的特征图上每个像素点在原始图像上映射的区域大小。其值越大表示其能接触到的原始图像范围就越大，也意味着它可能蕴含更为全局，语义层次更高的特征；相反，值越小则表示其所包含的特征越趋向局部和细节。因此感受野的值可以用来大致判断每一层的抽象层次。

单色图像的卷积

假设一张单色图像有 5x5 个像素，1 代表白，0 代表黑。用一个由随机地 0 和 1 组成的 3x3 矩阵（即滤波器）去和图像中的子区域做乘法，每次迭代移动一个像素，这样该乘法会得到一个新的 3x3 的矩阵。下面的动图展示了这个过程。

RGB图像的卷积

RGB图像是三通道，即其深度为3（即R、G、B），由于滤波器的深度必须和输入图像的深度相同，因此滤波器的深度也为3。

下图展示了使用两个三通道滤波器从三通道（RGB）图像中生成两个卷积输出的详细过程，输出是提取到的特征。

左区域三个大矩阵是原图像的输入，RGB三个通道用三个矩阵表示，大小为7x7x3。
Filter W0表示1个filter，尺寸为3x3，深度为3（三个矩阵）；Filter W1也表示1个filter。因为卷积中用了2个filter，因此该卷积层结果的输出深度为2（绿色矩阵有2个）。
Bias b0是Filter W0的偏置项，Bias b1是Filter W1的偏置项。
OutPut是卷积后的输出，尺寸为3x3，深度为2。

计算过程：

在输入矩阵上有一个和filter相同尺寸的滑窗，然后将输入矩阵在滑窗里的部分与filter矩阵对应位置相乘，相乘后求和，得到一个整数结果，3个通道即有3个整数结果；
将3个矩阵产生的结果求和，并加上偏置项bias，从而得到了输出矩阵中的一个整数结果；
滑动窗口2个步长，重复之前步骤进行计算；
最终可以得到，在2个filter下，卷积后生成的深度为2的输出结果。

下图是用了两个filter得到了两个特征图，输入图像是32x32x3，卷积层是一个5x5x3的Filter。通过一个Filter与输入图像的卷积可以得到一个28x28x1的特征图。

下图使用了6个Filter分别卷积进行特征提取，最终得到6个特征图。将这6层叠在一起就得到了卷积层输出的结果（深度为6）。

卷积不仅限于对原始输入的卷积。蓝色方块是在原始输入上进行卷积操作，使用了6个filter得到了6个提取特征图。绿色方块还能对蓝色方块进行卷积操作，使用了10个filter得到了10个特征图。每一个filter的深度必须与上一层输入的深度相等。

如下图，第一次卷积可以提取出低层次的特征，第二次卷积可以提取出中层次的特征，第三次卷积可以提取出高层次的特征。特征是不断进行提取和压缩的，最终能得到比较高层次特征，简言之就是对原式特征一步又一步的浓缩，最终得到的特征更可靠。利用最后一层特征可以做各种任务：比如分类、回归等。

卷积层的输出尺寸

$\frac{ ( 输出宽度/高度 + 2 \times 填充 - 滤波器宽度/高度 ) }{移动步长}$
如下图：

权值共享机制

当用一个filter去扫一张输入图像，filter里面的数叫权重，这张图每个位置是被同样的filter扫的，所以权重是一样的，也就是共享。

同上图，特征图由10个32x32x1的特征图组成，即每个特征图上有32x32x1=1024个神经元，每个神经元对应输入图像上一块5x5x3的区域，即一个神经元和输入图像的这块区域有5x5x3=75个连接，即75+1=76个权值参数（+1是偏置项bias），则共有76x1024x10=778240个权值参数，这是非常复杂的。
引入权值共享机制后，即一个特征图上每个神经元对应的76个权值参数被每个神经元共享，这样则只需76x10=760个权值参数，而每个特征图内的阈值也共享，即需要10个阈值，则总共需要760+10=770个参数。

3.非线性层（激活函数）

在每个卷积层之后，通常会立即应用一个非线性层（激活函数），其目的是给一个在卷积层中刚经过线性计算操作（只是数组元素依次相乘与求和）的系统引入非线性特征。

激活函数应该具有的性质： 目前常用的激活函数都只拥有下述性质的部分

非线性。线性激活层对于深层神经网络没有作用，因为其作用以后仍然是输入的各种线性变换。
连续可微。梯度下降法的要求。
范围最好不饱和，当有饱和的区间段时，若系统优化进入到该段，梯度近似为0，网络的学习就会停止。
单调性，当激活函数是单调时，单层神经网络的误差函数是凸的，好优化。
在原点处近似线性，这样当权值初始化为接近0的随机值时，网络可以学习的较快，不用可以调节网络的初始值。

常见的激活函数：

Sigmoid函数（目前已被淘汰）
$\frac 1{1+e^{-x}}$
缺点：
① 饱和时梯度值非常小。
由于BP算法反向传播的时候后层的梯度是以乘性方式传递到前层，因此当层数比较多的时候，传到前层的梯度就会非常小，网络权值得不到有效的更新，导致网络较底层的训练速度非常慢，即梯度耗散/梯度消失。如果该层的权值初始化使得f(x) 处于饱和状态时，网络基本上权值无法更新。
② 输出值不是以0为中心值。
Tanh函数
$T a h n (x) = 2 σ (2 x) - 1$
其中σ(x)为sigmoid函数，仍然具有饱和的问题。
ReLU函数
Alex在2012年提出的一种新的激活函数，很大程度的解决了BP算法在优化深层神经网络时的梯度耗散问题。最常用，也称为线性整流函数/修正线性单元，注意学习率的设置以及死亡节点所占的比例即可。
$R e L U (x) = m a x (0, x)$
ReLU函数把所有的负激活（negative activation）都变为零，其图像如下：优点：
① x>0时，求梯度简单，梯度恒为1，无梯度耗散/梯度消失问题，收敛快。
② 增大了网络的稀疏性。当x<0时，该层的输出为0，训练完成后为0的神经元越多，稀疏性越大，提取出来的特征就越具有代表性，泛化能力越强。即得到同样的效果，真正起作用的神经元越少，网络的泛化性能越好。
③ 运算量很小，在准确度不发生明显改变的情况下能令训练速度提高很多，计算效率增加。
缺点：
① 较脆弱，如果后层的某一个梯度特别大，导致W更新以后变得特别大，导致该层的输入<0，输出为0，这时该层就会‘die’，没有更新。当学习率比较大时可能会有40%的神经元都会在训练开始就‘die’，因此需要对学习率进行一个好的设置。
② 由优缺点可知max(0,x) 函数为一个双刃剑，既可以形成网络的稀疏性，也可能造成有很多永远处于‘die’的神经元，需要trade-off。
Leaky ReLU/PReLU函数
对于Leaky ReLU，a是固定的，是模型训练前提前设定的；对于PReLU，a是未知的，是模型训练中得到的。总结为Leaky ReLU中a是超参数，PReLU中a是参数。
$Leaky\ ReLU/PReLU(x) = \begin{cases} x,\ \ \ \ x\geq0 \\ ax,\ \ x<0 \end{cases}$
a 处于（0,1）区间内。Leaky ReLU/PReLU函数改善了ReLU的死亡特性，但是也同时损失了一部分稀疏性，且增加了一个超参数/参数，目前来说其好处不太明确。
Maxout函数
$max(w^T_1x+b_1, w^T_2x+b_2,...,w^T_kx+b_k)$
泛化了ReLU和Leaky ReLU，改善了死亡特性，但是同样损失了部分稀疏性，每个非线性函数增加了两倍的参数。

激励层的实践经验

不要用sigmoid！
首先试ReLU，因为快，但要小心点
如果ReLU失效，请用Leaky ReLU或者Maxout
某些情况下Tanh有不错的结果，但是很少

4.池化层（pooling layer, POOL）

池化也称为下采样，池化层对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征，减小特征空间维度/降维，提供空间方差，但不会减小深度。

池化层的具体作用

特征不变性，也就是我们在图像处理中经常提到的特征的尺度不变性，池化操作就是图像的resize，平时一张狗的图像被缩小了一倍我们还能认出这是一张狗的照片，这说明这张图像中仍保留着狗最重要的特征，我们一看就能判断图像中画的是一只狗，图像压缩时去掉的信息只是一些无关紧要的信息，而留下的信息则是具有尺度不变性的特征，是最能表达图像的特征。
特征降维，我们知道一幅图像含有的信息是很大的，特征也很多，但是有些信息对于我们做图像任务时没有太多用途或者有重复，我们可以把这类冗余信息去除，对不同位置的特征进行聚合统计，把最重要的特征抽取出来，这也是池化操作的一大作用。
在一定程度上防止过拟合，更方便优化。

两种池化操作：

平均池化（average pooling）
最大池化（max pooling）

其中，最大池化是两者中使用最多的一个操作，其效果一般要优于平均池化。当使用最大池化层时，采用输入区域的最大数量，而当使用平均池化时，采用输入区域的平均值。示例如下：

5.全连接层（fully connected layer, FC）

全连接层通常在卷积神经网络尾部，它将最后一个卷积层的输出展平，即把其拉成一个列项向量。全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息，将输出值送给分类器（如softmax分类器）。

全连接层的参数

全连接层参数特多，可占整个网络参数80%左右。

全接解层的总层数（长度）
单个全连接层的神经元数（宽度）
激活函数（一般用ReLu函数）

例子1：

经过卷积、ReLU后得到3x3x5的输出，全连接层如何把3x3x5的ReLU输出转换成1x4096的形式？

如上图，全连接层中的每一层是由许多神经元组成的（1x4096）的平铺结构。
如下图，分别用4096个3x3x5的filter（与ReLU输出相同尺寸）去卷积ReLU输出（相加求和得到1个值），每个filter卷积得到的结果就是全连接层的1个神经元的输出，这个输出就是1个值，最后得到4096个值。
例子2：

如下图，最后的两列小圆球就是两个全连接层，在最后一层卷积结束后，进行了最后一次池化，输出了20x12x12的特征图，然后通过了一个全连接层变成了100x1的向量。全连接层中有100个20x12x12的卷积核，对于输入的每一张特征图，用了一个和特征图一样大小的核卷积，如果厚度是20就是用20个核卷积完了之后相加求和，这样整幅图就变成了一个数了。

全连接层的目的

全连接层实现分类，并大大减少特征位置对分类带来的影响。

从上图可以看出，猫在不同的位置，输出的特征值相同，但是位置不同。对于电脑来说，特征值相同，但是特征值位置不同，那分类结果也可能不一样。这时全连接层filter的作用就相当于“喵在哪我不管，我只要喵”，即把特征图整合成一个值，若这个值大，则有喵，若这个值小，则可能没喵，结果和这个喵在哪关系不大了，鲁棒性有大大增强。
但因为空间结构特性被忽略了，所以全连接层不适合用于在方位上找Pattern的任务，比如segmentation。

多层全连接层

全连接层中一层的一个神经元就可以看成一个多项式，可用许多神经元去拟合数据分布，但是只用一层全连接层有时候没法解决非线性问题，而如果有两层或以上全连接层就可以很好地解决非线性问题了。

注意：
全连接层的权重矩阵是固定的，即每一次特征图的输入过来必须都得是一定的大小（即与权重矩阵正好可以相乘的大小），所以网络最开始的输入图像尺寸必须固定，才能保证传送到全连接层的特征图的大小跟全连接层的权重矩阵匹配。

一般CNN结构

1.INPUT
2.[[CONV -> RELU]*N -> POOL]*M
3.[FC -> RELU]*K
4.FC

卷积神经网络之训练算法

同一般机器学习算法，先定义Loss function，衡量和实际结果之间差距。
找到最小化损失函数的W和b， CNN中用的算法是SGD（随机梯度下降）。

卷积神经网络之优缺点

优点

共享卷积核，对高维数据处理无压力
无需手动选取特征，训练好权重，即得特征分类效果好

缺点

需要调参，需要大样本量，训练最好要GPU
物理含义不明确（也就说，我们并不知道没个卷积层到底提取到的是什么特征，而且神经网络本身就是一种难以解释的“黑箱模型”）

卷积神经网络之典型CNN

LeNet，这是最早用于数字识别的CNN
AlexNet， 2012 ILSVRC比赛远超第2名的CNN，比LeNet更深，用多层小卷积层叠加替换单大卷积层。
ZF Net， 2013 ILSVRC比赛冠军
GoogLeNet， 2014 ILSVRC比赛冠军
VGGNet， 2014 ILSVRC比赛中的模型，图像识别略差于GoogLeNet，但是在很多图像转化学习问题(比如object detection)上效果奇好

卷积神经网络之 fine-tuning/微调

fine-tuning：由于数据集不够大，很少有人从头开始训练网络，因此使用已用于其他目标、预训练好模型的权重或者部分权重，作为初始值开始训练。

为什么不用随机选取选几个数作为权重初始值

从头训练卷积神经网络容易出现问题。
fine-tuning能很快收敛到一个较理想的状态，省时又省心。

fine-tuning的具体做法

复用相同层的权重，新定义层取随机权重初始值
调大新定义层的的学习率，调小复用层学习率

卷积神经网络的常用框架

Caffe

源于Berkeley的主流CV工具包，支持C++、python、matlab
Model Zoo中有大量预训练好的模型供使用

PyTorch

Facebook用的卷积神经网络工具包
通过时域卷积的本地接口，使用非常直观
定义新网络层简单

TensorFlow

Google的深度学习框架
TensorBoard可视化很方便
数据和模型并行化好，速度快

总结

卷积神经网络CNN在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，只要用已知的模式对卷积网络加以训练，网络就具有输入输出对之间的映射能力。
CNN一个非常重要的特点就是头重脚轻（越往输入权值越小，越往输出权值越多），呈现出一个倒三角的形态，这就很好地避免了BP神经网络中反向传播的时候梯度损失得太快。
卷积神经网络CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
【机器学习 & 深度学习】开发工具Anaconda的安装与使用为梦而生~ 机器学习python实战机器学习深度学习 python conda pycharm 人工智能
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习：相对完整的机器学习基础教学！机器学习python实战：用python带你感受真实的机器学习深度学习：现代人工智能的主流技术介绍往期推荐：【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络学习笔记【Python基础&机器学习】Python环境搭建（适合新手阅读的超详细教程）文章目录前言安装Anaconda关于Anaconda的介
吴恩达卷积神经网络学习笔记（六）|CSDN创作打卡墨倾许深度学习神经网络计算机视觉
3.2特征点检测神经网络可以通过输出图片上特征点的（x，y）坐标，来实现对目标特征的识别。我们来看几个例子，假设你正在构建一个人脸识别应用，出于某种原因，你希望算法可以给出眼角的具体位置，眼角坐标为（x，y），你可以让神经网络的最后一层，多出两个数字lx和ly，作为眼角的坐标值.如果你想知道两只眼睛的4个眼角的具体位置，那么从左到右依次用4个特征点来表示这4个眼角，对神经网络稍微做些修改，输出第1
吴恩达卷积神经网络学习笔记（二）墨倾许 cnn 深度学习机器学习
一.卷积神经网络（一）1.6三维卷积3指的是颜色通道（RGB）6*6*3分别对应宽*高*通道的数目滤波器也有相对应的3*3*3，由此得到一个4*4的输出。对三维图像进行卷积时，卷积核的通道数要与三维图像的通道数相等。当我们想对图像的多个边缘特征进行检测时，我们可以使用多个卷积核，这样卷积后生成图像的通道数为使用的卷积核的个数。对于三维卷积具体运算的实例如下：如果使用的是下图3*3*3的卷积核，则一
[2020-01-13]神经网络学习笔记-梯度验证&参数初始化 wheatfox
看了斯坦福的机器学习视频，讲到神经网络的梯度验证以及参数初始化的部分，记录一下。1.梯度验证有时候训练时，梯度也确实是在下降，但是可能并不是沿着一个比较好的方向，结果导致最后的停止点不是停在相对最优的地方。这时候可以采用梯度验证，即利用某点处的近似理论梯度值来和实际梯度值对比。处的近似理论梯度值：2.参数初始化如果参数初始化为0或者1等常数的话，那么每一层的每个神经元的输出值都会相同（不管迭代多少
Python深度学习入门 - - 卷积神经网络学习笔记 szu_ljm 深度学习 python cnn
文章目录一、卷积神经网络简介二、卷积神经网络的数学原理1、卷积层2、池化层3、感受野三、Python实战卷积神经网络1、LetNet-5网络2、Resnet残差网络3、VGGNet迁移学习总结一、卷积神经网络简介卷积神经网络（ConvolutionalNeuralNetworks，简称CNN）是一种具有局部连接、权值共享等特点的深层前馈神经网络（FeedforwardNeuralNetworks）
Python深度学习入门 - - 人工神经网络学习笔记 szu_ljm python 深度学习学习
文章目录前言一、神经网络原理1、输入层2、全连接层3、激活函数4、损失函数5、前向传播6、反向传播二、Python实战神经网络1.权重初始化技巧2.梯度问题技巧3.模型泛化技巧总结前言如果说机器学习是人工智能的皇冠，深度学习就是这顶皇冠上的明珠，深度学习的出现为人工智能领域的发展拉开了新的序幕。与常见的机器学习模型不同的是，深度学习的数据量更大，特征参数更多，但更重要的是深度学习不需要人为准备特征
深度学习神经网络学习笔记-多模态方向-12-DBpedia: A Nucleus for a Web of Open Data 丰。。多模态神经网络论文研读神经网络神经网络学习笔记多模态人工智能
摘要DBpedia是一个社区努力从维基百科中提取结构化信息，并使这些信息在网络上可用。DBpedia允许您对来自维基百科的数据集提出复杂的查询，并将网络上的其他数据集链接到维基百科数据。我们描述了DBpedia数据集的提取，以及产生的信息如何在网络上发布，供人类和机器消费。我们描述了来自DBpedia社区的一些新兴应用，并展示了网站作者如何在他们的网站内促进DBpedia内容的发展。最后，我们介绍
深度学习神经网络学习笔记-多模态方向-11-Deep Voice: Real-time Neural Text-to-Speech 丰。。多模态神经网络论文研读神经网络深度学习神经网络学习多模态
摘要本文提出DeepVoice，一种完全由深度神经网络构建的生产质量文本到语音系统。DeepVoice为真正的端到端神经语音合成奠定了基础。该系统由五个主要的构建模块组成:用于定位音素边界的分割模型、字素到音素的转换模型、音素时长预测模型、基频预测模型和音频合成模型。对于分割模型，我们提出了一种使用连接时序分类(CTC)损失的深度神经网络执行音素边界检测的新方法。对于音频合成模型，我们实现了Wav
深度学习神经网络学习笔记-自然语言处理方向-论文研读-情感分析/文本分类-textcnn 丰。。深度学习神经网络-NLP方向神经网络论文研读神经网络自然语言处理深度学习人工智能神经网络语言模型
本文目录概念引入摘要大意TextCNN模型的结构正则化手段该模型的超参数研究成果概念引入逻辑回归线性回归时间序列分析神经网络self-attention与softmax的推导word2evcglove摘要大意在使用简单的CNN模型在预训练词向量的基础上进行微调就可以在文本分类任务上就能得到很好的结果。通过对词向量进行微调而获得的任务指向的词向量就能得到更好的结果。同时也提出了一种即使用静态预训练词
CNN卷积神经网络学习笔记（特征提取） sinounuo cnn 学习笔记
一、CNN卷积神经网络可以干的事情：检测任务分类和检索：超分辨率重构：字体识别、人脸识别、医学任务、自动驾驶任务等总结：特征提取相关二、卷积神经网络的整体架构：（1）输入层H*W*C的三维数据（2）卷积层（提取特征）权重参数矩阵filterW当前区域数据：将输入数据划分成小区域，对每个区域进行特征提取滑动窗口步长：卷积核尺寸：H*W，一般是3*3边缘填充：边缘的点被提取次数少，所以给边界paddi
深度学习神经网络学习笔记-论文研读-transformer及代码复现参考丰。。神经网络论文研读机器学习笔记神经网络深度学习神经网络学习 transformer
摘要优势序列转导模型基于复杂的循环或包括一个编码器和一个解码器的卷积神经网络。最好的表现良好的模型还通过attention连接编码器和解码器机制。我们提出了一种新的简单的网络架构，Transformer，完全基于注意力机制，省去了递归和卷积完全。在两个机器翻译任务上的实验表明，这些模型可以质量优越，同时具有更强的并行性和显著的要求训练时间更少。我们的模型在WMT2014英语-上达到28.4BLEU
深度学习神经网络学习笔记-多模态方向-13- Multimodal machine learning: A survey and taxonomy 丰。。多模态神经网络论文研读神经网络机器学习深度学习神经网络多模态
本文为简单机翻，参考学习用1多模态机器学习:综述与分类TadasBaltruˇsaitis,ChaitanyaAhuja，和Louis-PhilippeMorency抽象——我们对世界的体验是多模态的——我们看到物体，听到声音，感觉到纹理，闻到气味，尝到味道。模态是指某件事情发生或体验的方式，当一个研究问题包含多个这样的模态时，它就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展，它需
神经网络：损失函数 nightwish夜愿
神经网络学习笔记-损失函数的定义和微分证明http://www.cnblogs.com/steven-yang/p/6357775.html
d2l卷积神经网络学习笔记（2）——浅谈残差网络ResNet Tsparkle 学习之路学习深度学习 cnn
1.关于残差网络残差网络从实现原理上并不复杂，但是关于具体的原理一开始比较难理解，找了一些资料也有了一点想法。(1).我们要解决什么问题首先，网络的性能并不是随网络层数加深而上升的，这是很符合直觉的，毕竟有过拟合的先例。但是实际上，即使网络还处于欠拟合，更深层次的网络也会导致性能的下降，也就是网络退化，要理清这一现象，需要先引入一个概念，恒等映射。恒等映射简单的讲就是f(x)=x，在我们预期中，一
bp神经网络matlab实例_人工神经网络学习笔记2——MATLAB神经网络工具箱 weixin_39853210 bp神经网络matlab实例 matlab bp神经网络工具箱 matlab 高斯过程工具箱 matlab神经网络工具箱人工势场法matlab讲解
神经网络理论的初学者可以利用MATLAB自带的神经网络工具箱来理解ANN算法。神经网络工具箱模型包括如下内容：·感知器·线性网络·BP网络·径向基函数网络·竞争型神经网络·自组织网络和学习向量量化网络·反馈网络神经网络工具箱的使用在命令行窗口输入nnstart，可以打开MATLAB提供的神经网络图形用户界面，如图1所示：图1神经网络图形用户界面再次点击该界面的‘Fittingapp’按钮，打开神经
神经网络学习笔记（三）——长短时记忆（LSTM）网络 shuyitingting 机器学习
LSTM网络是循环神经网络的一种特殊类型，它可以学习长期以来的信息，它是一种拥有三个“门”结构的特殊网络结构。1.LSTM网络结构原始RNN的隐藏层只有一个状态h，如图1（a），它对于短期的输入非常敏感。LSTM网络增加一个状态c，让它保存长期的状态，如图1（b）。图1新增状态c，称为单元状态。把图1（b）按照时间维度展开，如图2所示。图2由上图可以看出：在t时刻，LSTM网络的输入有三个，即当前
吴恩达卷积神经网络学习笔记（一）星_阳深度学习 cnn 计算机视觉
一.卷积神经网络（一）1.1计算机视觉图片分类和图片识别，目标检测，图片风格迁移特征向量的维度卷积神经网络一般应用于计算机视觉领域，由于有的时候图片的像素点很多，导致神经网络输入特征值的维数很多。1.2边缘检测示例弄清一张照片中的物体，利用电脑进行去识别，垂直边缘检测，水平边缘检测。如下图所示，原图是一个661的矩阵，卷积核是一个331的矩阵，经过卷积后得到一个441的矩阵。（为了检测图像中的垂直
神经网络学习笔记(二)——循环神经网络RNN Storm*Rage
循环神经网络RNN文章目录循环神经网络RNN一、概述二、背景三、RNN原理3.1模型结构3.2前向传播3.3反向传播BPTT(back-propagationthroughtime)3.4RNN的分类3.5RNN的改进双向RNN深度RNN四、RNN的简单使用五、总结一、概述循环神经网络（Recurrentneuralnetwork，RNN）是一类以序列（sequence）数据为输入，在序列的演
动手学深度学习（现代卷积神经网络学习笔记）遥感人遥感魂动手学深度学习深度学习 cnn 学习
现代卷积神经网络之前的传统的机器学习方式，是传入人工制作选取的图像特征作为输入，训练后送入分类器中，如今是原始图像（可能裁剪）输入网络进行训练。计算机视觉研究人员相信，从对最终模型精度的影响来说，更大或更干净的数据集、或是稍微改进的特征提取，比任何学习算法带来的进步要大得多。大纲主要有以下结构，学习这些结构，包含的思想，有助于以后自己网络模型的搭建AlexNet。它是第一个在大规模视觉竞赛中击败传
神经网络学习笔记9——循环神经网络中的LSTM模型和GRU模型 RanceGru 深度学习 rnn lstm 神经网络
系列文章目录LSTM视频参考GRU视频参考文章目录系列文章目录前言一、LSTM模型结构二、GRU模型结构三、GRU与LSTM的比较前言循环神经网络（RecurrentNeuralNetwork，RNN）是一种用于处理序列数据的神经网络。相比一般的神经网络来说，他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义，RNN就能够很好地解决这类问题。LSTM是RNN的一种，
神经网络学习笔记(三)——长短期记忆网络LSTM Storm*Rage
长短期记忆网络LSTM文章目录长短期记忆网络LSTM一、概述二、背景三、LSTM原理3.1模型结构3.2前向传播3.3反向传播3.4LSTM的变体3.4.1PeepholeConnection3.4.2Coupled四、LSTM的简单使用五、总结一、概述长短期记忆网络——通常被称为LSTM，是一种特殊的RNN，能够学习长期依赖性。由Hochreiter和Schmidhuber（1997）提出，
小白的神经网络学习 summer_bugs 神经网络机器学习 tensorflow
小白的神经网络学习笔记文章目录小白的神经网络学习笔记一.环境配置二.感知器（Perceptron）单层感知器多层感知器（MLP，MultilayerPerceptron）Keras实现三.逻辑回归与交叉熵关于sparse_categorical_crossentropy&categorical_crossentropy关于独热编码（one-hotkey）在Python中的应用Keras实现四.tf
经典神经网络学习笔记之LeNet（附带代码）我很懒但我很软乎深度学习 lenet
本文是对经典论文“Gradient-BasedLearningAppliedtoDocumentRecognition”的阅读笔记之一，主要介绍LeNet的结构以及参数个数的计算，结合“DeepLearningforComputerVisionwithPythonstarterbundle”所介绍的原理和实验所写。笔者才疏学浅，还望指教。一、理论部分LeNet首次出现是在1998年的论文中，基于梯
神经网络学习笔记——鸢尾花分类 XL_0502 神经网络学习笔记神经网络 tensorflow
TensorFlow笔记——鸢尾花分类代码笔记记录实验流程和代码功能，附上关于所涉及到的tensorflow库中函数的解释实验流程数据集读入数据集乱序生成训练集和测试集(即x_train/y_train)数据类型转换配成(输入特征，标签)对，每次读入一小撮(batch)搭建网络定义神经网路中所有可训练参数参数优化嵌套循环迭代，with结构更新参数，显示当前loss测试效果计算当前参数前向传播后的准
神经网络学习笔记（3）——梯度下降公式讲解与反向传播算法野指针小李数学深度学习神经网络深度学习神经网络算法
结合上上两篇文章的叙述，这一篇文章主要讲解梯度的公式的推导，笔记来自于3B1B的视频，链接会放在最后。同样的，这一篇文章依旧没有代码。上篇文章中稍稍写漏了点东西，就是说在梯度下降过程中，步长是与该点的斜率有关，如果无关的话，那么如果步长太大，是不是就从坑中心滚过去了呀？比如这样：下面开始正文。每层只有一个神经元根据上篇文章的内容，梯度会有正有负，代表的意思就是这个点该如何移动。而每一项的相对大小告
神经网络学习笔记8——FPN理论及代码理解 RanceGru 深度学习神经网络学习计算机视觉
系列文章目录目标分割相关的RPNB站讲解文章目录系列文章目录前言一、金字塔结构图（a）图（b）图（c）图（d）二、FPN结构1、局部2、整体代码前言特征金字塔(FeaturePyramidNetworks，FPN)的基本思想是通过构造一系列不同尺度的图像或特征图进行模型训练和测试，目的是提升检测算法对于不同尺寸检测目标的鲁棒性。但如果直接根据原始的定义进行FPN计算，会带来大额的计算开销。为了降低
神经网络学习笔记4——自动编码器（含稀疏，堆叠）（更新中）奥利奥好吃呀学习深度学习神经网络
目录配套讲解视频1.程序和数据集2.自动编码器2.1自编码器原理2.2代码实现3.堆叠式自编码器4.稀疏自编码器4.1稀疏编码4.2.稀疏自编码器配套讲解视频建议配合视频阅读博文10分钟学会自动编码器从原理到编程实现_哔哩哔哩_bilibili10分钟学会自动编码器从原理到编程实现1.程序和数据集链接：https://pan.baidu.com/s/1aSNq94BJuKsiKO5gNGF29Q提
神经网络学习笔记2.2 ——用Matlab写一个简单的卷积神将网络图像分类器奥利奥好吃呀 matlab cnn 分类深度学习神经网络
配套视频讲解10分钟学会matlab实现cnn图像分类_哔哩哔哩_bilibili10分钟学会matlab实现cnn图像分类整体代码链接：https://pan.baidu.com/s/1btnY-jZXMK9oj3ZQxDvz8g提取码：k4v8可以打开代码，我来一步一步为你讲解，每步的含义，还有你该如何使用！目录1.为了便于理解，这里说一些基本概念，会的直接跳过程序在后面1.1通道数1.2全连
图卷积神经网络学习笔记四十不嚯机器学习神经网络 gcn 机器学习深度学习
图卷积神经网络学习笔记前言整体看待从卷积、CNN、GCN的关系来切入GNN与GCN的关系图的特征图的特征分析特征提取方式spectraldomainGCN的特征提取方式从拉普拉斯矩阵的特征分解开始Graph上的傅里叶变换Graph上的卷积定理第一类GCN卷积核第二类GCN卷积核第三类GCN卷积核(Chebyshev)后记前言这篇文章是作者在初次接触学习GNN/GCN的过程中为了方便理解而记录下的个
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl