ggggeekkk

深度学习大神都推荐入门必须读完这9篇论文

Introduction

卷积神经网络CNN，虽然它听起来就像是生物学、数学和计算机的奇怪混杂产物，但在近些年的机器视觉领域，它是最具影响力的创新结果。随着Alex Krizhevsky开始使用神经网络，将分类错误率由26%降到15%并赢得2012年度ImageNet竞赛（相当于机器视觉界的奥林匹克）时，它就开始声名大噪了。从那时起，一票公司开始在它们的核心服务中使用深度学习技术。例如Facebook用它进行自动的图像标签，google用它做照片检索，amazon用它做产品推荐，Pinterest用它做个性化家庭定制推送（？）,Instagram用它搭建他们的搜索架构。

基于CNN最经典也是最流行的应用应当是图像处理领域。那么，就让我们看看怎样使用CNN技术来设计图像分类算法。

The Problem Space

图像分类主要指将输入图像进行硬分类或模糊分类（例如猫图、狗图等）。对于人类来说，这是出生后就应当学会的第一个技能，并在成人后能够做到非常轻松自然地做到这一点。我们能够不假思索地连续快速地分辨所处的环境，周边事物等。无论我们看到图片还是真实景象，都能够马上对其进行判断并打上标签，有时候这种行为就是下意识的。这种识别技术主要基于人们的先验知识与环境，而这些是我们的机器所无法拥有知识的。

Inputs and Outputs

当我们的电脑看到一副图片时，机器只是看到一个由像素值组成的矩阵，例如说32*32*3，其中32表示其分辨率或图像大小，3表示RGB三原色。为了把问题阐述清楚，我们这里定义一个JPG格式的彩色图像，大小为480*480，那么表示的矩阵就是480*480*3。矩阵里每一点取值范围0-255，表示为该点的像素强度（灰度值）。在我们人类进行图像识别的时候，这些像素点一点儿意义也没有，它们只是作为机器进行图像识别的输入而已。机器的输出呢，可以是一组概率值，这组概率值表明了当前的图像是某一类图像的可能性有多大。（比如0.8可能性是猫，0.15可能性是狗，0.05可能性是鸟等）

What We Want the Computer to Do

我们知道了问题的输入和输出，现在要考虑该怎么解决它。我们想要计算机做的是分辨出所有给出的图中所具有的独特特征，例如说狗图或猫图的独特特征，这些特征是在某一分类图中一致，而跟其它类型图不同。这件事在我们自己的脑中同样也是自动完成的。例如，当我们看一副狗图时，我们能够根据图中物体的爪子或4条腿分辨其是小狗。类似地，计算机也可以通过寻找一些低等级特征，例如边缘或纹理等，并由此通过一系列卷积层来建立更抽象的概念，来实现分类识别。大体上这就是CNN所做的事。接下来让我们更具体地展开说。

Biological Connection

先让我们从一些背景知识开始吧。当你第一次听到卷积神经网络（CNN）这个短语时，也许你会想起生物神经科学领域的一些东西；可以说，某种程度上你是对的。CNN是从神经生物学中视觉皮层这个概念上获取了灵感。在大脑的视觉皮层中，有着许多由细胞组成的，对特定的视觉领域敏感的微小区域。这个理论由Hubel以及Wiesel在1962年通过实验获得了证实。(Video) 在实验中，大脑内一些独立的神经元细胞仅对给实验者展示的某些特征放电或有反应，例如特定方向的边缘。例如，在展示垂直边缘、水平边缘或对角线边时，一些神经元开始放电。Hubel和Wiesel发现，这些神经元聚集并被组合成为纵列或柱形的结构，从而产生视觉。在一个系统整体中，不同的部分负责不同的任务（例如视觉皮层的神经元细胞负责感知视觉），这样的构造，正是CNN的基础。

Structure

回到细节里来。针对CNN的具体行为，一个更加细化的视角是，用户将图像经过一系列卷积、非线性、池化（下采样）、以及全连通层后，获得了输出结果。就像之前说的，这种输出结果也许是一个用于描述该图像的分类结果或是一个分类的可能性。现在的难点在于，如何理解每一层都做了些什么。那么，让我们进入这个最重要的部分。

First Layer – Math Part

CNN的第一层通常都是卷积层。你必须记住的第一件事应当是卷积层(conv layer)的输入是什么。就像之前说的，输入是一个32*32*3的像素数列。要解释这个卷积层，最好的办法就是想象一下下面场景：你举着手电筒将光束打在一幅图像的左上角。我们假定这个光束覆盖的范围是5*5。那么现在，想象光束逐渐滑动平移，经过整幅图像。在机器学习的语言里，这个手电筒就被称作滤波器filter（或神经元neuron，或内核kernel），而它照过的区域叫做感知区(receptive field)。这个滤波器也可以表示为一个数组（数组中的数字可称为加权weight或参数parameter）。一个重要的点在于，滤波器的深度必须跟输入图像深度一致（才能保证计算不出错）。那么，这个滤波器的维度就变成了：5*5*3。现在，以这个滤波器最初的位置为例，它应当处于图像的左上角。随着滤波器的平移（或称卷积convolving）,经过整幅图像。它将自身数组中的值与图像对应位置的像素值进行相乘（即点乘），将点乘结果加起来（数学上一共有75次乘加），就有了一个数。记住，这个数只代表滤波器在图像左上角初始位置时的卷积值。现在，我们一边移动滤波器一边重复这个计算（顺序是从左到右，然后从上到下。下一步是往右移一个像素）。这样，图像上每个单独的像素位置都会产生一个滤波（卷积）后的数值。在遍历整个图像后，你会得到一个28*28*1的数列，我们称之为激活图activation map或特征图feature map。28的原因是32-5+1=28。这样一共就有784个值。

（注：上图使用的图片，是从这本特别棒的书中引用的 "Neural Networks and Deep Learning" by Michael Nielsen. 强烈推荐它）

如果现在我们有两个5*5*3的滤波器，而不是一个，那么输出结果就会变成28*28*2，随着使用越来越多的滤波器，我们能够获取到越来越多的空间维度信息。从数学的角度，这就是卷积层所做的事。

First Layer – High Level Perspective

让我们讨论一下，从更高的层面上，该如何看待这个卷积层所做的事。事实上，这些滤波器可以看做是特征识别器。这里的特征，指的是那些直线边缘、颜色、纹理等。考虑所有图像中都共通的一些最简单的特征。让我们把第一个滤波器改成大小为7*7*3的纹理识别器。（在这个章节，为了降低复杂度，我们忽略滤波器与图像的深度，仅考虑其顶层的灰度数列及其计算）。作为一个纹理识别器，它的像素结构将会在纹理形状的对应区域内具有较高的数值。（记住，所有的滤波器都只是数值和数值的组合）

现在，让我们回到数学上。当我们把滤波器放到图像左上角时，它开始进行7*7范围的内积计算。这里我们用给出的特征提取滤波器举一个例子，见下图。

记住，我们做的事是矩阵对应的像素值相乘再相加。

基本上，在输入图像中，如果当前形状跟我们的滤波器大体相像，卷积后的计算结果将会是一个很大的值！那么让我们看看如果移动滤波器到其它位置会发生什么。

计算结果很小！这是因为滤波器和当前形状完全不同。记住，这个卷积层的输出是一个激活图层（activation map）。那么，针对这个单边缘滤波器卷积的简单例子来说，它的激活图层（activation map）将会展示出当前图像中最有可能是边缘特征的区域。在上图中，左上区域的卷积结果为6600，这个大数值表明图中对应位置有这样的边缘特征使得滤波器被激活了。而右上区域的值为0，表示当前区域没有任何能够激活滤波器的特征。（或更简单地说，图中该区域没有对应的图像特征）。记住，这只是一个滤波器。这只是一个检测竖直向右偏线状特征的滤波器。我们可以再添加其它滤波器用于检测竖直左偏或垂直特征等。滤波器越多，激活图层activation map的深度就越深，对于输入图像我们就能够获取到越多的信息。

声明：文中所述的滤波器是为了卷积计算上的简化而定义的。下图给出了一些用于第一卷积层的实际滤波器示例，但主要参数（原理）还是类似的。第一层的滤波器通过对输入图像的卷积和“激活”（或计算极值点），来寻找输入图像中特定的特征。

（注：上图来自于斯坦福Andrej Karpathy以及Justin Johnson的 CS 231N course 。推荐给需要深入理解CNN的朋友们）

Going Deeper Through the Network

在传统的CNN结构中，在这些卷积层之间还夹杂有其它类型的层。我强烈建议大家去钻研并理解它们的功能和效果，这里仅给出一个大致的介绍。这些层提供了非线性特性nonlinearities与维度保留特性preservation of dimension用于提高整个网络结构的鲁棒性以及控制过拟合（control overfitting）。一个经典的CNN结构像下图所示：

然而，最后一层是非常重要的一层，我们稍后会介绍。现在让我们回过头来看看到目前已经学了哪些东西。我们讨论了第一卷积层的滤波器的设计与检测方法。它们用来检测边缘、纹理这类低阶特征。正如大家想象的，要想预测图像中的事物，我们需要一个网络结构用于识别像手掌、爪子、耳朵这样的高阶特征。然后让我们想一下第一卷积层的输出应当是什么：一个28*28*3的数列结构（假设我们用的是三个5*5*3的滤波器）。当我们进入第二个卷积层的时候，第一卷积层的输出就变成了第二卷积层的输入。这就比较抽象，比较难以想象了。要知道，当我们讨论第一层时，输入就是未经处理的原始图像；但是，当我们讨论第二卷积层时，输入已经变成了第一层的卷积结果，也就是一个激活图层activation map。这个输入的每一层基本上描述了某些低阶特征在原始图像中出现的位置。现在，当你把它输入给第二层，也就是再使用一系列滤波器对其卷积时，输出就应当是表示更高阶特征的激活图层，例如说半圆（结合了一个曲线和直线边缘）、方形（结合了一些直线边缘）等。当你将数据继续经过更多的卷积层时，你就会得到更加高阶特征的激活图层。在整个网络的最后，你也许会用一些滤波器用以激活图像中的手写特征handwriting、粉红色物体pink object等。如果你想知道更多关于滤波器可视化的信息，Matt Zeiler与Rob Fergus在他们的ConvNets模型与其研究论文research paper中有精彩的阐述。同样，在YouTube上，Jason Yosinski提供了一个非常棒的讲解视频video。另外一件有趣的事是，当你的网络结构越深，滤波器的感知区域范围就越大，这意味着它们在处理时，能够将对应原始图像中更大区域的信息都揽括在内（能够对更大的像素空间进行反应和感知）。

Fully Connected Layer

检测出高阶特征后，我们可以锦上添花地在网络结构的最后添加一个全连通层fully connected layer。全连通层输入一个数列（无论这个输入是来自卷积层conv、线性整流ReLU层还是池化层pool），输出一个N维向量，N是由程序指定的分类类别数量。例如，对于一个数字分类程序，N就应该取10（0~9共10个数字）。这个N维向量中的每一个数字表示被分到该类的几率。例如，还是针对数字分类程序的分类结果为[0 .1 .1 .75 0 0 0 0 0 .05]，这就表示这个输入的图像为1的概率有10%,为2的概率10%，为3的概率75%，为9的概率5%。（注：输出的表示方法不止这一种，这里只是展示了这种小数概率表示的softmax算法）。全连通层的工作原理是，根据之前其它层的输出（表示为高阶特征的激活图层），检测哪些特征与特定的类别相匹配。例如，程序若判定图像是一只狗，那么激活图层中表示狗的高阶特征，像是爪子、四条腿等特征将会具有很高的数值。再比如，程序若判定图像是一只鸟，那么激活图层中表示鸟的高阶特征，像是翅膀、鸟喙等就会具有很高的数值。基本上，全连通层的工作就是寻找与特定类别匹配的高阶特征，并设定相应的权重值。这样当我们把之前层的结果通过权重进行计算后，就能够正确估计其属于某一类别的可能性了。

Training (AKA:What Makes this Stuff Work)

现在这个部分是我特意在之前的讨论中未提及的，很可能是关于神经网络的最重要的部分。也许你在之前的阅读时会有很多问题。比如，第一卷积层的滤波器怎么知道该如何查找边缘和纹理？而全连通层又是怎样知道该如何查找激活图层的？每一层的滤波器都是怎样设定其值的？计算机在解决这些问题时主要依靠一个训练过程training process，称作反向传播算法backpropagation（BP算法）。

在讨论反向传播之前，我们必须先回过头来讲讲让神经网络（生物学意义上的）工作起来需要什么。当我们出生时，我们的大脑是一片空白的。我们并不知道什么是猫、狗、鸟儿。类似地，在CNN运行之前，滤波器的数值和权重等参数都是随机的。滤波器并不知道该如何寻找边缘和纹理。高阶层的滤波器同样也不知道该如何寻找爪子、鸟喙这类高阶特征。当我们逐渐长大，父母以及老师会利用照片、影像与之对应的标签来教会我们这些动物的辨别方法。这种利用标签的图片同样也是CNN所使用的训练过程。在深入研究之前，我们先简单地打个比方：我们有一个训练集，其中有几千张图片，绘制着猫、狗、鸟儿，同时每张图片上都有一个标明这是哪种动物的标签label。好的，现在回到我们的反向传播算法。

反向传播算法可以分为4个部分：前向传播forward pass，损失函数loss function，反向传播backward pass，权重更新weight update。在前向传播的过程中，你将一个训练数据（32*32*3的图像数列，表示一个数字）输入整个网络。由于所有权重或滤波器系数都是随机生成的，输出很可能是类似这样的结果[.1 .1 .1 .1 .1 .1 .1 .1 .1 .1]，基本上这样的输出难以判别是一个有效分类的。系统以目前的参数/权值是很难寻找低阶特征，并且也很难以此进行可靠的分类的。于是进入算法的损失函数阶段。记得我们刚才使用的输入是训练数据，那么除了图像数列外还附带标签。比方说这个输入的训练数据是3，那么标签就应当是[0 0 0 1 0 0 0 0 0 0]。通过其输出结果和标签的比较，就能够计算损失函数了。损失函数的定义方法很多，这里就用一个常见的均方差算法MSE(mean squared error)，如下式

这里我们使用变量L保存这个损失函数的结果。可以想象，在训练刚开始时这个值会相当的大。现在让我们用直觉去想想，我们想要找到一个“点”使得预测的标签（也就是网络的输出）和训练标签相同（这意味着我们的网络预测的结果是正确的）。那么我们需要做的就是最小化损失函数L。将其具象化，其实就是一个演算calculus优化的问题，我们想要找到哪些输入（在我们的系统中就是权值）更直接地影响到损失L，或者说误差。

上图表示，针对这个问题具象化的一个方法是将其放在由一个误差（损失相关）坐标轴、两个权值坐标轴组成的3D图中。（当然大部分神经网络的权值显然大于2，这只是为了简化）。想要最小化误差值就需要不断调节权值w1和w2。用图上的话说，我们要找到这个碗状曲面的z轴最低点。要做到这一点，就需要求出误差在各个方向（权值）上的导数（斜率）。

在数学上，这等价于针对某一层的权重W，计算导数dL/dW。那么现在，我们想要做的就是对网络进行一次反向传播backward pass，以判断哪些权重对损失L有较大的影响，并且调整这些权重以减小损失。一旦导数计算出来之后，我们就可以进行最后一个步骤：更新权重。我们将所有滤波器的权重进行更新使得它们随着其梯度方向的变化而改变（change in the direction of the gradient梯度下降法？）

学习速率learning rate是由程序员所指定的参数。高学习速率表明在进行权重更新的跨度大，这样模型就能更快地汇集到最优的权重集上面来。但是，过高的学习速率有可能导致跨度过大而难以精确地收敛到最优解上。

这整套流程：前向传递forward pass、损失函数loss function、后向传递backward pass、参数更新parameter update合起来称为一代epoch。针对每个训练图像，程序会重复进行多代epoch的训练。每次迭代结束后，我们都希望能够让网络通过良好地训练，正确地调节其每层的权重。

Testing

最后，要想验证我们的CNN是否运作正确，我们需要准备另外一套数据和标签（不能与训练集重复！），将其送入CNN进行测试。我们会比较输出结果与金标准ground truth是否一致，以验证网络是否正确。

How Companies Use CNNs

数据，数据，数据。这神奇的单词，那些有着大量数据的公司才能在激烈的市场竞争中获得潜在的先机。在网络训练的过程中，你的训练数据量越大，能够进行的训练迭代就越多，能够进行的权重调整也越多，调优的结果就越好。Facebook与Instagram公司拥有旗下数亿规模用户的照片；Pinterest公司的网站上也有500亿张拼趣图片pin供其使用；Google坐拥海量的用户搜索数据；而Amazon则每天都在接收着几百万项用户产品购买的信息。现在你能明白隐藏在这些数据之下的魔力了吧。

Stride and Padding

好的，让我们回忆一下我们的老朋友卷积层。还记得那些滤波器、感知区、卷积吗？现在让我们介绍两个卷积层中的重要参数。步长stride和填充padding。

步长stride主要用于控制滤波器在输入图像上的卷积行为。如下图例子所示，滤波器在图像上的卷积是每次卷积计算后平移一定距离再次计算。这个距离就是通过步长stride来进行控制的。在这个例子中，步长stride设为1。通常来说，步长stride参数的选择需要考虑到这个步数能够被整除。让我们看一下图中的这个例子：设输入为7*7的图像，滤波器尺寸为3*3（同样忽略了第三维），设定步长为1，那么输出就应该是下图右边的5*5图像。

还是老样子，不是吗？想想如果我们把步长stride设为2的情形。

那么，感知区每次就会平移两个单位（像素），那么输出自然就相应的缩小为3*3了。如果我们想要把步长stride设为3，那么在进行卷积时就会有空间上的问题了，同时也难以保证感知区在平移时是否还处于图像内（译者：原因是步数不能整除？）。通常，在设计卷积层时，步长stride越大，那么感知区的重叠就越小，同样地输出的图像也越小。

现在，让我们看一下填充padding参数。先想象一下这样的场景。当你使用3个5*5*3的滤波器对一个32*32*3的输入图像滤波，那么输出图像应当是28*28*3。注意空间尺寸变小了。然后我们把这个图像再次放入卷积层，会发现尺寸更小了。事实上，在整个网络的开始几层，我们并不希望尺寸缩水得这么快。我们希望能够尽量保留下这些输入图像的信息，才能够比较好地提取底层特征。也就是说，我们想要保证输出仍然是32*32*3。为了实现这个目的，我们在卷积层上引入了尺寸为2的零填充zero padding。它能够在输入图像的边界上形成一层宽度为2，值为0的边界。那么输入图像就变成了36*36*3。如下图所示。

若设定步长stride为1，同时零填充zero padding的尺寸为：

式中K为滤波器尺寸。那么输入和输出图像的尺寸就会永远保持一致。

卷积层的输出图像的尺寸可以通过下面公式得出：

式中O是输出宽/高，W是输入宽/高，K为滤波器尺寸，P为填充padding尺寸，S为步长stride。

Choosing Hyperparameters

我们该怎样确定在一个系统中，卷积层的数量、滤波器的尺寸、或是步长stride、填充padding这些参数呢？这些可不是细枝末节的问题，另外这些问题也没有一个放之四海而皆准的答案。这是因为系统参数的设定主要取决于你的数据类型。数据的大小、图像的复杂度、图像处理的目的和方式等，都会随着处理目的的不同而发生变化。选择超参数的正确做法是，在检视数据集时通过抽象概念将数据/图像以合适的尺度正确组合起来。

ReLU (Rectified Linear Units) Layers

按照惯例，每个卷积层之后都紧跟一个非线性层（或激活层activation layer）。由于系统在卷积层的计算主要为线性操作（像素/元素级的乘法和加法计算），因此这层的主要目的在于为系统引入非线性性。在过去，研究人员主要利用双曲正切tanh或S函数sigmoid作为非线性函数进行处理，后来大家发现线性整流层ReLU效果更佳，由于其计算效率能够大大加快整个系统训练的速度。同时它能减轻梯度消失问题vanishing gradient problem，这个问题主要出现在训练时，由于梯度呈指数下降而导致的底层训练十分缓慢的问题。线性整流层ReLU将输入图像的所有元素通过这样的一个整流函数：f(x) = max(0, x) 。从术语的角度上，本层将所有负激活negative activations都改为0，由此提高了模型与整个系统的非线性特性，而不会影响到卷积层的感知区。

相关信息可参考Geoffrey Hinton大神（也就是深度学习之父）的论文Paper。http://www.cs.toronto.edu/~fritz/absps/reluICML.pdf

Pooling Layers

通过线性整流层ReLU处理后，研究人员可能会在其后添加一个池化pooling层，也叫下采样downsampling层。这同样有许多可选的方法，其中最常用的是最大池化maxpooling方法。这种方法定义一个最大值滤波器（通常2*2）以及对应长度的步长stride，然后对输入图像进行滤波输出滤波器经过的每个子区域的最大值。如下图。

池化层也可以用均值或L2范数（L2-norm，欧氏距离）来计算。池化层的直观意义在于，从输入图像中获取到某个特征（会有较高的激活值activation value），它与其它特征的相对位置比其自身的绝对位置更加重要。从图中不难看出，池化层大大降低了输入图像的空间维度（宽和高，不包括深度）。这就达到了两个目的。首先，参数/权重的个数降低为原来的1/4，计算量相应减少了。第二，它能够防止过拟合overfitting。过拟合表示为由于过度的调优导致模型过于执着满足样本的特征（可能有些是局部特征）而失去了泛用性，从而难以识别其它数据。过拟合overfitting的一个征兆就是，模型在训练集上能获得99%或100%的精确度但在测试数据上仅有50%。

Dropout Layers

在神经网络中，丢包层dropout layer有一个非常特殊的函数。在上一节，我们介绍了过拟合overfitting问题，当训练完成后，由于对训练集过度调优导致的系统对新数据的识别效果不好。实际上丢包层在前向传播的过程中，故意地把一些随机的激活特征activations设为0值，这样就把它们简单地“丢包”了。那么，这样一个看似不必要、违反常理的简单操作有什么好处呢？事实上，它强行地保证了整个系统的冗余性。也就是说，系统需要满足这样的情形：当输入数据的一部分激活特征activations缺失时，系统也能够将其正确识别。丢包层dropout能够保证系统不会跟训练集过于相似，从而从一定程度上解决过拟合overfitting问题。需要注意的是，丢包层dropout仅用于训练环节。

Network in Network Layers

网络中的网络层Network in Network（NIN）指的是一个拥有1*1大小滤波器的卷积层。初看你会奇怪网络层有什么用，它投影出来的感知区区域比待投影对象还大。但是，请记住滤波器还有一个维度：深度N。因此这是一个1*1*N的卷积操作。实际上，它进行了一次N-D逐像素乘法，其中N是输入数据的深度。（大概是用子网络结构代替原先的线性卷积）

Classification, Localization, Detection, Segmentation

在我们之前的图像分类任务那个例子中，系统将输入的图像处理后输出其分类标签（或类别可能性数组）。但是，如果任务变成目标识别，那么除了需要进行分类外，还需要用一个框划出目标的具体位置。如图。

另外在一些目标检测的任务中，图中所有目标的位置都需要确定。因此，就需要输出多个定位框和类别标签。

更进一步地，在目标分割任务中，除开分类标签和定位之外，还需要系统能够将目标的边缘轮廓识别并描绘出来，如下图。

Transfer Learning

许多人认为只有拥有了google级别的数据量才能训练好一个模型，这是一个常见的对深度学习的误解。诚然，数据量对于整个系统的搭建是至关重要的，然而我们还有迁移学习transfer learning的方法来缓解数据量的需求。迁移学习transfer learning是把已训练的模型（指其他研究人员利用其它大型数据集训练的模型及其参数/权重），利用自己的数据集进行参数调整的过程。方法思路在于，将已训练模型当作一个特征提取器feature extractor。我们需要把模型的最后一层（全连通层？）移除，替换为自己的分类器（取决于我们自己需要解决的问题空间）。然后，冻结其它层的权重/参数，并开展数据训练。冻结是为了防止在梯度下降/优化时参数的改变。

让我们看看它是怎么工作的。假设我们提到的已训练模型是通过ImageNet进行训练的（ImageNet是一个拥有1400万数据量以及1000多个分类标签的数据库）。如同之前描述的，模型的底层通常是一些基本特征的提取，例如边缘和纹理等，这些特征信息在大部分图像处理问题都是必要的（除非你的问题空间和数据集非常独特）。当进行迁移学习transfer learning时，我们就可以使用这些具有共性的权重并保持它们的值，而不是设定一个随机的初始值，这样我们的训练就可以专注于更重要的层（通常是更高层）。当然，如果你的数据集跟已训练集有很大不同，那么你就需要冻结更少层的参数，而进行更多的训练。

Data Augmentation Techniques

我们现在已经对卷积网络中数据的重要性非常清楚了，那么就谈谈该怎样通过一些简单的转换，进一步扩大我们的现有数据集。就像我们之前所说，当电脑输入一组数据（图像）时，输入的形式通常为灰度值数组。假设我们把整幅图像平移1个像素，从我们的角度来说，这种变化是几乎难以察觉的。但是，对电脑来说，若要保证不影响结果，这种变化就相当明显了。这种在保持结果不变的前提下修改训练数据表现形式的方法称为数据扩容方法data augmentation techniques。这是人工扩展数据集的方法。一些常用的扩容方法包括灰度扩展grayscales，水平翻转horizontal flips，垂直翻转vertical flips，随机裁剪random crops，颜色抖动color jitters，翻译（转化？）translations，旋转rotations等等。应用这些变换方法，我们可以很轻易地成倍扩展我们的数据集。

我们将介绍几篇重要的公开发表的论文，讨论它们为何重要。前一半的论文（AlexNet到ResNet）将主要涉及整体系统架构的发展和演变，后一半论文将主要集中在一些有趣的子领域应用上。

AlexNet (2012)

https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

这篇文章算是深度学习的起源（尽管有些学者认为Yann LeCun在1998年的论文 paper 才是真正的起源）。文章标题是“ImageNet Classification with Deep Convolutional Networks”，已经获得了共6184次引用，并被广泛认为是业内最具深远影响的一篇。Alex Krizhevsky, Ilya Sutskever, 以及Geoffrey Hinton三人创造了一个“大规模、有深度的卷积神经网络”，并用它赢得了2012年度ILSVRC挑战（ImageNet Large-Scale Visual Recognition Challenge）。ILSVRC作为机器视觉领域的奥林匹克，每年都吸引来自全世界的研究小组，他们拿出浑身解数相互竞争，用自己组开发的机器视觉模型/算法解决图像分类、定位、检测等问题。2012年，当CNN第一次登上这个舞台，在前五测试错误率top 5 test error rate项目上达到15.4%的好成绩。（前五错误Top 5 error指的是当输入一幅图像时，模型的预测结果可能性前五中都没有正确答案）。排在它后面的成绩是26.2%，说明CNN相对其它方法具有令人震惊的优势，这在机器视觉领域引起了巨大的震动。可以说，从那时起CNN就变成了业内家喻户晓的名字。

这篇文章主要讨论了一种网络架构的实现（我们称为AlexNet）。相比现在的架构，文中所讨论的布局结构相对简单，主要包括5个卷积层、最大池化层、丢包dropout层，以及3个全连通层。该结构用于针对拥有1000个可能的图像类别进行分类。

图中文字：AlexNet架构采用两个不同的数据“流”使得它看起来比较奇怪。这是因为训练过程的计算量极大因此需要将步骤分割以应用两块GPU并行计算。

文中要点

利用ImageNet数据库进行网络训练，库中包含22000种类的1500万标签数据。
利用线性整流层ReLU的非线性函数。（利用线性整流层ReLU后，运行速度比传统双曲正切函数快了几倍）
利用了数据扩容方法data augmentation，包括图像变换、水平反射、块提取patch extractions等方法；
为解决训练集过拟合问题而引入了丢包层dropout layer。
使用批量随机梯度下降法batch stochastic gradient descent进行训练，为动量momentum和权重衰退weight decay设定限定值。
使用两块GTX 580 GPU训练了5~6天。

本文重要性

本文的方法是机器视觉领域的深度学习和CNN应用的开山怪。它的建模方法在ImageNet数据训练这一历史性的难题上有着很好的表现。它提出的许多技术目前还在使用，例如数据扩容方法以及丢包dropout层。这篇文章真真切切地用它在竞赛中的突破性表现给业内展示了CNN的巨大优势。

ZF Net (2013)

http://arxiv.org/pdf/1311.2901v3.pdf

AlexNet在2012年大出风头之后，2013年随即出现了大量的CNN模型。当年的的ILSVRC比赛胜者是来自纽约大学NYU的Matthew Zeiler以及Rob Fergus设计的模型，叫做ZF Net。它达到了11.2%的错误率。ZF Net的架构不仅对之前的AlexNet进行了进一步的优化，而且引入了一些新的关键技术用于性能改进。另外一点，文章作者用了很长的篇幅讲解了隐藏在卷积网络ConvNet之下的直观含义以及该如何正确地将滤波器及其权重系数可视化。

本文标题是“Visualizing and Understanding Convolutional Neural Networks”。在文章开头，Zeiler和Fergus提出CNN的复兴主要依靠的是大规模训练集以及GPU带来的计算能力飞跃。他们指出，目前短板在于研究人员对模型的内部运行机理知之甚少，若是不能解决这个问题，针对模型的改进就只能依靠试错。“development of better models is reduced to trial and error”. 虽然相较3年前，我们现在对模型有了进一步的了解；然而这依然是一个重要问题。本文的主要贡献是一个改进型AlexNet的细节及其可视化特征图层feature map的表现方式。

文章要点

除了一些微小改进外，模型架构与AlexNet非常相似
AlexNet训练集规模为1500万张图像，ZF Net仅为130万张
相比AlexNet在第一层使用的11*11滤波器，ZF Net使用7*7的滤波器及较小步长。如此改进的深层次原因在于，在第一卷积层中使用较小尺寸的滤波器有助于保留输入数据的原始像素信息。事实证明，在第一卷积层中使用11*11滤波器会忽略大量相关信息。
随着网络层数深入，使用的滤波器数量同样增加。
激活方法activation function使用了线性整流层ReLUs，误差函数error function（疑为作者笔误，应该是损失函数loss function）使用了交叉熵损失函数cross-entropy loss，训练方法使用了批量随机梯度下降法batch stochastic gradient descent。
用1块GTX580 GPU训练了12天
发明一种卷积网络可视化技术，名为解卷积网络Deconvolutional Network，有助于检查不同激活特征以及它们与输入空间的关系。命名为“解卷积网络”"deconvnet"是因为它把特征投影为可见的像素点，这跟卷积层把像素投影为特征的过程是刚好相反的。

DeConvNet

解卷积的基本工作原理是，针对训练后的CNN网络中的每一层，都附加一个解卷积层deconvnet用于将感知区回溯path back到图像像素。在CNN的工作流程总，我们把一幅图像输入给CNN，一层一层地计算其激活值activations，这是前向传递。现在，假设我们想要检查第四卷积层中针对某个特征的激活值，我们把这层对应的特征图层中的这个激活值保存起来，并把本层中其它激活值设为0，随后将这个特征图层作为解卷积网络的输入。这个解卷积网络与原先的CNN有相同的滤波器设置。输入的特征图层通过一系列的反池化（最大池化求反），整流（反整流？），以及滤波（反滤波？），随后到达输入端。

隐藏在这整套流程之下的原因是，我们想要知道当给定某个特征图层时，什么样的图像结构能够激活它。下图给出了第一和第二层的解卷积层的可视化结果。

图中文字：第一层与第二层的可视化表示。每层都表示为两幅图片：其一表示为滤波器；另一表示为输入原始图像中的一部分结构，在给定的滤波器和卷积层之下，这些结构能够激发最强的激活信号。图中第二解卷积层的左图，展示了16个不同的滤波器。（跟第一层9个组合起来）

图中卷积网络ConvNet的第一层通常是由一些用于检测简单边缘、颜色等信息的低阶特征检测子组成。从图中也可以看出，第二层则是更多的圆形特征。让我们看看下图3，4，5层的情形。

图中这几层展示出更进一步的高阶特征，例如狗的脸部特征或是花朵的特征等。也许你还记得，在第一卷积层后，我们应用了一个池化层pooling layer用于图像下采样（例如，将32*32*3的图像转换为16*16*3）。它带来的效果是第二层的滤波器视野（检测范围scope）更宽了。想要获取更多有关解卷积网络以及这篇论文的信息，请参考Zeiler的发表视频presenting。https://www.youtube.com/watch?v=ghEmQSxT6tw

本文重要性

ZF Net不仅仅是2013年度竞赛的冠军，而且它为CNN提供了更加直观的展示能力，同时提供了更多提升性能的技巧。这种网络可视化的方法有助于研究人员理解CNN的内部工作原理及其网络架构。迷人的解卷积网络可视化以及阻塞实验让这篇文章成了我的最爱。

VGG Net (2014)

http://arxiv.org/pdf/1409.1556v6.pdf

简单但有深度。2014年度ILSVRC其中一个模型最好地利用了这两个特点达到了7.3%的错误率（但并不是当年的冠军）。牛津大学的Karen Simonyan以及Andrew Zisserman两位创造了一个19层的CNN，网络中仅使用了3*3尺寸的滤波器，步长stride和填充padding都为1，池化层使用2*2的最大池化函数，步长为2。是不是很简单？

文章要点

仅使用3*3滤波器，这与之前的AlexNet的首层11*11滤波器、ZF Net的7*7滤波器都大不相同。作者所阐述的理由是，两个3*3的卷积层结合起来能够生成一个有效的5*5感知区。因此使用小尺寸滤波器既能保持与大尺寸相同的功能又保证了小尺寸的优势。优势其中之一就是参量的减少，另一个优势在于，针对两个卷积网络我们可以使用多一个线性整流层ReLU。（ReLU越多，越能降低系统线性性？）
3个3*3卷积层并排起来相当于一个有效的7*7感知区。
输入图像的空间尺寸随着层数增加而减少（因为通过每层的卷积或是池化操作），其深度反而随着滤波器越来越多而增加。
一个有趣的现象是，每个最大池化层之后，滤波器数量都翻倍，这进一步说明了数据的空间尺寸减少但深度增加。
模型不仅对图像分类有效，同样能很好地应用在本地化任务中（翻译任务）。作者在文章中进行了一系列的回归分析说明此事。（论文第10页很好地说明了）
用Caffe工具箱进行建模
在训练中使用了尺寸抖动技术scale jittering进行数据扩容data augmentation
每卷积层后紧跟一个线性整流层ReLU并使用批量梯度下降法batch gradient descent进行训练
用4块Nvidia Titan Black GPU进行训练2~3周。

本文重要性

VGG Net是我印象中影响最为深远的一篇文章，原因在于它强调了卷积网络中的深度，CNN必须保证拥有一个足够深的网络结构才能体现它在处理视觉数据的层次性。保持深度、保持简单。

GoogLeNet (2015)

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

还记得刚才我们所说的简单法则吗？然而Google在自己的架构Inception Module里把这个原则抛到了九霄云外。GoogLeNet是一个22层的CNN，它以6.7%的错误率赢得了2014年度ILSVRC的冠军。据我所知，这是第一个跟传统方法，也就是卷积层与池化层简单叠加以形成序列结构的方法不同的一种CNN的新架构。文章作者强调，他们的新模型也特别重视内存与计算量的使用（这是之前我们没有提到的：多层堆积以及大量滤波器的使用会耗费很多计算与存储资源，同样也会提升过拟合的几率）。

Inception Module

当我们第一眼看到GoogLeNet的架构时，会发现并不是像之前架构那样，所有流程都是顺序执行的。系统的许多部分是并行执行的。

下图就称为Inception module。让我们仔细研究一下它的构成。

底部的绿色模块就是我们的输入，而顶部绿色模块是输出（把它顺时针转90°就可以跟之前的GoogLeNet架构图对应起来了）。基本上在传统卷积网络ConvNet中，你需要选择当前输入是用于执行池化pooling操作还是卷积操作（同样要选择滤波器尺寸）。然而在Inception module里，你可以让它们同时跑一遍。实际上，这正是作者一开始设计时的“天真”想法。

为什么说它“天真”呢？答案是它会导致太多的输出。最终我们会得到一个具有极为巨大深度的数组。为了解决这个问题，作者在3*3以及5*5卷积层之前，采用了一个1*1卷积操作。1*1卷积（或称为网络中的网络架构NIN）提供了降维的效果。打个比方，假设你有一个100*100*60的输入图像（尺寸无关紧要，可以看成是其中某一层的输出）。将其进行20个1*1的卷积操作，则会将尺寸变为100*100*20（不太明白了，估计20个滤波器尺寸应当是1*1*60）。这意味着之后3*3以及5*5卷积所要面对的图像数据变少了。这就像是一个“特征池化pooling of features”的操作，就跟在一般模型中的最大池化maxpooling层中降低空间尺寸的操作类似，在这里我们降低了数据的深度。另外一点在于这些滤波器后跟线性整流层ReLU。

你可能会问“这架构有啥用？”。事实上，在这个由网络中的网络NIN层，中型滤波器，大型滤波器以及池化操作组成的架构中，NIN层能够从输入数据中提取出极为精细的图像细节信息，5*5滤波器能够覆盖较大的感知区与提取其内部的信息。同样，池化操作流程能够帮你减少空间尺寸，处理过拟合问题。另外，每个卷积层都配有一个线性整流层ReLU，它能够降低你的系统线性度。基本来说，这个架构能够以一个可接受的计算量处理这些复杂操作。此外，文章中还提到了一个更高层次的用途，是有关稀疏及稠密连接sparsity and dense connections的。

文章要点

模型里共使用9个Inception module模块，深度总计100层！
并没有使用全连通层，而是用一个平均池化层average pool取而代之，将7*7*1024的数据降低为1*1*1024。这个构造大大降低了参量个数。
比AlexNet的参量个数少了12倍。
在测试时，使用相同输入图像的多个副本multiple crops（？）作为系统输入，将其结果进行归一化指数函数softmax平均操作后得到其最终结果。
在模型中引入了区域卷积网络R-CNN的概念（之后会提到）
Inception module现在不断更新中（现在版本6,7）
“用一些高端GPU训练1周即可”

本文重要性

GoogLeNet是最先提出CNN模型中的非序列叠加模型这一概念的。文章作者通过介绍Inception module模块，为业内展示了一个独具创造性的，有着较高运行效率的模型。本文为随后出现的一些精彩的模型奠定了基石。

Microsoft ResNet (2015)

https://arxiv.org/pdf/1512.03385v1.pdf

想象一个很深的CNN架构，把它的层数翻两番，它的深度可能还比不上ResNet，它是微软亚研MRA在2015年提出的架构。ResNet是一个拥有152层网络架构的新秀，它集分类、检测与翻译功能于一身。除开层数破了纪录，ResNet自身的表现也破了ILSVRC2015的记录，达到了不可思议的3.6%（通常人类也只能达到5~10%的出错率，跟专业领域和技能相关。请参考Andrej Karpathy以自身经验撰写的，有关ImageNet挑战中人类与卷积网络ConvNet竞赛的雄文great post

http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

）。

Residual Block

文章中提出的残差区块residual block概念，其设计思路是这样的：当我们的输入x通过卷积-线性整流-卷积系列操作后，产生的结果设为F(x)，将其与原始输入x相加，就有H(x)=F(x)+x。对比传统CNN，只有H(x)=F(x)。而ResNet需要把卷积结果F(x)与输入x相加。下图的子模块表现了这样一个计算过程，它相当于对输入x计算了一个微小变化"delta"，这样输出H(x)就是x与变化delta的叠加（在传统CNN中，输出F(x)完全是一个全新的表达，它并不包含输入x的信息）。文章作者认为，“这种残差映射关系residual mapping比起之前的无关映射unreferenced mapping更加容易优化”。

残差区块的另外一个优势在于反向传播操作时，梯度信息流由于这些附加的计算，从而更加容易传播flow easily through the effective。

文章要点

“极度深寒Ultra-deep” - Yann LeCun
152层...
一个有意思的特点是，最初两层处理后，输入图像的空间尺寸由224*224压缩至56*56
作者声明若在平层网络plain nets中随意增加层数会导致训练计算量以及错误率上升
研究团队曾尝试使用1202层网络架构，结果精确度反而降低了，推测原因是过拟合。
训练使用一个8GPU的机器，持续了2~3周

文章重要性

模型达到的3.6%错误率本身就极具说服力了。ResNet模型是目前最棒的CNN架构，同时是残差学习residual learning的一项重要创新。2012年以来，随着错误率逐年下降，我很怀疑在ILSVRC2016上是否能看到更好的成绩。我想我们也许已经到了一个瓶颈，仅依靠往模型中堆砌更多的卷积层已经难以获取算法性能上的提升了。就像之前的两年那样，今年的竞赛一定会有更具创造性的新型模型架构。2016.9.16，这是今年比赛结果揭晓之日。别忘了。

Region Based CNNs (

R-CNN - 2013,https://arxiv.org/pdf/1311.2524v5.pdf

Fast R-CNN - 2015, https://arxiv.org/pdf/1504.08083.pdf

Faster R-CNN - 2015)http://arxiv.org/pdf/1506.01497v3.pdf

也许会有人认为比起之前所说的那些新架构，R-CNN才是最重要，对业内影响最大的CNN模型。UC Berkeley的Ross Girshick团队发明了这种在机器视觉领域有着深远影响的模型，其相关论文被引量超过了1600次。如同标题所说的，Fast R-CNN以及Faster R-CNN方法使我们的模型能够更好更快地解决机器视觉中的目标检测问题。

目标检测的主要目的是：给出一副图像，把其中所有物体都框起来。这个过程可以分为两个主要的部分：目标标定、分类。

作者提出，针对区域标定方法，任何类不可知区域检测法class agnostic region proposal method都是合适的。其中Selective Search方法特别适用于RCNN模型。Selective Search算法在运行的过程中会生成2000个不同的，有最大可能性标定图像中的目标的区域标定region proposals。获取到这些标定区域后，算法把它们“变形warped”转换为一幅图像并输入一个已训练好的CNN中（例如AlexNet），进行特征向量的提取。随后将这些向量作为一系列线性SVM分类器的输入进行分类。同样将这些向量输入给区域边界的回归分析器regressor，用于进一步精确获取目标的位置。

随后，模型采用一个非极大值抑制算法用于去除那些互相重叠的区域。

Fast R-CNN

Fast R-CNN针对之前模型的改进主要集中在这3个方面的问题。多个阶段的训练（卷积网络ConvNet、SVM、区域边界回归分析）计算负载很大且十分耗时。Fast R-CNN通过优化流程与改变各生成标定区域的顺序，先计算卷积层，再将其结果用于多个不同的功能计算模块，以此解决速度的问题。在模型中，输入图像首先通过一个ConvNet，从其最后输出的特征图层中获取特征标定区域，最后将其同时输入全连通层、回归分析模块以及分类模块。（译者按：这段基本上为字面翻译，然而有许多不合常理的地方。从图中看出标定区域似乎是在ConvNet之前，跟文中所述矛盾；另外图中似乎应该有多个ROI区域，并行地进行ConvNet，输出结果再并行输入FC，regressor等）

Faster R-CNN

Faster R-CNN用于解决在R-CNN和Fast R-CNN中的一些复杂的训练流程。作者在最后一层卷积层后插入了一个区域标定网络region proposal network（RPN）。RPN能够从其输入的特征图层中生成标定区域region proposals。之后流程则跟R-CNN一样（ROI池化、全连通、分类以及回归）

文章重要性

首先它能检测图像中的特定物体；更重要的是它能够找到这个物体在图像中的具体位置，这是机器学习的一个重要进步。目前，Faster R-CNN已经成为目标检测算法的标杆。

Generative Adversarial Networks (2014)

https://arxiv.org/pdf/1406.2661v1.pdf

根据Yann LeCun的说法，这个网络架构可以说又是一个大进步。在介绍这篇文章之前，我们先谈谈对抗样本adversarial examples。例如，有一个经过ImageNet数据训练好的CNN，现在给一副图（如下图左）加一些扰动或微小修改（中，右），输入后导致预测错误率增加了许多。虽然图像看起来跟原来似乎是一样的，但是最终分类却与原先已经不同了。归纳起来，对抗样本就是那些故意愚弄并破坏卷积网络ConvNets结果的图像。

图中文字：左列图像为正确样本，中间一列表示左和右图之间的扰动，右列图像的大部分都被归类为鸵鸟ostrich。事实上，人眼几乎难以分辨左右图之间的差异，然而卷积网络ConvNet在分类时竟会产生如此夸张的错误。

对抗样本Adversarial examples 吓到了许多研究人员并马上成为议论的热点。现在让我们谈谈这个generative adversarial networks模型。这里有两个模型：产生模型generative model和判别模型discriminative model。判别模型discriminative model用于判断某幅图像是天然的（直接来自数据集里）还是人为制造的。产生模型generator则创造样本供给判别模型discriminator训练。这可以看成是一个零和zero-sum游戏或是最小最大minimax游戏。文章中用的类比是这样的，产生模型generative model就像是“一群造假币的”，而判别模型discriminative model则像是“抓造假币者的警察”。产生模型不停地试图欺骗判别模型而判别模型试图识破欺骗。随着模型的训练，二者的能力不断提升最后达到“赝品和正品已经完全分不清楚了”的程度。

论文重要性

听起来这么的简单，那为什么我们要关注这个模型呢？就像Yann LeCun在Quora网站上的帖子post https://www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-deep-learning

所述，因为判别模型discriminator已经能够识别来自数据集中的真实图像以及人工仿造的图像，因此可以说其探悉了“数据的内在表达”。因此，这个模型可用作CNN中的特征提取器；另外你也可以用它来仿造一些以假乱真的图像。

Generating Image Descriptions (2014)

https://arxiv.org/pdf/1412.2306v2.pdf

当你把CNN和RNN（循环神经网络）结合在一起会产生什么？抱歉，别想错了，你并不能得到R-CNN;-)；但确实能得到一个很不错的模型。Andrej Karpathy（我个人最喜欢的作者之一）和Fei-Fei Li所写的这篇文章就是着重于研究将CNN与双向RNN bidirectional RNN相结合生成用于描述图像区域的自然语言描述器。基本上这个模型通过输入一副图像，产生如下的输出：

看起来非常不可思议。让我们看看它跟普通CNN有什么不同。在传统的模型中，针对训练数据中的每一张图片，都只有一个确定的标签与之对应。但本文所描述的模型则通过一个句子（或标题）与图像相关联。这种标签形式被称为弱标签，其语句中的成分与图像中的（未知）部分相关联。使用这样的训练集，让一个深度神经网络模型“推断语句成分与其描述的图像区域之间的潜在结合alignment关系（文中语）”；另外还有一个网络模型则将图像作为输入，生成其文字描述。现在让我们分别看看这两个部分：配对alignment与产生generation。

Alignment Model

这个部分的主要目的在于将视觉信息和文字信息进行配对结合（图像和描述文字）。模型输入一幅图像与一句话，然后对它们俩的匹配程度进行打分作为输出（有关这个模型工作的具体细节，作者Karpathy引用了另外一篇论文paper https://arxiv.org/pdf/1406.5679v1.pdf。模型主要使用兼容/不兼容图文对compatible and incompatible image-sentence pairs进行训练。）

现在看一下该如何表现一幅图像。首先，把一幅图像输入一个用ImageNet数据训练过的R-CNN网络，检测其中的物体。前19个检测出来的物体（加上自身）表现为深度为500维的维度空间。那么现在我们有了20个500维向量（文章中表示为v），这就是图像中的信息。随后，我们需要获取语句中的信息。我们利用双向RNN架构，把输入语句嵌入同样的多模态维度空间。在模型的最高层，输入的语句内容会以给定的句式（given sentence）表现出来。这样，图像的信息和语句信息就处于同一个建模空间内，我们通过计算其内积就可以求得相似度了。

Generation Model

刚才说了，配对alignment模型创建了一个存放图像信息（通过RCNN）和对应文本信息（通过BRNN）的数据集。现在我们就可以利用这个数据集来训练产生generation模型，让模型从给定图像中生成一个新的描述文本信息。模型将一幅图像输入CNN，忽略其softmax层，其全连通层的输出直接作为另一个RNN的输入。这个RNN的主要功能则是为语句的不同单词形成一个概率分布函数。（同样需要另外训练）

声明：这绝对是最难懂的文章之一，如果大家对我的讲述有不同意见和建议，请一定在评论区留言。

文章重要性

对我来说，本文要点在于利用了看起来似乎不同的两种模型RNN和CNN，创造了一个结合机器视觉和自然语言处理两方面功能的应用。它打开了新世界的大门，提供了一个新的思路，使得深度学习模型更加聪明并能够胜任跨学科领域的任务。

Spatial Transformer Networks (2015)

https://arxiv.org/pdf/1506.02025.pdf

最后，让我们介绍一个最近的文章。这篇文章是由Google Deepmind研究组在一年前撰写的。它提出了一种空间变形模块Spatial Transformer module。模块将输入图像进行某种变形从而使得后续层处理时更加省时省力。比起修改CNN的主要结构，作者更关注于对输入图像进行改造。它进行的改造主要有两条：姿态正规化pose normalization（主要指图像场景中的物体是否倾斜、是否拉伸）以及空间聚焦spatial attention（主要指在一个拥挤的图像中如何聚焦某个物体）。在传统CNN中，如果想要保证模型对尺度和旋转具有不变性，那么需要对应的大量训练样本。而在这个变形模块中，则不需要如此麻烦，下面就让我们看看它是怎么做的。

在传统CNN中，应对空间不变性的模块主要是最大池化maxpooling层。其背后的直观原因在于最大池化层能够提取特征信息（在输入图像中有着高激活值的那些区域）的相对位置作为一个重要属性，而不是绝对位置。而文中所述的空间变形模块则是通过一种动态的方式对输入图像进行变换（扭曲、变形）。这种形式不像传统的最大池化操作那样简单与死板。让我们看看它的组成：

一个局部网络结构，通过输入图像计算出应该对图像采用的形变参数并将其输出。形变参数称作theta，定义为一个6维的仿射变换向量。
一个正规化网格经过上述参数的仿射变换之后生成的采样网格产物。
用作对输入图层变换的采样器sampler

这样的一个模块可以插入于CNN网络的任何地方，帮助整个网络结构学习特征图层形变，降低训练成本。

图中文字：在一个全连通网络架构用于扭曲手写MNIST库的数字识别的项目中，添加空间变形模块spatial transformer作为架构的第一层的运行结果：(a)输入数据是MNIST手写库中的图像，图像上施加了随机变换、缩放、旋转以及其它干扰噪声clutter。(b)空间变形模块预测的图像形变。(c)通过空间变形模块处理后的结果。(d)随后通过全连通网络分类预测后的结果。附带空间变形模块的网络架构在训练时仅使用了最后的正确标签，也就是数字标签，而并没有使用正确变形参数作为标签进行训练。

文章重要性

这篇文章吸引眼球的地方在于它提出这样的一种可能性：对CNN的改进并不一定要对网络架构的大规模修改，也不需要创造出另外一个ResNet或Inception module这样的复杂模型。这篇文章通过实现了一个对输入图像进行仿射变换的简单功能从而让模型拥有了很强的形变、伸缩、旋转不变性。如果对本文所述的模型还有兴趣的同学，可以看一下这个Deepmind团队的视频video，https://drive.google.com/file/d/0B1nQa_sA3W2iN3RQLXVFRkNXN0k/view

对CNN加空间形变模块的结果有很好的展示，同时也可以参考这个Quora讨论贴discussion。https://www.quora.com/How-do-spatial-transformer-networks-work

这就是我们的卷积网络入门的三部曲。再次强烈推荐Stanford的CS 231n视频课程，http://study.163.com/course/courseMain.htm?courseId=1004697005

你可能感兴趣的:(机器学习,机器学习,深度学习)

scikit-learn基本功能和示例代码 weixin_30777913 深度学习机器学习 python scikit-learn
scikit-learn（简称sklearn）是一个广泛使用的Python机器学习库，提供了丰富的工具和算法，涵盖了数据预处理、模型训练、评估和优化等多个方面。scikit-learn是一个功能强大的机器学习库，涵盖了数据预处理、分类、回归、聚类、降维、模型选择与评估等多个方面。通过上述代码示例，您可以快速上手并使用scikit-learn进行机器学习任务。以下是对scikit-learn主要功能
There was a problem confirming the ssl certificate: [SSL:CERTIFICATE_ VERIFY_ FAILED]certificate解决方案爱编程的喵喵 Python基础课程 python pip SSL certificate 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Therewasaproblemco
使用 Python 和 scikit-learn 实现 KNN 分类：以鸢尾花数据集为例弥树子 python scikit-learn 分类
在机器学习的世界里，K-NearestNeighbors（KNN）算法是一种简单而强大的分类方法。它基于一个直观的想法：相似的数据点往往属于同一类别。本文将通过Python的scikit-learn库实现KNN分类，以经典的鸢尾花数据集为例，展示从数据加载到模型评估的完整流程。1.KNN算法简介KNN是一种监督学习算法，主要用于分类和回归任务。它的工作原理非常简单：对于一个新的数据点，算法会查找训
DeepSeek--通向通用人工智能的深度探索者油泼辣子多加专业名词解释人工智能
一、词源与全称“DeepSeek"由"Deep”（深度）与"Seek"（探索）组合而成，中文译名为"深度求索"。其全称为"深度求索人工智能基础技术研究有限公司"，英文对应"DeepSeekArtificialIntelligenceResearchInstitute"。这一命名体现了企业对深度学习技术与未知领域持续探索的双重追求。二、发展历程初创期（2023）公司成立于中国杭州，创始团队汇聚了来自
git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案爱编程的喵喵 Python基础课程 git github timeout port 443 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了gitclone出现fatal:un
Gradio 快速构建机器学习web可视化界面心得算法小菜鸟成长心得 python
1.操作完成提示try:#对输入的字符串代码进行编译运行exec(get_test_code_example)gr.Info("Modeltestingcompletedsuccessfully.")except:raisegr.Error("Modeltestingfailed.")用到了gr.Info()和gr.Errot(）
linux git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案 herosunly C/C++/Linux解决方案 linux git github timeout port 443
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了linuxgitclone出现fatal:unabletoaccessF
flask+layui学生信息管理系统元宇宙中的程序员 flask layui python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、数据库建模1、创建数据模型classStudentORM(db.Model):stu_id=d
Python 3.9它来啦！！！ python程序员小'鹏 python 编程语言经验分享程序人生
Python3.9，来了！小编本身就是一名python开发工程师，我自己花了三天时间整理了一套python学习教程，从最基础的python脚本到web开发，爬虫，数据分析，数据可视化，机器学习，等，这些资料有想要的小伙伴"点击"即可领取过去一年，来自世界各地的开发者们一直在致力于Python3.8的改进。Python3.9beta版本已经存在了一段时间，第一个正式版本于2020年10月5日发布。每
AI智能制造软件有什么用处雪叶雨林行业资讯 AI 人工智能制造
随着信息技术与制造业的深度融合，人工智能（AI）逐渐成为提升制造效率和灵活性的重要工具。AI智能制造软件通过集成数据分析、机器学习和自动化流程，为企业提供了优化生产、降低成本和提高质量的新途径。生产过程优化实时监控与反馈AI智能制造软件能够实时收集生产线上的各类数据，如温度、压力、速度等参数，并通过机器学习算法进行分析处理。一旦检测到异常情况，系统会立即发出警报并提供改进建议，帮助企业快速响应问题
ModuleNotFoundError: No module named ‘pywin32_bootstrap‘解决方案爱编程的喵喵 Python基础课程 python ModuleNotFound win32_bootstap 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ModuleNotFoundErro
人脸识别的经典深度学习方法明初啥都能学会深度学习人工智能
人脸识别的经典深度学习方法引言1.卷积神经网络（CNN）1.1LeNet1.2AlexNet1.3VGGNet1.4ResNet2.人脸检测2.1Viola-Jones算法2.2基于深度学习的人脸检测3.人脸特征提取3.1主成分分析（PCA）3.2人脸对齐3.2.1基于特征点的对齐3.2.2基于深度学习的对齐4.人脸识别模型4.1传统机器学习方法4.2基于深度学习的方法5.公式解读5.1卷积运算5
AI智能获客工具的意义是什么雪叶雨林 AI 行业资讯人工智能
在当今竞争激烈的市场环境中，企业需要高效、精准的获客策略来维持增长和竞争力。AI智能获客工具的出现，为企业提供了一种全新的解决方案，通过自动化和智能化手段提高获客效率和质量。一、AI智能获客工具的核心价值1.1提高获客效率AI智能获客工具通过自动化流程，如自动筛选潜在客户、自动发送营销信息等，大幅减少了人力投入和时间成本，从而提高了获客效率。1.2精准定位潜在客户利用机器学习和大数据分析技术，AI
MicroAI™将人工智能培训引入RENESAS MCU sinat_41698914 人工智能 mcu big data
在端点部署的人工智能技术将加快资产密集型行业的上市时间达拉斯--(美国商业资讯)--边缘原生人工智能(AI)和机器学习(ML)产品领域的先驱MicroAITM今天宣布，公司已将其MicroAIAtomML™技术与RenesasRA微控制器(MCU)产品线进行整合。与全球微控制器领导者Renesas合作将机器学习引入MCU，并借助MicroAI直接在嵌入式环境中训练机器学习模型的能力——这在业界尚属
基于深度学习的遥感目标检测系统：UI界面、R-CNN模型与数据集准备 2025年数学建模美赛 R-CNN检测系统人工智能深度学习 r语言 cnn python ui 目标检测
一、引言遥感图像中的目标检测在很多领域，如环境监测、土地利用、城市规划、农业资源监测等方面有着广泛应用。遥感图像具有高分辨率和丰富的空间信息，但同时也带来了目标检测中的许多挑战，特别是在目标尺度变化、遮挡和复杂背景的情况下。因此，采用深度学习技术，尤其是卷积神经网络（CNN）和区域卷积神经网络（R-CNN），在遥感图像目标检测中取得了显著的成果。本文将详细介绍基于深度学习的遥感目标检测系统，使用R
Kaggle房价预测一名小菜鸟的学习之路深度学习pytorch 深度学习机器学习 python 人工智能神经网络
Kaggle房价预测作为深度学习基础篇章的总结，我们将对本章内容学以致用。下面，让我们动手实战一个Kaggle比赛：房价预测。本节将提供未经调优的数据的预处理、模型的设计和超参数的选择。我们希望读者通过动手操作、仔细观察实验现象、认真分析实验结果并不断调整方法，得到令自己满意的结果。%matplotlibinlineimporttorchimporttorch.nnasnnimportnumpya
C++ 与机器学习：构建高效推理引擎的秘诀 salsm C++编程魔法师 c++机器学习开发语言
随着深度学习模型逐渐从研究走向生产环境，推理能力成为部署中的关键环节。模型的推理引擎需要以极低的延迟快速处理输入数据，同时最大化地利用硬件资源。虽然Python被广泛用于模型的训练和开发，但C++却在推理领域独占鳌头，其性能优势和硬件控制能力无可替代。在这篇文章中，我们将从为什么选择C++、构建高效推理引擎的细节，以及相似的开源项目三个方面深入探讨如何利用C++打造高效的机器学习推理引擎。目录为什
《动手学深度学习》(PyTorch版) chaser&upper 深度学习 pytorch 深度学习 python
《动手学深度学习》PyTorch版前言简介面向人群食用方法方法一方法二方法三目录原书地址引用阅读指南前言读书啦！！！本项目将《动手学深度学习》原书中MXNet代码实现改为PyTorch实现。原书作者：阿斯顿·张、李沐、扎卡里C.立顿、亚历山大J.斯莫拉以及其他社区贡献者，GitHub地址：https://github.com/d2l-ai/d2l-zh此书的中英版本存在一些不同，针对此书英文版的P
从简单到深刻的认知发展 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知发展，人工智能，深度学习，神经网络，机器学习，自然语言处理，计算机视觉1.背景介绍认知发展是人类从简单到复杂的思维方式演进的过程，它涉及感知、记忆、语言、推理和决策等多个方面。随着人工智能技术的飞速发展，我们开始尝试用计算机模拟人类的认知能力，构建能够学习、理解和解决复杂问题的智能系统。从早期的符号逻辑到如今的深度学习，人工智能的发展经历了多个阶段。早期的人工智能研究主要集中在规则和逻辑推理上
大数据和智能数据应用架构系列教程之：大数据与人工智能 AI天才研究院 AI实战大数据AI人工智能 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍概述“大数据”是指海量、高维、多样化的数据集合。随着人类对数据处理和管理的需求越来越复杂，越来越依赖机器学习、人工智能等新兴技术。在过去的一段时间里，越来越多的人开始关注到“大数据”这一颗龙头。如今，“大数据”已经成为一个新的名词，它既包含了大量的数据，也带来了巨大的价值。因此，研究、开发、应用“大数据”技术也逐渐成为各行各业的专业人才需求。在这个快速发展的
使用onnxruntime-web 运行yolov8-nano推理 CHEN_RUI_2200 机器学习 YOLO
ONNX（OpenNeuralNetworkExchange）模型具有以下两个特点促成了我们可以使用onnxruntime-web直接在web端上运行推理模型，为了让这个推理更直观，我选择了试验下yolov8识别预览图片：1.跨平台兼容性ONNX是一种开放的格式，可以在不同的深度学习框架之间共享模型，如PyTorch、TensorFlow、MXNet和Caffe2。这使得用户可以在一个框架中训练模
人工智能学习框架：深入解析与实战指南一ge科研小菜鸡人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着人工智能（AI）技术的飞速发展，深度学习、强化学习和自然语言处理等领域的应用愈加广泛。掌握人工智能学习框架（如TensorFlow、PyTorch、Keras等）已成为开发智能系统、研究前沿技术的必备技能。本指南将全面介绍人工智能主流学习框架的特点、安装方法、核心功能，以及通过实践案例展示如何使用这些框架进行AI模型开发、训练与优化。1.
【前沿聚焦】机器学习的未来版图：从自动化到隐私保护的技术突破网罗开发人工智能 AI 大模型机器学习人工智能
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，深度学习作为其主要驱动力之一，已经在各个领域取得了显著的成果。然而，随着模型规模的不断扩大，如何高效地搭建、训练和部署深度学习模型，成为一个亟待解决的问题。传统的单机训练方式在计算资源有限的情况
# 第一章：认识chatgpt 出门喝奶茶 chatgpt chatgpt
chatgpt发展背景详细介绍一、基础理论背景人工智能和自然语言处理的兴起早期理论:20世纪中期，人工智能（AI）初见端倪，目标是模拟人类智能。自然语言处理作为AI的重要分支，致力于让机器理解和生成人类语言。关键里程碑:1980年代的统计方法和2000年代的神经网络技术，使NLP实现了从规则驱动到数据驱动的转变。神经网络与深度学习2010年代，深度学习的兴起极大推动了NLP的发展。基于大规模语料库
机器学习&深度学习目录 UQI-LIUWJ 各专栏目录深度学习人工智能 1024程序员节
机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
遥感深度学习过程中图像分割的尺寸对模型训练结果的影响司南锤深度学习遥感深度学习人工智能
1.计算资源与显存占用大尺寸图像：需要更高的显存和计算资源，可能限制训练时的批大小（batchsize），甚至导致无法训练。解决方案：通常将大图裁剪为小尺寸的补丁（patches），例如256x256或512x512。小尺寸图像：显存占用低，但可能丢失全局上下文信息（如大面积地物分布），影响模型对复杂场景的理解。2.模型感受野与上下文信息小尺寸输入：模型感受野受限，可能无法捕捉大范围地物（如河流、
06-机器学习-数据预处理不会打代码呜呜呜呜机器学习机器学习人工智能
数据清洗数据清洗是数据预处理的核心步骤，旨在修正或移除数据集中的错误、不完整、重复或不一致的部分，为后续分析和建模提供可靠基础。以下是数据清洗的详细流程、方法和实战示例：一、数据清洗的核心任务问题类型表现示例影响缺失值数值型字段为空（NaN）模型无法处理缺失值，导致训练中断或偏差异常值年龄=200岁，房价=-100万扭曲统计指标（如均值），降低模型泛化性重复数据两行记录完全相同导致模型过拟合，降低
从零推导线性回归：最小二乘法与梯度下降的数学原理 Echo-Nie 机器学习机器学习线性回归人工智能梯度下降数学推导
欢迎来到我的主页：【Echo-Nie】本篇文章收录于专栏【机器学习】本文所有内容相关代码都可在以下仓库中找到：Github-MachineLearning1线性回归1.1什么是线性回归线性回归是一种用来预测和分析数据之间关系的工具。它的核心思想是找到一条直线（或者一个平面），让这条直线尽可能地“拟合”已有的数据点，通过这条直线，我们可以预测新的数据。eg：假设你想预测房价，你知道房子的大小（面积）
超实用的 30 段 Python 案例（上） Python之栈 python 开发语言
Python是目前最流行的语言之一，它在数据科学、机器学习、web开发、脚本编写、自动化方面被许多人广泛使用。它的简单和易用性造就了它如此流行的原因。如果你正在阅读本文，那么你或多或少已经使用过Python或者对Python感兴趣。在本文中，我们将会介绍30个简短的代码片段，你可以在30秒或更短的时间里理解和学习这些代码片段。1.检查重复元素下面的方法可以检查给定列表中是否有重复的元素。它使用了s
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交