linyuxi_loretta

CNN (吴恩达 2021

week1-2

02_边缘检测例子_哔哩哔哩_bilibili

我们之前在说面部识别介绍过，要识别面部，都是从细微的边缘入手，一层一层聚类，最终实现人脸的识别。神经网络由浅层到深层，分别可以检测出图片的边缘特征、局部特征（例如眼睛、鼻子等）、整体面部轮廓。

我们就以边缘检测为例子，介绍卷积运算。

一个垂直边缘是一个3x3的区域，左边有亮像素，中间无所谓，右边是暗像素

图片边缘有两种渐变方式，一种是由明变暗，另一种是由暗变明。以垂直边缘检测为例，下图展示了两种方式的区别。实际应用中，这两种渐变方式并不影响边缘检测结果，可以对输出图片取绝对值操作，得到同样的结果。

positive edge v.s. negative edge

除了上面提到的这种简单的Vertical、Horizontal滤波器之外，还有其它常用的filters，

sobel过滤器，它增加了中间一行的权重，使得结果的鲁棒性更强。还可以将权重再提高一些，scharr过滤器：

在深度学习中，如果我们想检测图片的各种边缘特征，而不仅限于垂直边缘和水平边缘，那么filter的数值一般需要通过模型训练得到，类似于标准神经网络中的权重W一样由梯度下降算法反复迭代求得。CNN的主要目的就是计算出这些filter的数值。确定得到了这些filter后，CNN浅层网络也就实现了对图片所有边缘特征的检测。

padding

两个问题：

卷积运算后，输出图片尺寸缩小
原始图片边缘信息对输出贡献得少，输出图片丢失边缘信息

根据是否进行填充，卷积方法可以分为两种，一种是valid convolution（不进行填充），另一种是same convolution（也就是保证图片在卷积前后的维度相同）。在后一种卷积方式中，为了保证卷积前后的维度不变，p值应该等于（f-1)/2，（filter尺寸为f x f，注意f一般为奇数，若为偶数，则会产生不对称填充。）

（另外一个原因，奇数维度的过滤器有一个中心点，便于指出过滤器的位置，会很方便。）

（这是计算机视觉的传统）

4、卷积神经网络-步长（strid）

前面的例子，卷积的步长为1，也就是过滤器在原始输入图片中，每一次移动一个方格。我们也可以设置不同的步长进行卷积。

⌊ ⋯ ⌋表示向下取整。若[（n+2p-f）/s + 1] 不为整数，则向下取整，这么处理的实际意义就在于，只有当过滤器完全覆盖了输入图片的像素点时，卷积才是有效的。

卷积和互相关：

在数学定义上，矩阵的卷积（convolution）操作为首先将卷积核同时在水平和垂直方向上进行翻转（沿对角线翻转），构成一个卷积核的镜像，然后使用该镜像再和前面的矩阵进行移动相乘求和操作。如下面例子所示：

在深度学习中，我们称为的卷积运算实则没有卷积核变换为镜像的这一步操作，因为对卷积核翻转，会使卷积核保持结合率 A*(B*C)=(A*B)*C，这一性质对deep NN并不重要。深度学习的卷积操作在数学上准确度来说称为互相关（cross-correlation）。

在信号处理或其他数学分支领域做翻转（flipping）

三维卷积

输入图像的通道数量与过滤器的通道数量必须相同，

结果的通道数则由过滤器的个数决定，

单层卷积网络

输入的图片经过两个过滤器，得到两个4*4的矩阵，相当于对输入图片的像素点做了线性操作(像素点的值和过滤器的权重进行点乘)，然后对于4*4的矩阵的每个元素加上一个bias，再对结果进行非线性变化（Relu），经过堆叠之后，得到最终的4*4*2的结果。

整个过程与标准的神经网络单层结构非常类似：

我们发现，选定滤波器组后，参数数目与输入图片尺寸无关。所以，就不存在由于图片尺寸过大，造成参数过多的情况。

activations:激活值的维度也就是本层神经网络输出的图片的维度

A[i]：如果应用的是向量化实现vectorized implementation，或批量梯度下降

batch gradient descent进行训练的话，每次训练的样本有m个，则激活值要乘上m。

简单的深度卷积神经网络

到第三层，你把39x39x3的输入图像，计算出此图像的7x7x40 features

hyperparameter：filters size？stride？padding？filters数量？

多层卷积神经网络的趋势就是，随着层数的加深，图片的长和宽会减小，而channel数目会不断增加。

CNN通常有三种类型的layer：

Convolution层（CONV），CONV最为常见也最重要，
Pooling层（POOL）
Fully connected层（FC）

pooling

09_池化层_哔哩哔哩_bilibili

max pooling所做的其实是，如果在filter中任何地方检测到了这些特征、就保留最大的数值；但是如果这个特征没有被检测到、于是那些数值的最大值仍然相当小，这就是max pooling在卷积网络中效果很好的根本原因。

若输入的信道数量大于1，那么对每一层的输入分别做相同的操作即可，输出的结果具有相同的信道数。

average pooling（平均池化）：没有很常用

目前，使用 max pooling 通常比average pooling 多得多，唯一的例外，是有时候在深度非常大的神经网络，你也许可以使用均值采样来合并your representation from see 7x7x1000 ，将它们整体取一个均值，得到1x1x1000

池化的过程中，没有需要学习的参数，只需要定义过滤器的大小以及步长即可。

这里只有这些超参需要你设定一次，或许是人工设定或者使用交叉检验across validation

经典的卷积神经网络（conv+pooling+full connection）

经典的神经网络中，将pooling和卷积层结合在一个，一般来说都是一层卷积配上一层pooling，由于pooling部分没有需要训练的参数，因此通常将一层conv和一层pooling合并作为神经网络中的一层。

卷积神经网络的最后一部分就是全连接层，如下图：

LeNet-5多年前由Yann LeCun创建，其中许多参数的选择是受到它启发的

神经网络中当人们说到网络层数的时候，通常指那些有权重，有参数的网络层数量

这其中似乎有许多超参数、稍后我们将会给出一些更具体的建议、也许一个常用的法则实际上是、不要试着创造你自己的超参数组、而是查看文献，看看其他人使用的超参数、从中选一组适用于其他人的超参数、很可能它也适用于你的应用

比较常见的卷积神经网络是一个或者多个卷积层之后，接上一个pooling层，然后是几个全连接层，最后是softmax层。上图网络各层的参数数量以及激活值数量如下表所示。

如表，pooling层是没有参数的，卷积层的参数较少，而全连接层的参数是相对较多的。而激活值activation size数量是在逐渐减少的，但如果激活值较少速度太快的话，通常也不利于网络性能。

你会发现许多CNN有着与此相似的特性和模式

为什么使用卷积神经网络？

和全连接相比较，全连接的参数数量较多（两层之间的神经元需要两两相连），卷积神经网络的参数较少，主要是由于：

权值共享（同一个过滤器在输入矩阵中进行扫描，可以在input图上用同一组参数提取同一个特征）

稀疏连接（输出矩阵中的每一个数值只由输入数据的一部分计算得来）。

平移不变性

如何训练一个卷积神经网络？

简单来说，就是定义一个损失函数，随机初始化参数w和b，然后用梯度下降法进行参数训练，使得损失函数最小

梯度下降法、梯度下降动量、RMSProp，Adam，或者别的

a variety of other computer vision applications such as,

object detection, and neural store transfer.

How they create new forms of artwork using these set of algorithms.

价值连城图灵奖得主Yann LeCun 杨立昆的采访给AI从业者的建议_AI架构师易筋的博客-CSDN博客

the perceptron model感知器，大部分的文章是50年代的，而且到60年代就中断了找到一本由Seymour Papert一起合著的书，1980年

标题是最佳知觉推论这是第一份玻尔兹曼机的论文，作者是Geoff Hinton 和Terry Sejnowski 它是讨论隐藏单元的也就是学习的一部分多层神经网络比仅有的分类器更有效

，我们意识到整个链式法则Chain Rule的想法或者最佳化控制 optimal control，人们称之为连接状态joint state 实际是反向传播发明的真正主旨这种最佳化控制的主旨要回到60年代早期这种观念，使用梯度下降，并且基本上使用在多个层次是反向传播真正的特点，

，当我在博士后时，在多伦多大学，跟着Geoffery Hinton

我做的第一项实验表明如果你有一个非常小的数据集

我比较了全连接网络没有共用权重的局部连接网络然后是共享权重的网络那基本上是ConvNet的雏形而这对相对小的数据效果很好，可以显示你得到了最佳的效果，没有在传统架构下有过度训练

他们有巨大的数据集叫做USDS，包含了5000个训练样本

我加入贝尔实验室三个月内发生的所以这是第一版本的卷积网络我们的卷积网络有跨步，但我们没有单独的降采样和池化层所以每个卷积实际上很直接这个的原因是我们负担不起在每一个区域都做卷积这包含了太多的计算所以第二个版本是有单独的卷积，池化层和降采样
我觉得这个才应该称为LeNet-1

characterization systems.字母识别

CRFs(Conditional Random Field) for interpreting sequences of characters not just individual address.

it's about sort of sequence level, discriminative running判别运算, and basically structure prediction with that normalization.

因特网刚刚开始的时候，也就是1995年

我开始了一个项目，叫DjVu 这个项目主要是想要压缩扫描的文档这样一来他们就可以传播到全世界的各个地点

卷积网络从您早期的工作开始，到现在几乎覆盖了计算机视觉的所有领域并且甚至开始去进入其他领域所以能告诉我你是如何看待整个过程的吗 —
[笑] 我可以告诉你为什么我早先就觉得这些会在未来发生首先，我一直相信这是会成功深度学习这个方向需要快速的计算机和大量的数据，并且我一直相信这会是以后会发生的事情当我在贝尔实验室的时候，我想这会是一个持续进展的过程，随着计算机越来越强大。我们在贝尔实验室的时候，甚至自己设计芯片运行卷积神经网络那时候实际上是在两个不同芯片上运行整个计算图使得卷积网络更加高效我当时想这应该会开始流行而且会逐渐被重视，然后能持续的发展下去但是实际上，因为大家对神经网络的兴趣在90年代中期几乎中断，这些并没有发生这段6，7年的时间，从大概1995到2002，是神经网络的低潮期当时，几乎没人对这个领域进行研究事实上，还是有一丢丢进展的在2000年初，有些微软的研究人员用卷积神经网络去做汉字的识别
嗯，就是这样的还有些其他的少量工作，像在法国有用这个技术做人脸识别还有一些其他地方的，但都是很小的工作我发现最近有一些团队提出一些和卷积神经网络很像的想法但是却没有发表出来，像一些对医学图像的分析那些人更多是在商业系统下进行所以那些人没有把成果公之于众我的意思是当我们有了第一个卷积神经网络的成果的时候他们并没有意识到，所以有一点大家在并行开发所以这些人在这段时间内都有差不多的想法
但是我非常惊讶于从ImageNet开始大家兴趣转变的速度之快那是在2012年，应该说是2012年底在ECCV有一个很有趣的事件在佛罗伦萨，有一个ImageNet的研讨会大家都知道Geoffrey Hinton, Alex Krizhevsky和Ilya Sutskever大幅度领先所以大家都在等着这个演讲计算机视觉领域的绝大部分人完全不知道卷积神经网络是什么东西事实上他们听我谈过这个东西我在2000年的CVPR上被邀请去做一个关于这个的演讲但是大部分人没有给予很大的关注资深的人员知道，但是这个领域的年轻人就不太知道这是什么了所以当Alex Krizhevsky做演讲的时候，他并没有解释什么是卷积网络因为他认为每个人都知道因为他从机器学习领域来，所以当他说这些东西是如何连接它是如何转换数据，并且得到了什么结果的时候它还是觉得每个人都知道这是什么大量的人都觉得很震惊并且你能看到当他在做演讲的时候，台下的人观念的转变特别是资深的研究人员。 —
所以你觉得那场研讨会对于计算机视觉领域是一个决定的时刻
是的当然是的这就是它如何发生的
现在，你依然在纽约大学做教授并且带领Facebook的人工智能研究院(FAIR) 我知道你一定对如何让学术研究和工业界合作有独特的方法你能跟我们分享下这方面的想法吗
是的，这其中最美妙的事情在于在我过去4年中领导Facebook人工智能研究院的过程中我有很大的自由度，去把他建构成我觉得合适的样子因为这是在Facebook内部第一个研究机构 Facebook是一个以工程为导向的公司到现在为止，他都在专注于生存和短期的事情 Facebook已经10岁了，也有了成功的上市并且正在思考未来的10年我的意思是Mark在思考未来10年中什么是最重要的事情公司的生死已经不是一个问题了所以这是一个转变发生的时候，一家大公司开始思考应该说当时也不是特别大 Facebook那时候有5000人，但是他们有这个资格去思考未来10年，思考什么对科技发展更加重要。。 Mark和他的团队觉得人工智能是很重要的一环，对于Facebook要 “链接所有人”的这个使命来说所有他们探索了很多方式，去赋能人工智能他们有一个小的内部工程团队对卷积网络很有经验也在人脸识别和其他方向得到了很好的结果，这激起了他们的兴趣所以他们探索着雇佣了一批年轻的研究人员，也收购了公司，或者类似的事情最终他们定下来要去雇佣在这个领域有资深经验的人并且建立一个研究机构
刚开始确实有一点文化冲击因为做研究的方法是与在公司中做工程完全不同的你会思考更长的时间和更广的空间研究人员倾向于保守地选择所要研究的方向我在开始就很明确的一点是，研究人员应该保持开放的态度研究人员不仅需要鼓励将成果发表更需要将发表作为一种要求并且需要能被类似我们衡量学术研究的评估方式去衡量研究成果所以Mark和公司的CTO， Mike Schiroepfer, 也是我现在的上司他们说，Facebook是一个开放的公司我们贡献了很多的开源产品。
你知道，Mike Schiroepfer，我们的CTO 就是来自开源社区他之前在Mozilla工作，也有很多人都从那边过来。所以这种开放是根植在公司的DNA中的，这也使得我对于建立这个开放的研究院感到自信另外事实上Facebook也不会像其他公司一样对专利太过痴迷和强迫这也使公司更利于和大学间进行合作可以安排一些人一边身在工业界工作，另一边也和学术界保持联系。

你对那些想要进入人工智能这个领域的人有什么建议？
哈哈现在和我当时刚开始的时候已经大不相同了但是我觉得现在非常棒的事情是：人们一定程度上可以更容易的参与进来工具现在已经变得很容易使用，像TensorFlow，PyTorch 你可以用卧室的廉价电脑运行这些软件并且可以训练你的卷积神经网络，循环神经网络等等也有很多工具你可以通过线上材料学到很多，这不会太繁重所以你会看到高中学生现在开始学习这个这真的很棒，我觉得这确实在学生群体中引起了学习机器学习和人工智能的兴趣对年轻人来说这很令人兴奋，我觉得很棒所以我的建议是，如果你想进入这个领域，就要让自己变得有用比如，贡献自己的力量给开源社区或者去实现一些网上找不到的标准算法并把他们贡献出来让别人去使用拿一篇你觉得很重要的文章并去重新实现里面的算法，把他放到开源社区中去或者去贡献某些开源项目如果你写的东西很有趣，也有用，你就会被关注到也许你会在一个你心仪的公司有一个好的工作或者你会被你心水的PhD项目录取我觉得这是一个好的开始
嗯给开源社区做贡献是一个进入社区的好的方式，把学到的知识回馈给别人

week2 经典案例

It turns out that a neural network architecture that works well on one computer vision tasks

often works well on other tasks as well, such as maybe on your task.

classic networks：

LeNet-5 1980s，

在这篇论文写成的那个年代，人们更喜欢使用平均池化，而现在我们可能用最大池化更多一些。

LeNet-5的论文是在1998年撰写的，当时人们并不使用padding，这就是为什么每进行一次卷积，图像的高度和宽度都会缩小，

在现在的版本中则使用softmax函数输出10种分类结果，而在当时，LeNet-5网络在输出层使用了另外一种，现在已经很少用到的分类器。
相比现代版本，这里得到的神经网络会小一些，只有约6万个参数。而现在，我们经常看到含有一千万到一亿个参数的神经网络，比这大1000倍的神经网络也不在少数。

对于那些想尝试阅读论文的同学，我再补充几点。

过去，人们使用sigmod函数和tanh函数，而不是ReLu函数。

另外，这种网络结构的特别之处还在于，各网络层之间是有关联的，这在今天看来显得很有趣。

由于在当时，计算机的运行速度非常慢，为了减少计算量和参数，经典的LeNet-5网络使用了非常疯狂的计算方式，不同滤波器会处理输入块的不同通道。论文中提到的这些复杂细节，现在一般都不用了。

最后一件以前做现在没有再做的事是，原始LeNet-5在池化后有非线性处理，在这个例子中，池化层之后使用了sigmod函数。

原文的后几段介绍了另外一种思路。文中提到的这种图形变形网络（GTN）如今并没有广泛应用，所以在读这篇论文的时候，我建议精读第二段，这段重点介绍了这种网络结构。泛读第三段，这里面主要是一些有趣的实验结果。

AlexNet is often cited in VGG

AlexNet，是以论文的第一作者Alex Krizhevsky的名字命名的，另外两位合著者是ilya Sutskever和Geoffery Hinton。

实际上，这种神经网络与LeNet有很多相似之处，不过AlexNet要大得多。正如前面讲到的LeNet或LeNet-5大约有6万个参数，而AlexNet包含约6000万个参数。

AlexNet有非常相似的基本构造模块，但是AlexNet比LeNet表现更为出色，因为：

参数量大、有更多隐藏单元
在更多数据上训练，AlexNet在ImageNet数据库上训练
使用了ReLu激活函数

如果你对深度学习的历史感兴趣的话，我认为在AlexNet之前，深度学习已经在语音识别和其它几个领域获得了一些关注，但正是通过这篇论文，计算机视觉群体开始重视深度学习，并确信深度学习可以应用于计算机视觉领域。此后，深度学习在计算机视觉及其它领域的影响力与日俱增。

AlexNet网络结构看起来相对复杂，包含大量超参数，这些数字（55×55×96、27×27×96、27×27×256……）都是Alex Krizhevsky及其合著者不得不给出的。

VGG -16

值得注意的一点是，VGG-16网络没有那么多超参数，conv层和max pooling层超参数固定。

VGG-16的这个数字16，指该网络有16层带权重的层

总共包含约1.38亿个参数，即便以现在的标准来看都算是很大的网络。但VGG-16结构的简洁性也非常吸引人，看得出结构相当统一，都是几个卷积层后面跟着可以压缩图像大小的池化层，池化层缩小图像的高度和宽度。同时，卷积层的过滤器数量变化存在一定的规律，由64翻倍变成128，再到256和512。作者可能认为512已经足够大了，所以后面的层就不再翻倍了。

有些文章还提到了VGG-19网络，甚至比VGG-16还要大，更多细节可以参考幻灯片下方的注文，阅读由Karen Simonyan和Andrew Zisserman 2015撰写的论文。由于VGG-16的表现几乎和VGG-19不分高下，所以很多人还是会使用VGG-16。我最喜欢它的一点是，文中揭示了，随着网络的加深，图像的高度和宽度都在以一定的规律不断缩小，每次池化后刚好缩小一半，而通道数量在不断增加，而且刚好也是在每组卷积操作后增加一倍。也就是说，图像缩小的比例和通道数增加的比例是有规律的。从这个角度来看，这篇论文很吸引人。

ResNet

太深的神经网络是很难训练的，因为存在梯度消失和梯度爆炸问题。这节课我们学习跳跃连接（skip connection/ shorcut），它可以从某一层网络层获取激活，然后迅速反馈给另外一层，甚至是神经网络的更深层。利用这个技巧，我们可以训练深度网络的ResNets，有时深度能够超过100层，让我们开始吧。
ResNets是由残差块（Residual block）构建的，首先我解释一下什么是残差块。

这里的每个节点，都应用一个线性方程和一个ReLU。

ResNet的发明者是何凯明（Kaiming He）、张翔宇（Xiangyu Zhang）、任少卿（Shaoqing Ren）和孙剑（Jiangxi Sun），他们发现使用残差块能够训练更深的神经网络。所以构建一个ResNet网络就是通过将很多这样的残差块堆积在一起，形成一个深层网络，我们来看看这个网络。

这是一个普通网络（Plain network），这个术语来自ResNet论文。

如果我们使用标准优化算法训练一个普通网络，比如说梯度下降法，或者其它热门的优化算法。如果没有残差，没有这些捷径或者跳跃连接，凭经验你会发现随着网络深度的加深，训练错误会先减少，然后增多。而理论上，随着网络深度的加深，应该训练得越来越好才对。也就是说，理论上网络深度越深越好。

in reality，对于一个普通网络来说，深度越深意味着用优化算法越难训练。

但有了ResNets就不一样了，即使网络再深，训练的表现还不错，就算是训练超过100层的网络也不例外。有人甚至在1000多层的神经网络中做过实验，尽管目前我还没有看到太多实际应用。但是对 x 的激活，或者这些中间的激活能够到达网络的更深层。这种方式确实有助于解决梯度消失和梯度爆炸问题，让我们训练更深网络，而不会看到性能倒退的现象。

尽管可能在某一个点会达到平原阶段，这时候就算再加层也不会有帮助。

why resnet work ?

在训练集上的出色表现通常来是，你出色地控制你在训练集上的深度为前提条件。

注意如果使用L2正则化或权重衰减，会压缩W^[l+2]的值，这里W是关键项（key term）

结果表明，残差块学习这个恒等式函数并不难，跳跃连接（skip connection）使我们很容易得出a^[l+2]=a^[l]。这意味着，将这两层加入到你的神经网络，it doesn't really hurt your neural network's ability to do as well as this simpler network without these two extra layers,

Andrew认为残差网络起作用的主要原因就是这些残差块学习恒等函数非常容易，至少不会降低网络的性能，因此创建类似残差网络可以提升网络性能。

另一个值得探讨的细节是，我们是假定z^[l+2]和a^[l]具有相同纬度，所以ResNets使用了许多same卷积（same convolutions）。（如上图红色标记）如果输入和输出有不同纬度，例如输入是128，输出是256，需要进行padding，使用0填充。

你需要做的是增加一个额外的矩阵 Ws，Ws could be a matrix of parameters we learned, 或者 a fixed matrix that just implements zero paddings that takes a[l] and then zero pads it to be 256 dimensional , either of those versions I guess could work.

ResNets网络常用的结构是：卷积层-卷积层-卷积层-池化层-卷积层-卷积层-卷积层-池化层……依此重复。直到最后，有一个通过softmax进行预测的全连接层。以上就是ResNets的内容。

1×1 卷积

在架构内容设计（designing content architectures）方面，其中一个比较有帮助的想法是使用1×1卷积。

1×1卷积所实现的功能是遍历这36个单元格，计算左图中32个数字和过滤器中32个数字的元素积之和，然后应用ReLU非线性函数。

所以1×1卷积可以从根本上理解为对这32个不同的位置都应用一个全连接层，输入32个数字 ,输出 #filters（过滤器数量），以便在输入层上实施一个非平凡计算（non-trivial computation）。

这种方法通常称为1×1卷积，有时也被称为Network in Network，在林敏、陈强和颜水成的论文中有详细描述。虽然论文中关于架构的详细内容并没有得到广泛应用，但是1×1卷积或Network in Network这种理念却很有影响力，很多神经网络架构都受到它的影响，包括下节课要讲的Inception网络。

下面介绍1×1卷积的一个应用：

If you want to shrink the height and width,you can use a pooling layer,

当你想shrink the channel的时候，

当然你也可以保持输出channel数不变，如上图红色标记。1×1卷积层就是这样实现了一些重要功能的（doing something pretty non-trivial），它给神经网络添加了一个非线性函数。1×1卷积的思想对构建Inception网络很有帮助。

Inception

构建卷积层时，你要决定过滤器的大小究竟是1×1，3×3还是5×5，或者要不要添加池化层。而Inception网络的作用就是代替你来决定，虽然网络架构因此变得更加复杂，但网络表现却非常好。

为了匹配所有维度，我们需要对最大池化使用padding，它是一种特殊的池化形式，因为如果输入的高度和宽度为28×28，则输出的相应维度也是28×28。然后再进行池化，padding不变，步幅为1。

这就是Inception网络的核心内容，提出者包括Christian Szegedy、刘伟、贾扬清、Pierre Sermanet、Scott Reed、Dragomir Anguelov、Dumitru Erhan、Vincent Vanhoucke和Andrew Rabinovich。

基本思想是Inception网络不需要人为决定使用哪个过滤器或者是否需要池化，而是由网络自行确定这些参数，你可以给网络添加这些参数的所有可能值，然后把这些输出连接起来，让网络自己学习它需要什么样的参数，采用哪些过滤器组合。

不难发现，我所描述的Inception层有一个问题，就是计算成本，下一张幻灯片，我们就来计算这个5×5过滤器在该模块中的计算成本。

你可能会问，仅仅大幅缩小表示层规模会不会影响神经网络的性能？

事实证明，只要合理构建瓶颈层，你既可以显著缩小表示层规模，又不会降低网络性能，从而节省了计算。

这就是一个Inception模块，而Inception网络所做的就是将这些模块都组合到一起。

这是一张取自Szegety et al的论文中关于Inception网络的图片，你会发现图中有许多重复的模块，可能整张图看上去很复杂，

有的前面加了一个额外的最大池化层来修改高和宽的维度。（红色小箭头）

事实上，如果你读过论文的原文，你就会发现，这里其实还有一些分支，我现在把它们加上去。所以这些分支有什么用呢？

在网络的最后几层，通常称为全连接层，在它之后是一个softmax层来做出预测。这些分支所做的就是 it takes some hidden layer and it tries to use that to make a prediction. 所以这其实是一个softmax输出。

你应该把它看做Inception网络的一个细节，它的作用是用来保证所计算的特征值，即使他们是在最头部的单元里或者在中间层里，他们对于预测结果来说不算太差。它在Inception网络中，起到一种调整的效果，并且能防止网络发生过拟合。

还有这个特别的Inception网络是由Google公司的作者所研发的，它被叫做GoogleLeNet，这个名字是为了向LeNet网络致敬。

最后，有个有趣的事实，Inception网络这个名字又是缘何而来呢？

Inception的论文特地提到了这个meme（网络用语即“梗”），就是“我们需要走的更深”（We need to go deeper），论文还引用了这个网址（http://knowyourmeme.com/memes/we-need-to-go-deeper），连接到这幅图片上，如果你看过Inception（盗梦空间）这个电影，你应该能看懂这个由来。作者其实是通过它来表明了建立更深的神经网络的决心，他们正是这样构建了Inception。我想一般研究论文，通常不会引用网络流行模因（梗），但这里显然很合适。

Inception模块已经衍生了许多新的版本。所以在你们看一些比较新的Inception算法的论文时，会发现人们使用这些新版本的算法效果也一样很好，比如Inception V2、V3以及V4，还有一个版本引入了跳跃连接ResNet的方法，有时也会有特别好的效果。

MobileNet

顾名思义，这是一种适用于移动(mobile)设备的神经网络。移动设备的计算资源通常十分紧缺，因此，MobileNet对网络的计算量进行了极致的压缩。

减少卷积运算量

再回顾一遍，一次卷积操作中主要的计算量如下：

一般来说计算量都会少10倍。

网络结构 MobileNet Architecture

知道了MobileNet的基本思想，我们来看几个不同版本的MobileNet。

MobileNet v1、MobileNet v2

两个改进：

残差连接
扩张(expansion)操作

残差连接和ResNet一样。这里我们关注一下第二个改进。

扩展因子 6 （A factor of expansion of 6 ）在 MobileNet v2 中非常典型，它将维度增加了六倍，

在 MobileNet v2 瓶颈块中，最后一步操作也叫做投影，because you're projecting down from nxnx18 down to nxnx3.

这种架构很好地解决了性能和效果之间的矛盾：在模块之间，数据的通道数只有3，占用内存少；在模块之内，更高通道的数据能拟合更复杂的函数。

在移动设备上部署时，在edge device上，往往会受到沉重的内存限制。瓶颈块使用逐点卷积或投影操作将其投影回来，缩小到一组较小的值，以便当您将其传递给下一个block时，存储这些值所需的内存量减少了。

EfficientNet

EfficientNet能根据设备的计算能力，自动调整网络占用的资源。

让我们想想，哪些因素决定了一个网络占用的运算资源？我们很快能想到下面这些因素：

图像分辨率 high resolution image
网络深度 deeper
特征的长度（即卷积核数量或神经元数量） make the layers wider

compound scaling复合缩放

在EfficientNet中，我们可以在这三个维度上缩放网络，动态改变网络的计算量。EfficientNet的开源实现中，一般会提供各设备下的最优参数。

Practical Advice for using ConvNets

using open-source implementations

事实证明许多神经网络都很难复现，因为许多关于调整hyperparameters的细节。最好的学习方法是找到别人的开源代码，在现有代码的基础上学习。

深度学习的开源代码一般在GitHub上都能找到。如果是想看PyTorch实现，可以直接去GitHub上搜索OpenMMLab。

这个代码是按照MIT 开源许可协议开发的，MIT 开发许可协议是最宽松的开源协议之一。

你只需要输入 git clone 然后粘贴刚才复制的链接

Transfer learning 使用迁移学习

导入别人训练好的模型里的权重为初始权重，加速我们自己模型的训练。

还是以多分类任务的迁移学习为例（比如把一个1000分类的分类器迁移到一个猫、狗、其他的三分类模型上）。

方法1：你能做的是去掉其softmax层然后创造自己softmax层来输出Tigger/Misty/其他。in terms of the network，我建议你考虑冻结（前面）这些层，因此可以只训练与你自己softmax层有关的参数。用别人的pretrained weight，即使在很小的数据库上也可能得到很好的性能。你可以把前面某些层这样设置（可训练参数为零）

方法2：（预计算）训练集所有样本（激活结果）并存到硬盘上，然后训练右边的softmax类别。（图中紫色的标注）。预计算的好处是，你不需要在训练集上每次迭代都重新计算这些激活结果

你数据越多、所冻结的层数可以越少

当然，可以多删除几个较深的层，也可以尝试加自己的网络结构。

在所有深度学习应用的领域中，我认为计算机视觉是一个你应该always尝试迁移学习的领域。除非你有海量的数据集和运算资源。

数据增强

由于CV任务总是缺少数据，数据增强是一种常见的提升网络性能的手段。

但是我认为如今, 计算机视觉的状态是对于绝大多数的问题,我们总是不能获得足够的数据，这点对机器学习应用来说并不总是成立, 但对计算机视觉来说是成立的

常见的数据增强手段有：.

垂直镜像
随机裁剪。但是随机裁剪并不是一种完美的数据增强方式.，假如你随机裁剪下那块看起来不像猫的一片，but in practise，it works well，只要随机裁剪的部分占原图片的相当大一部分.

理论上，还可以。实践中这些方法不那么常用,：

第二类常用的数据增强方式是色彩变化. 比如对三个颜色通道都随机加一个扰动。

在实践中, 红绿蓝的数值是通过些概率分布来获得的.

这样做的出发点是有时候日光有点偏黄,

使得学习算法在应对图像色彩变化时健壮性更好.

有不同的方式来采样红绿蓝通道值. 其中一种色彩干扰的算法被称为PCA.

数据增强有一些实现上的细节：

数据的读取及增强是放在CPU上运行的，训练是放在CPU或GPU上运行的。这两步其实是独立的，可以并行完成。最常见的做法是，在CPU上用多进程（发挥多核的优势）读取数据并进行数据增强，之后把数据搬到GPU上训练。

计算机视觉的现状与相关建议

深度学习已经成功地应用于计算机视觉、自然语言处理、语音识别、在线广告、物流还有其他许多问题。对于深度学习在计算机视觉中的应用及现状有几个独特的方面。

在这个视频中，我将和你们分享一些我对深度学习在计算机视觉方面应用的认识，希望能帮助你们更好地理解计算机视觉作品（此处指计算机视觉或者数据竞赛中的模型）以及其中的想法，以及如何自己构建这些计算机视觉系统。

你可以认为大部分机器学习问题是介于少量数据和大量数据范围之间的。举个例子，我认为今天我们有相当数量的语音识别数据，至少相对于这个问题的复杂性而言。虽然现在图像识别或图像分类方面有相当大的数据集，因为图像识别是一个复杂的问题，通过分析像素并识别出它是什么，感觉即使在线数据集非常大，如超过一百万张图片，我们仍然希望我们能有更多的数据。还有一些问题，比如目标检测，我们拥有的数据更少。提醒一下，图像识别告诉你这张图是不是猫，而对象检测则是看一幅图，你画一个框，告诉你图片里的物体，比如汽车等等。因为获取边框的成本比标记对象的成本更高，所以我们进行对象检测的数据往往比图像识别数据要少，对象检测是我们下周要讨论的内容。

如果纵观机器学习问题的谱系，你会发现一般情况下当你有很多数据时候你往往会发现人们、差不多使用比较简单的算法以及更少的人工设计也就可以了，因为不太需要针对问题来仔细地设计特征。当你有大量的数据时，只要有一个大型的神经网络，甚至一个更简单的架构，就让神经网络可以去学习。

相反当你没有那么多的数据时，那时你会看到人们做更多的“人工设计"，也就是你有很多小技巧可用（在机器学习或者深度学习中，一般更崇尚更少的人工处理，而手工工程更多依赖人工处理）。但我认为你没有太多数据时，手工工程实际上是获得良好表现的最佳方式。

所以当我看机器学习应用时，通常我们的学习算法有两种知识来源：1.标记的数据，就像( x,y )应用在监督学习。2.手工工程，有很多方法去建立一个手工工程系统，它可以是源于精心设计的特征、精心设计的网络体系结构、或是系统的其他组件。所以当你没有太多标签数据时，你只需要更多地考虑手工工程。

所以我认为计算机视觉正试图学习一个非常复杂的函数，我们经常感觉我们没有足够的数据，尽管数据集正在变得越来越大，通常我们还是没有满足需要的那么多的数据。这就是为什么计算机视觉，从过去甚至到现在都更多地依赖于手工工程。我认为这也是计算机视觉领域，开发了相当复杂的网络结构的原因。

我并不是在贬低手工工程，当你没有足够的数据时，手工工程是一项非常困难，非常需要技巧的任务，它需要很好的洞察力，那些对手工工程有深刻见解的人将会得到更好的表现。当你没有足够的数据时，手工工程对一个项目来说贡献就很大。当你有很多数据的时候我就不会花时间去做手工工程，我会花时间去建立学习系统。但我认为从历史而言，计算机视觉领域还只是使用了非常小的数据集，因此从历史上来看计算机视觉还是依赖于大量的手工工程。甚至在过去的几年里，计算机视觉任务的数据量急剧增加，我认为这导致了手工工程量大幅减少，但是在计算机视觉上仍然有很多的网络架构使用手工工程，这就是为什么你会在计算机视觉中看到非常复杂的超参数选择，比你在其他领域中要复杂的多。实际上，因为你通常有比图像识别数据集更小的对象检测数据集，当我们谈论对象检测时，其实这是下周的任务，你会看到算法变得更加复杂，而且有更多特定化的组件。

所幸的是当只有很少量数据时有一个能提供很大帮助的东西就是迁移学习。这是另一套技术，被大量使用于只有相对很少数据的情况

对于计算机视觉的研究者来说如果你在基准数据上做得很好，那就更容易发表论文。积极的一面是，它有助于整个社区找出最有效得算法。但是你在论文上也看到，人们所做的事情让你在数据基准上表现出色，但你不会真正部署在一个实际得应用程序用在生产或一个系统上。

下面是一些有助于在基准测试中表现出色的小技巧，但如果我要将一个系统放到实际服务客户的产品中、这些东西我自己基本上是不曾也不会用的

其中一个是集成，这就意味着在你想好了你想要的神经网络之后，可以独立训练几个神经网络，并平均它们的输出。比如说随机初始化三个、五个或者七个神经网络，然后训练所有这些网络，然后平均它们的输出。不要平均他们的权重，这是行不通的。看看你的7个神经网络，它们有7个不同的预测，然后平均他们，这可能会让你在基准上提高1%，2%或者更好。但因为集成意味着要对每张图片进行测试，你可能需要在从3到15个不同的网络中运行一个图像，这是很典型的，因为这3到15个网络可能会让你的运行时间变慢，甚至更多时间，所以技巧之一的集成是人们在基准测试中表现出色和赢得比赛的利器，但我认为这几乎不用于生产服务于客户的，我想除非你有一个巨大的计算预算而且不介意为每一幅客户的图像烧掉更多的钱

另外一个你在文章中看到真正有助于基准数据测试的东西, Multi-crop at test time 测试时使用多重剪切(multi-crop),Multi-crop是一种将数据扩充应用到你的测试图像中的一种形式。

你要做的就是，通过你的分类器来运行这十张图片，然后对结果进行平均。如果你有足够的计算预算，你可以这么做，或许你并不需要10次剪切那么多，你可以使用若干次剪切，这也许能为一个产品化的系统带来些许性能提升. 但这是另一种技术，它在基准测试上的应用，要比实际生产系统中好得多。

集成的一个大问题是你需要保持所有这些不同的神经网络，这就占用了更多的计算机内存。对于multi-crop，我想你只保留一个网络，所以它不会占用太多的内存，但它仍然会让你的运行时间变慢。

因为很多计算机视觉问题是在拥有少量数据的范畴,前人已经对网络结构做了大量的人工处理. 一个神经网络在某个计算机视觉问题上很有效，但令人惊讶的是它通常也会解决其他计算机视觉问题。

由于计算机视觉问题建立在小数据集之上，其他人已经完成了大量的网络架构的手工工程。一个神经网络在某个计算机视觉问题上很有效，但令人惊讶的是它通常也会解决其他计算机视觉问题。

所以，要想建立一个实用的系统，你最好先从其他人的神经网络架构入手。如果可能的话，你可以使用开源的一些应用，因为开放的源码实现可能已经找到了所有繁琐的细节，比如学习率衰减方式或者超参数。

最后，其他人可能已经在几路GPU上花了几个星期的时间来训练一个模型，训练超过一百万张图片，所以通过使用其他人的预先训练得模型，然后在数据集上进行微调，你可以在应用程序上运行得更快。当然如果你有电脑资源并且有意愿，我不会阻止你从头开始训练你自己的网络。事实上，如果你想发明你自己的计算机视觉算法，这可能是你必须要做的。

这就是本周的学习，我希望通过了解一定数量的计算机视觉架构能够有助于你对什么网络能奏效的的感觉有一些帮助

你可能感兴趣的:(机器学习,深度学习,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio