码农研究僧

Deep Residual Learning for Image Recognition （ResNet）论文详细解读

前言

更深的神经网络更加难以训练，残差网络主要用来减轻训练的网络，这些网络比之前使用的网络都要深得多

在ImageNet的的数据集中网络层数达到了152层，前一年夺冠的VGG只有19层。在COCO物体检测数据集上获得了28%的相对改进

在以往的知识中，深度学习层数越深，提取的特征越多。如下图所示，并非网络层数越多越好。

引起这部分的原因，这种现象主要是退化：随着网络层数的加深，准确性会达到饱和，梯度传播过程中会逐渐消失，导致无法对前面的网络层权重进行调整，训练误差加大，结果也随之变差。（并非过拟合，如果过拟合，训练的时候误差很小，但是测试的时候误差就很大）

此处也不是梯度消失（本身就没有学习，更新的比较慢，不会收敛）
但此处的训练数据error有在下降，而且趋近收敛

梯度的消失或者爆炸可以通过 适当的权重初始化 + BN 来加快网络收敛

1. 设计理念

为了解决上面提到的退化，引入一个深度残差网络
（理论上深层次网络和浅层的网络性能一样，但现实卷积层层数越到后面会出现退化）

明白退化的原因以及如何改进，整体训练过程中随着层数的加深出现梯度消失，为了防止梯度消失，在某些卷积层中已经是最优解了，本身没有必要在训练（可将其丢弃），即F（x）= 0，输出的结果就是H(x)=x，让其作为恒等映射。

整体的网络架构如下：
使用两层卷积加relu激活函数，经过第一层的时候输出F（x），之后在经过第二层（此处增加了shortcut connection），将其shortcut connection连接到第二层的激活函数之前，输出结果变为H(x)=F(x)+x（恒等映射）

如图所示：（shortcut connection）

大致参数如下：

参数	描述
x	输入
F（x）	残差
identity	恒等映射

在最后一层 weight layer后不使用激活函数，将与短路连接后的恒等映射，两者求和在使用Relu激活函数
（残差网络 + 恒等映射，求和后使用激活函数）

之所以这样设计，因为越到后面的层次可能学习的特征已经很少了。输入x值，学习到的特征标记为H（x），残差网络F（x）为H(x)−x，则对应输出的结果H（x）为F(x)+x。即使残差网络F（x）为0，此处也只是恒等映射（网络性能也没有之前的增加层数而下降）
过去是拟合H（x）= x，现在拟合残差 F（x） = H（x） - x，不用关注太底层的细节

残差网络比较容易优化，普通网络架构（简单的堆叠层）在训练的时候容易出现较高的误差
残差网络随着深度的增加，准确性、精度也会提高

现在的网络主要是拟合F（x），两层网络主要是优化F（x）

所谓的残差：
也就是真实值和预测值的偏差，类似数据的回归

修正上一层的错误
防止梯度消失（以往的线性结构训练，梯度都是越来越小）

2. 核心细节

退化在深层的残差网络容易解决，但在普通的网络（堆积）训练层次error会加大
残差网络享受深层次网络的特征提取

此论文使用了两种残差网络结构，左边为浅层网络使用，右边为深层网络使用

输入输出维度一致，直接恒等映射
输入输出维度不一致，不可直接恒等映射

本身恒等映射既不会引入额外的参数量以及额外的计算量（相加可忽略不计）

具体残差的数学公式如下：（x自身输入 + 残差）

整体的残差就是先用一层网络激活，再用一层网络不激活。偏置项此处忽略了（如果卷积层加上BN就不需要加偏置项）
F与X的相加本身就是逐通道相加。求和之后在激活一次

如果本身相加的时候不是线性的（下采样的时候才需要这样做），本身加多一个参数，则公式变为：

残差网络与恒等映射维度不一致，如何相加，论文中提出了几种方案：

zero-padding （零填充）增加维度，先下采样，使用步长为2的池化，这样不会增加步数
采用projection shortcut，一般采用1 * 1的卷积（会增加参数也增加计算量）。短路连接除了使用直接恒等映射，也可采用projection shortcut

下采样的使用，多出来的通道（indentity）使用0填充
下采样的时候，将其indentity用 1* 1的卷积调整和残差一样的模块
不管下采样还是在卷积的时候，全部都用1 * 1的卷积

最后的方案是，对indentity不做任何的处理是最好的

整体的结果可参考如下：（加深的残差网络都达到了最佳的性能）

在原先的ImageNet 的实验中，残差网络也达到了验证：

3. 网络架构

总体的网络架构如下：

VGG19的架构：

总共有5个block组成，所有的卷积都是3 * 3，block的卷积核个数以此为64、128、256、512、512
每个block之间通过下采样
特征图减半，步长加倍
最后使用两个全连接层（输出1000个类别的概率）

34层的普通网络架构如下，中间的架构是加了深度：（类似递归的网络进行优化）

步长为2的下采样来取代原先的全连接层，后加一个池化层，最后输出1000个类别的概率

34层的残差网络架构如下：（整体的网络结构是在VGG19基础上，加入了残差网络）

所有的卷积都是3 * 3
每个block内卷积核数和feature map不变，feature map减半的时候，channel 步长加倍
此论文的下采样都变成2的卷积（VGG使用池化来进行下采样）
短路连接，没有增加计算量，只是增加加法运算而已（网络加深效果也更好了）
全局平均池化，每个channel求一个平均值来代替全连接层，减少计算量（VGG使用的是全连接层）

以上三种架构，主要讲解下带残差的架构

实线代表维度一样，直接相加
虚线代表维度不一样（出现了下采样，步长为2的卷积），使用残差网络

此处不同维度的相加，论文提出了两种方法：

多出来的通道补0
恒等映射做1 * 1的卷积（1* 1的卷积可以取代连接层，降维升维，减少计算量等）

不管用哪种方法，下采样都是补偿为2的卷积。

4. 实验

4.1 ImageNet 分类

图像分别随机被压缩到256到480之间，之后做图像增强

输出处理过程：用224 * 224 随机裁出一个小图，在做水平的镜像来做图像增强（不同尺度维度），10个小图汇总成一个大图（可使用多尺度裁剪和结果融合）。特别是每个像素减去均值
每个卷积层后面或者激活层之前都使用BN（BN可以加快训练和收敛速度，控制梯度爆炸和防止梯度消失，同样防止过拟合也有作用）
参数：mini-batch为256，学习率为0.1（遇到错误就除以10），训练60万的迭代次数，正则化0.0001，动量是0.9。没有使用dropout（BN和dropout不能混合使用，单独使用效果更佳）

实验结果具体如下，18层的普通网络和残差网络准确度对比：

细线：训练集上的误差
粗线：验证集上的误差

表格如下所示：

结合上面这两张图，可看出没有残差网络会造成退化（随着深度的加深），并不是梯度消失和梯度爆炸导致，本身普通的网络也使用了BN，确保了网络中前向传播有个非零的方差以及反向传播的梯度是正常的

即使用更多的批次也无法解决退化问题。这是因为“ 数据本身决定了该类问题的上限，而模型只是逼近这个上限 ”

通过两幅图也可看出，对照实验，只有残差不一样，但是34层的errror更少了，下采样的时候使用了A方案（也就是多出来的通道补0），没有引入更多的计算量

34层的残差网络比18层的残差网络更好
34层的残差网络在验证集和测试集的泛化效果好（退化问题被解决了），深度越高越好

从上面的实验证明了残差网络可以用来搭建非常深的网络，带残差的网络收敛比较快（通过曲线图，可看出一开始的斜率降的比较快）

当网络为18层的时候，SGD可以找到普通网络良好的解决方案，而ResNet在早期阶段中提供了更快的收敛来缓解优化（parameter-free, identity shortcuts可以更好的解决训练）

后续的论文结果中探讨了下采样使用恒等映射还是其他的投影处理

普通残差（恒等映射）：没有额外的参数，恒等映射（主要用于Restnet 18，Restnet 24）
bottleneck残差模块（后续章节提及此架构）：先用1* 1降维，再用3* 3 处理数据，再用1 * 1升维（主要用于Restnet 50，Restnet 101，Restnet 152）

以下表格主要提供了几种方案，主要用来对比

ResNet - 34 A：所有的shortcut都使用恒等映射，也就是多出来的通道补0，没有额外的参数
ResNet - 34 B：平时的shortcut使用恒等映射，升维的时候使用1 * 1卷积
ResNet - 34 C：所有的shortcut都使用1 * 1卷积（引入更多的参数，比较好，但是不经济）

B比A好，因为A在升维的时候用padding补零，丢失了shortcut学习，没有进行残差学习
C比B好，因为C的13个非下采样残差模块的shortcut都有参数，模型能力比较强
但是ABC都差不多，说明恒等映射的shortcut可以解决退化问题

后续使用了深度Bottleneck网络架构（考虑时间成本），输入输出都是高维，中间的处理过程为低维

深层次的网络主要用这个架构，主要用于减少计算量和参数量
1 * 1的卷积可用于降维和升维

无参数的恒等映射对于这个架构是十分重要的，本身shortcut如果引入projection，计算量还有参数量都会翻倍

深层次的残差网络：

50层的残差网络：将其34层的残差网络的2个卷积层替换成了3个bottleneck残差块，就变成了50层残差网络，下采样使用的是1 * 1 的卷积

101层残差网络，152层残差网络，数字都是带权重的残差网络。而且152的残差网络比VGG16/19的网络都要低。而且网络加深有用，没有出现退化的现象。

4.2 CIFAR-10 分析

在CIFAR-10 数据集中（32 * 32 * 3，更小的数据集），50w的训练集，10w的测试集，一共10个类别。训练集上训练，测试机上评估

为了对比普通网络和残差网络

输入的图像为32 * 32的像素，此时的图像做了预处理（每个像素减去均值）
第一个卷积层为 3 *3 ，使用6n的卷积层，分别都是3 * 3的，feature map为32 16 8。一共有6n + 2的卷积层（最后一层为池化层：1 +2n，2n，2n，1）
卷积核个数分别为32 16 8，feature map个数减半，chanel数翻倍
下采样用的是步长为2的卷积，最后加一个全局池化，10个神经元的全连接层和softmax

如图所示：

残差是由2层神经网络（每一个shortcut都由3 * 3的卷积组成）来拟合的，总共有6n，所以一共有3n的shortcut。
下采样是由0补充（下采样的残差和不带残差的计算量是一样的）
训练过程中的正则化为0.0001 ，动量化为0.9 ，论文中提出的权重进行初始化，使用了BN没有使用dropout，批次处理为128，起始的学习率为0.1，在3.2w和4.8w迭代时除以10，最终在6.4w终止训练
把训练集划分为4.5w训练和5k的验证，使用图像增强方法，分别在图像外边补4个pixel，再用32 *32 的图像进行剪裁（水平翻转的图像增强）。测试的时候，直接使用32 * 32的图像进行测试即可

当n设置为18的时候，就是110层（6 * 18 + 2）的卷及网络，训练这个网络的时候，初始值为0.1（0.1的收敛太大），所以一开始使用0.01去预热，使得训练误差降到80%（大概在400个迭代次数），再回到0.1进行训练。110层收敛很好。
上面这部分内容主要扯到两阶段学习：

小学习率预热
大学习率学习

分析每一层的网络的响应分布（残差网络是在修正输入）

响应的标准差：（std为标准差，standard）
图二只是将图一进行了排序

BN处理，均值已被调整为0。标准差衡量数据的离散程度（标准差越大，表明响应越大）
响应是每一层都是3 * 3的卷积层，介于BN后和激活之前

通过上图也可看出

网络越深，输出越小。越靠近起始层，输出越大
残差网络比普通网络输出小

超深层网络：

取n等于200 ，也就是1202的残差卷积网络（6 * 200 + 2），和之前的训练方式一样，误差小于0.1，表明了没有退化，没优化困难

但测试集的性能没有110层的好，文中表明这是过拟合了（模型太深参数过多，对于这个小数据集没有必要）

此论文没有使用maxout或者是dropout来正则化，因为核心任务是为了解决退化问题

5. 附录

应用的性能提升

5.1 目标检测（网络架构）

主要用于Faster R-CNN的骨干网络，用于分类模型初始化，之后在目标检测模型下微调

不像VGG-16，没有全连接层，主要通过这篇论文的想法Networks on Conv feature maps
全图用卷积层获取一个共享的feature maps（代表原图小于16的pixels），ResNet代表conv1, conv2_x, conv3_x, and conv4_x，将这几个层类别为VGG-16的前13个层

通过这样得到的ResNet就和VGG-16的得到的feature map 比较像（都代表原图16的像素），再用RPN对共享特征进行处理，得到300候选框，再用Faster R-CNN进行目标检测。在conv5_1之前进行了RoI 池化（不同输入大小变为同样大小的维度）
之后conv5模块以及所有层对候选框进行目标检测，有VGG-16全连接层的作用

在预训练的时候，BN已经计算好了均值和方差。训练的时候就用预训练的值，主要是为了减少内存的消耗（减去均值除以反差，变成了一个线性结果）

5.2 目标检测优化

MS COCO：
先提取候选框（两阶段）

预测框精调。回归框又提取了新的特征，新的特征可得到新的分类和新的回归框，前后两个回归框进行非极大值抑制（NMS），NMS取0.1
Global context（全图上下文），全局金字塔池化，全图特征做了pooling，之后做了全图上下文特征，再用两头网络（分类头，回归头，端对端训练）
多尺度训练。maxout（带学习参数的激活函数，上一层输出作为下一层输入，选用最大的输出），选取两个相邻尺度，不同尺度缩放为同样大小尺度，之后用maxout进行处理
使用合法的数据。比如8w数据集 +4w测试集用来训练，2w测试集用来测试
多模型集成。Faster R-CNN（两阶段：RPN选取候选框，对候选框逐一分类回归），每阶段的多模型集成都并集送到集成的分类器进行回归和分类

PASCAL VOC：（跟上面的数据集处理方法大同小异）

5.3 定位任务

图像中的类别分类出来，并且将其框定位出来（反应算法的分类和回归），定位只有一个框一个类别。定位的框只是针对类别

在这篇论文中采用了“per-class regression” (PCR)（每个类别输出一个定位框），每个定位框有4个参数。先在训练集上预训练数据集，之后在从测试集上微调这个网络

定位算法包括两种：

RPN算法
RPN + Faster RCNN网络

ResNet和RPN比较相像
RPN是由Faster RCNN用于提取候选框的网络，ResNet此处用于输出每个类别的定位结果

RPN的网络包含两个并列头（一头为 1 * 1的卷积输出1000个二分类结果，另外一头输出每个类别的定位框），每一个分类是用的二分类逻辑回归（交叉熵训练的逻辑回归）
1000个类别，每个类别的概率都是0到1，和真实的标签概率做逻辑回归
回归层要输出1000个类别，每个类别的4个边界框的位置参数，也就是1000 * 4 - d（图像中出现不同位置的物体，都可被先验框锁中。不同物体的框比如矮胖，高瘦等）

具体交叉熵逻辑回归可看如下：二元交叉熵的基本概念

224 * 224的图片进行图像增强，再用256张照片进行微调，为了防止随机裁的时候裁不到物体。8个anchor在每张图片进行随机裁剪。正负样本的比例大致为1:1，用多尺度金字塔提取特征。

如下主要和VGG进行比较：LOC （定位框）与 GT（真实框）

dense为裁剪好几个图，error也是显著降低

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option