Sonhhxg_柒

【CV】第 5 章：神经网络架构和模型

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流

个人主页－Sonhhxg_柒的博客_CSDN博客

欢迎各位→点赞 + 收藏⭐️ + 留言

系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟

文章目录

AlexNet 概述

VGG16概述

Inception概述

GoogLeNet 检测

ResNet 概述

R-CNN 概述

图像分割

基于聚类的分割

基于图的分割

选择性搜索

区域提案

特征提取

图像分类

边界框回归

Fast R-CNN 概述

Faster R-CNN 概述

GAN 概述

GNN 概述

光谱 GNN

强化学习概述

迁移学习概述

概括

卷积神经网络( CNN ) 是计算机视觉中用于分类和检测对象的最广泛使用的工具。CNN 通过堆叠许多不同的线性和非线性函数层将输入图像映射到输出类或边界框。线性函数由卷积层、池化层、全连接层和 softmax 层组成，而非线性层是激活函数。神经网络有许多不同的参数和权重因子，需要针对给定的问题集进行优化。随机梯度下降和反向传播是训练神经网络的两种方式。

在第 4 章“图像深度学习”中，您学习了一些基本的编码技能来构建和训练神经网络，并了解了神经网络不同层内特征图的视觉转换。在本章中，您将深入了解神经网络架构和模型背后的理论，并理解诸如深度神经网络饱和、梯度消失问题、大参数集导致的过度拟合等关键概念。这将帮助您为研究目的创建自己的有效模型，并遵循接下来几章中将这些理论应用于代码的主题。

本章涵盖的主题如下：

AlexNet 概述
VGG16概述
Inception概述
ResNet 概述
R-CNN 概述
Fast R-CNN 概述
Faster R-CNN 概述
GAN 概述
GNN 概述
强化学习概述
迁移学习概述

AlexNet 概述

AlexNet由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey E. Hinton 于 2012 年在题为ImageNet Classification with Deep Convolutional Neural Networks的论文中介绍。原始论文可在http://www.cs.utoronto.ca/~ilya/pubs/2012/imgnet.pdf找到。

这是第一次成功引入优化的 CNN 模型，以解决计算机视觉问题，涉及对来自许多不同类别（超过 22,000 个）的大量图像（超过 1500 万张）进行分类。在 AlexNet 之前，计算机视觉问题主要通过传统的机器学习方法来解决，通过收集更大的数据集并改进模型和技术以最大程度地减少过拟合来进行增量改进。

CNN 模型根据前五名错误率对错误率进行分类，这是给定图像的真实类别不在前五名预测类别中的实例的百分比。AlexNet 以 15.3% 的错误率前五名赢得了 2012 ILSVRC（ImageNet 大规模视觉识别挑战赛），大大领先于错误率 26.2% 的前五名的第二名。AlexNet 架构如下图所示：

AlexNet的基本思想总结如下：

它包含 8 个学习层——5 个卷积层和 3 个全连接层。
它使用大内核过滤器——第一层有 96 个大小为 11 x 11 的过滤器，第二层有 256 个大小为 5 x 5 的过滤器，第三和第四层有 384 个大小为 3 x 3 的过滤器，以及 256 个大小为 3 的过滤器x 3 在第五层。
在每个卷积层和全连接层之后应用 ReLU 激活层。它的训练速度比 Tanh 快得多。
Dropout 正则化应用于第一个和第二个全连接层。
通过两种数据增强技术减少过拟合：
从 256 x 256 的图像大小创建 224 x 224 的随机补丁并执行平移和水平反射
改变训练图像中 RGB 通道的强度
训练在两个 GPU 上完成——在 5 或 6 天内完成 90 个 epoch，在两个 Nvidia GeForce 高端 GTX 580 GPU 上进行训练。
softmax 层的 1000 个输出映射到 1000 个 ImageNet 类中的每一个，以预测类输出。

以下代码导入了运行 TensorFlow 后端所需的所有函数。该模型导入Sequential模型，在 Keras 中是一层层的模型结构：

from __future__ import print_function
import keras
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Conv2D, MaxPooling2D, ZeroPadding2D
from keras.layers.normalization import BatchNormalization
from keras.regularizers import l2

以下代码加载 CIFAR 数据集。

CIFAR 数据集 ( CIFAR-10 and CIFAR-100 datasets ) 有 10 个不同的类别，每个类别有 6,000 张图像。这些类别是飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。TensorFlow 具有用于导入 CIFAR 数据集的内置逻辑。

数据集由训练和测试图像组成，这些图像将用于开发模型（训练）和验证其结果（测试）。每个数据集都有两个参数x和y，分别代表图像的宽度 ( x ) 和高度 ( y )：

from keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()

神经网络有许多不同的参数，需要优化——这些也称为模型常数。F或 AlexNet，它们如下：

batch_size是32一次前向或后向传递的训练示例数。
num_classes是2。
epochs是100训练将重复的次数。
data_augmentation是True。
num_predictions是20。

让我们将输入向量转换为二进制类矩阵，因为在此示例中我们有两个类：

y_train = keras.utils.to_categorical(y_train, num_classes) 
y_test = keras.utils.to_categorical(y_test, num_classes) 
# 初始化模型
model = Sequential()

下表描述了不同 AlexNet 模型层的 TensorFlow 代码。后续章节会介绍其他模型，但创建模型的基本思路类似：

Convolution and Pooling 1

model.add(Conv2D(96, (11, 11), input_shape=x_train.shape[1:],
padding='same', kernel_regularizer=l2(l2_reg)))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2))

Convolution and Pooling 2

model.add(Conv2D(256, (5, 5), padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

Convolution and Pooling 3

model.add(ZeroPadding2D((1, 1)))
model.add(Conv2D(512, (3, 3), padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

Convolution and Pooling 4

model.add(ZeroPadding2D((1, 1)))
model.add(Conv2D(1024, (3, 3), padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))

以下列表中描述了关键模型配置参数。这应该为您提供训练神经网络模型需要优化的参数的高级概述：

Model compilation：模型开发完成后，下一步就是使用 TensorFlow 编译模型。对于模型编译，我们需要定义两个参数：
Loss function：损失函数确定模型值与实际结果的接近程度。分类交叉熵是最常见的损失函数——它使用输出值在 0 到 1 之间的对数尺度来确定损失，其中输出小表示差异小，输出大表示差异大。另一个可以使用的损失函数是 RMS（均方根）损失函数。
Optimizer：优化器微调模型的参数以最小化损失函数。Adadelta 优化器根据过去梯度的移动窗口微调学习率。其他常用的优化器是 Adam 优化器和 RMSprop 优化器。

以下代码展示了如何在 Keras 中的模型编译期间使用优化器：

model.compile(loss = 'categorical_crossentropy',
              optimizer = keras.optimizers.Adadelta(),
              metrics = ['accuracy'])

模型构建完成后，模型必须通过上述方法编译后才能用于预测（model.predict()）。

请注意，在本节中，我们研究了 AlexNet，它在 2012 年赢得了 ILSVRC 比赛。2013 年，开发了一个更新版本的 AlexNet，称为 ZFNet，它与 AlexNet 一样使用 8 层，但使用 7 x 7 过滤器而不是 11 x 11过滤器。在接下来的部分中，我们会发现使用较小的滤波器尺寸可以提高模型精度，因为输入图像像素信息被保留。

VGG16概述

在 2012 年 AlexNet 成功之后，越来越多的研究人员致力于改进 AlexNet 的 CNN 架构以提高准确性。焦点转移到更小的窗口大小、更小的过滤器和更小的步幅。VGG16 由 Karen Simonyan 和 Andrew Zisserman 于 2014 年在题为“用于大规模图像识别的深度卷积网络”的论文中提出。该论文可以在https://arxiv.org/abs/1409.1556阅读。

该模型在 ILSVRC-2014 的 ImageNet 中实现了 92.7% 的前五名测试准确率。

VGG16 架构如下图所示：

VGG16的基本思想总结如下：

最大过滤器尺寸为 3 x 3，最小尺寸为 1 x 1。这意味着与 AlexNet 的较大过滤器尺寸和较小数量相比，使用较小的过滤器尺寸和较大的数量；与 AlexNet 相比，这导致更少的参数。
对于 3 x 3 卷积层，卷积步幅为 1，填充为 1。最大池在 2 x 2 窗口上执行，步幅为 2。
每层使用三个非线性 ReLU 函数而不是单个函数，通过减少梯度消失问题并使网络能够深度学习，从而使决策函数更具判别力。这里的深度学习意味着学习复杂的形状，比如边缘、特征、边界等等。
参数总数为1.38亿。

Inception概述

在引入初始层之前，大多数 CNN 架构都有一个标准配置——堆叠（串联）卷积、归一化、最大池化和激活层，然后是全连接和 softmax 层。这种架构导致神经网络的深度增加，但存在两个主要缺点：

过拟合
增加计算时间

初始模型通过从密集网络移动到稀疏矩阵并将它们聚类以形成密集子矩阵来解决这两个问题。

初始模型也称为 GoogLeNet。它是由 Christian Szegedy、Wei Liu、Yangqing Jia、Pierre Sermanet、Scott Reed、Dragmir Anguelov、Dumitru Erhan、Vincent Vanhoucke 和 Andrew Rabinovich 在题为Going Deeper with Convolutions的论文中介绍的。盗梦空间的名称来自于林敏、陈强、严水成的论文网络中的网络和著名的网络模因我们需要更深入。初始论文和Network in Network论文的链接如下：

Inception：https : //arxiv.org/abs/1409.4842
Network in Network：https ://arxiv.org/abs/1312.4400

在论文Network In Network中，作者没有在输入图像上使用传统的线性滤波器，而是构建了一个微神经网络，并以类似于 CNN 的方式将其滑过输入图像。通过将这些层中的几个堆叠在一起来构建深度神经网络。微神经网络（也称为多层感知器）由多个具有激活函数的全连接层组成，如下图所示：

左图显示了传统 CNN 中的线性滤波器，将输入图像连接到下一层。右图显示了微网络，由多个全连接层组成，后跟一个将输入图像连接到下一层的激活函数。这里的inception层是NIN的逻辑顶点，描述如下：

inception 架构的主要思想是基于找出如何用现成的密集组件（3 x 3 和 5 x 5）补充 CNN 中的最佳局部稀疏（多个 1 x 1 并行）结构。初始论文的作者通过使用 1 x 1 卷积与 3 x 3、5 x 5 卷积和池化层并行找到了答案。一个额外的 1 x 1 卷积后跟 ReLU 可以被认为等同于 NIN 微网络。1 x 1 卷积用作降维机制，还有助于增加网络的宽度（通过并排堆叠）及其深度。在同一层（初始层）内同时并行部署具有多个过滤器和池化层的多个卷积会导致该层成为宽度增加的稀疏层。由于内核尺寸较小，1 x 1 卷积的过拟合较少。
目的是让神经网络在训练网络时学习到最佳权重，并自动选择更有用的特征。

为了进一步降低维度，在 3 x 3 和 5 x 5 卷积之前使用了 1 x 1 卷积，如下图所示：

上图显示，在 3 x 3 和 5 x 5 层之前使用 1 x 1 层会导致大约 30% 的降维，从 672（左图（a））到 480（右图（b）） . 下图显示了完整的初始网络。下图中间部分描述的完整inception层太大，一页都放不下，所以已经压缩了。不要试图在这里阅读图表的每个元素，而是要了解重复内容的整体概念。inception层的关键重复模块被放大了，如下图的顶部和底部所示：

该网络由以下部分组成：

具有 128 个滤波器的 1 x 1 卷积，用于降维和校正线性激活
具有 1,024 个单元和 ReLU 激活的全连接层
丢弃输出比例为 70% 的 dropout 层
以 softmax loss 作为分类器的线性层（预测与主分类器相同的 1,000 个类，但在推理时移除）

下图说明了 CNN 过滤器及其在初始网络中的相应连接：

在上图中，深度连接层既可以连接到最大池层，也可以直接连接到 1 x 1 卷积层。无论哪种方式，之后的计算都遵循与上图所示相同的模式。

GoogLeNet 检测

inception网络（也称为GoogLeNet ）改进了循环卷积神经网络（R-CNN）的两阶段层（基于颜色、纹理、大小和形状的区域提议，然后是 CNN 进行分类）提议。

首先，它用改进的 CNN 初始值取代了 AlexNet。接下来，通过将选择性搜索（在 R-CNN 中）方法与多框预测相结合以提高对象边界框召回率，改进了区域提议步骤。区域提议减少了大约 60%（从 2,000 到 1,200），同时将覆盖率从 92% 增加到 93%，导致单个模型案例的平均精度提高了 1%。总体而言，准确率从 40% 提高到 43.9%。

ResNet 概述

ResNet 由 Kaiminh He、Xiangyu Zhang、Shaoquing Ren 和 Jian Sun 在题为Deep Residual Learning for Image Recognition 的论文中介绍，旨在解决深度神经网络随着深度增加的精度下降问题。这种退化不是由过度拟合引起的，而是由于在某个临界深度之后，输出丢失了输入的信息，因此输入和输出之间的相关性开始发散，导致不准确性增加。该论文可在https://arxiv.org/abs/1512.03385找到。

ResNet-34 实现了 5.71% 的 top-5 验证错误，优于 BN-inception 和 VGG。ResNet-152 实现了 4.49% 的前五位验证错误。六个不同深度的模型的集成实现了 3.57% 的前五验证误差，并在 ILSVRC-2015 中获得第一名。ILSVRC 代表 ImageNet 大规模视觉识别竞赛；它评估了 2010 年至 2017 年的对象检测和图像分类算法。

ResNet的主要特点描述如下：

通过引入深度残差学习框架来解决退化问题。
该框架引入了快捷方式或跳过连接的概念，即跳过一层或多层。
输入和下一层之间的底层映射是H(x)。
非线性层是F(x) = H(x) – x，可以重构为H(x) = F(x)+x，其中x是恒等映射。
快捷连接简单地执行恒等映射，它们的输出被添加到堆叠层的输出中（见下图）：

上图有以下特点：

操作F(x) + x是通过快捷连接和元素添加来执行的。
身份快捷连接既不增加额外的参数，也不增加计算复杂性。

完整的 ResNet 模型如下图所示：

此处显示的 ResNet 模型比视觉几何组 (VGG)网络具有更少的过滤器和更低的复杂性。不使用辍学。各种神经网络模型的性能比较如下图所示：

上图显示以下内容：

ImageNet 大规模视觉识别挑战赛( ILSVRC )的各种 CNN 架构的得分和层数。
分数越低，性能越好。
AlexNet 的得分明显高于其任何前辈，然后在随后的每一年中，CNN 的质量随着层数越来越大而不断提高。
如此处所述，ResNet 获得了最好的分数，比 AlexNet 提高了大约四倍。

R-CNN 概述

区域特定的 CNN ( R-CNN ) 是由 Ross Girshick、Jeff Donahue、Trevor Darrell 和 Jitendra Malik 在一篇题为“用于准确对象检测和语义分割的丰富特征层次结构”的论文中介绍的。它是一种简单且可扩展的目标检测算法，与 VOC2012 之前的最佳结果相比，平均精度提高了 30% 以上。该论文可以在https://arxiv.org/abs/1311.2524阅读

VOC 代表视觉对象类（http://host.robots.ox.ac.uk/pascal/VOC），PASCAL代表模式分析统计建模和计算学习。PASCAL VOC 从 2005 年到 2012 年在对象类识别方面遇到了挑战。PASCAL VOC 注释广泛用于对象检测，它使用.xml格式。

整个对象检测模型分为图像分割、基于选择性搜索的区域提议、使用 CNN 和分类的特征提取以及使用支持向量机 (SVM)形成边界框，如下图所示：

上图显示了将道路上的汽车和自行车的输入图像转换为对象检测边界框的各个步骤。

在以下部分中，将详细描述这些步骤中的每一个。

图像分割

图像分割是将图像表示为多个区域。分割图像中的每个区域都具有相似的特征，例如颜色、纹理和强度。

基于聚类的分割

K- means 是一种无监督机器学习技术，可根据质心将相似数据分组。K- means 聚类算法的关键步骤概述如下：

选择K个数据点作为任意位置的初始聚类数。
找出每个簇质心和每个像素之间的距离，并将其分配给最近的簇。
更新每个集群的平均值。
通过更改簇质心重复此过程，直到每个像素与其关联簇之间的总距离最小化。

基于图的分割

有许多可用的基于图的分割方法，但这里为 R-CNN 描述的方法是 Pedro Felzenszwalb 和 Daniel Huttenlocher 在题为Efficient Graph-Based Image Segmentation的论文中介绍的方法。该论文可以在http://people.cs.uchicago.edu/~pff/papers/seg-ijcv.pdf阅读。

该方法涉及将图像表示为图形（本章的 GNN 概述部分给出了详细说明），然后从图中选择边，其中每个像素都链接到图中的节点并通过边连接到相邻像素. 边缘上的权重表示像素之间的差异。分割标准基于由边界分隔的图像的相邻区域的可变性程度。通过评估阈值函数来定义边界，该阈值函数表示沿边界的像素之间的强度差异与相邻像素之间的强度差异。基于区域之间边界的存在，分割被定义为粗略或精细。

选择性搜索

物体检测的主要挑战是在图像中找到物体的精确位置。图像中不同空间方向的多个对象使得很难找到图像中对象的边界。例如，一个物体可以被遮盖并且只能部分看到——例如一个人站在汽车后面；我们可以看到汽车和汽车上方的人的身体。使用选择性搜索来解决这个问题。它将整个图像划分为许多分割区域。然后它使用自下而上的方法将相似的区域组合成更大的区域。选择性搜索使用生成的区域来查找对象的位置。选择性搜索使用贪心算法根据大小、颜色和纹理将区域迭代地组合在一起。选择性搜索中使用的步骤解释如下：

首先，两个最相似的区域被评估并分组在一起。
接下来，计算结果区域和新区域之间的新相似度以形成新组。
重复对最相似区域进行分组的过程，直到该区域覆盖整个图像。

选择性搜索之后是区域提议，将在下一节中描述。

区域提案

在这个阶段，该算法使用前面描述的选择性搜索方法来提取大约 2,000 个与类别无关的区域建议。与类别无关的区域建议用于识别图像中的多个区域，以便每个对象由图像中的至少一个区域很好地表示。人类通过定位图像中的对象来自然地做到这一点，但对于机器来说，需要确定对象的位置，然后需要将其与图像中的适当区域进行匹配以检测对象。

与图像分类不同，检测涉及图像定位，以便可以创建一个适当的区域来包围对象以检测该区域内的特征。基于选择性搜索方法选择合适的区域，该方法通过基于颜色搜索然后根据纹理、大小和形状搜索来计算相似区域。

特征提取

特征提取是将相似的特征（如边、角和线）分组为特征向量。例如，特征向量将图像的维度从 227 x 227 (~51,529) 降低到 4,096。每个区域提案，无论其大小，首先通过膨胀和扭曲转换为 227 x 227 的大小。这是必需的，因为 AlexNet 的输入图像大小为 227 x 227。使用 AlexNet 从每个区域提取 4,096 个特征向量。特征矩阵为 4,096 x 2,000，因为我们为每个图像有 2,000 个区域建议。

原则上，R-CNN 可以将任何 CNN 模型（例如 AlexNet、ResNet、Inception 或 VGG）作为输入，只要修改输入图像大小以适应网络的图像大小即可。R-CNN 的作者将 AlexNet 和 VGG16 作为 R-CNN 的输入进行了比较，发现 VGG16 的准确率提高了 8%，但与 AlexNet 相比，所需时间延长了 7 倍。

图像分类

在通过 AlexNet 进行特征提取之后，图像的分类涉及将特征向量通过特定于类的线性 SVM 以对区域提议中对象的存在进行分类。使用 SVM 是一种有监督的机器学习方法，它为每个特征向量分配权重和偏差，然后画一条线将对象分成特定的类。分离是通过确定每个向量与线的距离然后定位线以使分离距离最大来完成的。

边界框回归

边界框回归预测图像中对象的位置。在 SVM 之后，开发了一个线性回归模型来预测边界框检测窗口的位置和大小。对象的边界框由四个锚值定义，[ x , y , w , h ]，其中x是边界框原点的x坐标，y是边界框原点的y坐标，w是宽度边界框的高度， h是边界框的高度。

回归技术试图通过调整四个锚值中的每一个来将预测值与地面实况（目标）值进行比较，从而最小化边界框预测中的误差。

Fast R-CNN 概述

R-CNN 在目标检测方面比之前的任何方法都取得了更显着的改进，但速度很慢，因为它对每个区域提议都在 CNN 上执行了前向传递。此外，训练是一个多阶段的管道，包括首先针对区域提议优化 CNN，然后运行 SVM 进行对象分类，然后使用边界框回归器绘制边界框。同样是 R-CNN 的创建者 Ross Girschick 提出了一种称为快速 R-CNN 的模型，以使用单阶段训练方法来改进检测。下图展示了fast R-CNN的架构：

fast R-CNN中使用的步骤如下：

快速 R-CNN 网络使用多个卷积和最大池化层处理整个图像以生成特征图。
特征图被输入选择性搜索以生成区域建议。
对于每个区域建议，使用感兴趣区域( RoI ) 最大池化提取固定长度 ( h = 7 x w = 7) 的特征向量。
此特征向量值成为由两个分支分隔的全连接( FC ) 层的输入：

分类概率的 Softmax
每个对象类的边界框位置和大小（x、y、宽度、高度）。

所有网络权重都使用反向传播进行训练，计算和内存在前向和后向传播之间共享，用于损失和权重计算；这将大型网络中的训练时间从 84 小时（R-CNN）减少到 9.5 小时（快速 R-CNN）。Fast R-CNN 使用 softmax 分类器而不是 SVM (R-CNN)。softmax 的平均精度略优于 SVM，如下表所示，针对小型 (S)、中型 (M) 和大型 (L) 网络：

VOC07	S	M	L
SVMs	56.3	58.7	66.8
Softmax	57.1	59.2	66.9

SVM 和 softmax 之间的结果差异很小，说明与使用 SVM 的多阶段训练相比，使用 softmax 进行一次微调就足够了。提案数量超过 4,000 会导致平均精度下降约 1%，而当提案数量在 2,000 到 4,000 之间时，它们实际上会导致精度提高约 0.5%。

Faster R-CNN 概述

R-CNN 和 Fast R-CNN 都依赖于选择性搜索方法来开发 2,000 个区域的提议，这导致每张图像的检测率为 2 秒，而最有效的检测方法为每张图像 0.2 秒。Shaoquing Ren、Kaiming He、Ross Girshick 和 Jian Sun 写了一篇题为Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks to Improvement the R-CNN Speed and Accuracy for Object Detection 的论文。你可以在https://arxiv.org/abs/1506.01497阅读这篇论文。

下图展示了 Faster R-CNN 的架构：

关键概念如下表所示：

将输入图像引入区域建议网络( RPN )，该网络为给定图像输出一组矩形区域建议。
RPN 与最先进的对象检测网络共享卷积层。
RPN 通过反向传播和随机梯度下降( SGD ) 进行训练。

Faster R-CNN 中的目标检测网络类似于 fast R-CNN。下图展示了一些使用faster R-CNN的物体检测输出：

上图展示了使用更快的 R-CNN 模型进行的推理。在第 10 章，使用 R-CNN、SSD 和 R-FCN 进行目标检测，您将学习如何自己生成这种类型的图形。左图是使用 TensorFlow Hub 的预训练模型生成的，而右图是通过训练我们自己的图像然后开发我们自己的模型生成的。

上图中所示的高精度是通过遵循以下列表中概述的技术获得的：

在两个网络之间共享卷积层：RPN 用于区域提议和快速 R-CNN 用于检测。
对于更快的 R-CNN，输入图像大小为 1,000 x 600。
RPN 是通过在卷积特征图输出上滑动一个大小为 60 x 40 的小窗口来生成的。
每个滑动窗口映射到 9 个锚框（3 个比例，框面积分别为 128、256 和 512 像素，3 个比例为 1:1、1:2 和 2:1）。
每个锚框都映射到一个区域提议。
每个滑动窗口映射到 ZF 的 256-D 特征向量和 VGG 网络的 512-D 特征向量。
然后这个向量被输入到两个完全连接的层——一个盒子回归层和一个盒子分类层。
区域提案总数为 21,500 (60 x 40 x 9)。

为了训练 RPN，根据与训练数据的交集重叠( IoU )为每个锚框分配一个二进制类标签。IoU 用于衡量物体检测的准确性。在第 7 章，使用 YOLO 进行目标检测中对其进行了详细描述。现在，您知道 IoU 是衡量两个边界框之间重叠面积与其并集面积之比就足够了。这意味着 IOU = 1，这意味着两个完整的边界框重叠，所以你只能看到一个，而当 IoU = 0 时，这意味着两个边界框是完全分开的。

二元类级别具有正样本和负样本，具有以下属性：

正样本：IoU为最大值或大于0.7
负样本：IoU 小于 0.3

用于回归的特征具有相同的空间大小（高度和宽度）。在实际图像中，特征大小可以不同。这是通过使用不同的回归比例和纵横比使用不同的边界框大小来考虑的。RPN 和目标检测之间的卷积特征使用以下原则共享：

RPN 使用二元类级别进行训练。
检测网络通过快速 R-CNN 方法进行训练，并通过使用 RPN 训练的 ImageNet 预训练模型进行初始化。
通过保持共享卷积层固定并仅微调 RPN 独有的层来初始化 RPN 训练。
前面的步骤导致两个网络的共享。
最后，快速 R-CNN 的全连接层通过保持共享卷积层固定进行微调。
上述所有步骤的组合导致两个网络共享相同的卷积层。

R-CNN、fast R-CNN和faster R-CNN的对比如下表所示：

参数	R-CNN	Fast R-CNN	Faster R-CNN
Input	Image	Image	Image
输入图像处理	基于像素相似度的图像分割	输入图像被馈送到 CNN 以生成卷积特征图。	输入图像被馈送到 CNN 以生成卷积特征图。
区域提案	使用对分割图像的选择性搜索生成 2K 区域建议。	使用卷积特征图的选择性搜索生成 2K 区域建议。	区域提议是使用区域提议网络( RPN ) 生成的。该 CNN 使用一个 60 x 40 的滑动窗口，用于具有 9 个锚框（3 个比例和 3 个纵横比）的特征图的每个位置。
翘曲成固定尺寸	从区域提议中，每个区域都被扭曲成固定大小以输入到 CNN。	使用 RoI 池化层中的最大池化将区域建议扭曲成一个固定大小的正方形。	使用 RoI 池化层将区域建议扭曲为固定大小的正方形。
特征提取	每次将每张图像固定大小的 2K 扭曲区域建议馈送到 CNN。	2K 扭曲区域被馈送到两个分支，每个分支都由一个全连接层组成。	2K 扭曲区域被馈送到全连接层。
检测(Detection)	CNN 的输出被传递到 SVM 以进行分类，然后由边界框回归器生成边界框。	全连接层的一个输出被传递到 softmax 层进行分类，另一个输出到边界框回归器以生成边界框。	全连接层的一个输出被传递到 softmax 层进行分类，另一个输出到边界框回归器以生成边界框。
CNN 类型	AlexNet	VGG 16	ZFNet 或 VGGNet。ZFNet 是 AlexNet 的修改版本。
区域提案	选择性搜索用于生成约 2,000 个区域建议。	选择性搜索用于生成约 2,000 个区域建议。	CNN 用于生成约 21,500 个区域建议（约60 x 40 x 9）。
卷积操作	每张图像进行 2K 次卷积操作。	每个图像都进行一次卷积操作。	每个图像都进行一次卷积操作。
区域提议和检测	区域提议和检测是解耦的。	区域提议和检测是解耦的。	区域提议和检测是耦合的。
训练时间	84 小时	9 小时	150 小时
测试时间	49 秒	2.43 秒	0.2 秒
地图 (VOC 2007)	66	66.9	66.9

上表清楚地展示了 R-CNN 算法的演进过程以及在提高其准确性的同时加快算法速度的方法。以下是我们从上表中学到的一些关键点：

图像分割和选择性搜索以确定像素相似度是一项耗时的操作，因为该操作是逐像素操作。
使用滑动窗口的 CNN 操作在生成区域提议方面比选择性搜索方法快得多。
将 CNN 应用于整个图像比将其应用于图像中的区域然后对给定图像重复该过程 2000 次要快得多。

GAN 概述

生成对抗网络( GAN ) 是一类学习估计数据概率分布的 CNN。GAN 由两个相互竞争的连接神经网络组成，称为生成器和鉴别器。生成器根据图像特征的噪声输入生成人工图像，判别器将人工图像与真实图像进行比较，以确定图像为真实的概率。概率信息被传递到图像输入以在下一阶段学习。下图说明了 GAN 的机制：

GAN算法的分步说明如下：

给定一个训练集z，生成器网络接收一个表示图像特征的随机向量，并通过 CNN 运行以生成人工图像G ( z )。
鉴别器网络是一个二元分类器；它接收真实图像和人造图像，并生成创建人造图像的概率P ( z )。
鉴别器将概率信息提供给生成器，生成器使用该信息来改进其对图像G ( z ) 的预测。

二元分类器损失函数称为交叉熵损失函数，表示为-(y log(p) + (1-y) log(1-p))，其中p是概率，y是期望值.

鉴别器目标函数：

生成器目标函数：

GAN 的类型很多（超过 20 种）已经存在，并且几乎每个月都在开发更多类型。以下列表涵盖了 GAN 的两个主要重要变体：

DCGAN（深度卷积 GAN）：CNN 用于鉴别器和生成器，如原始 GAN 中所述。
CGAN（条件GAN）：表示标签的条件向量用作生成网络和判别网络的附加输入。噪声与标签向量一起被添加到生成网络中，以检测标签中的变化。

GAN的一些实际用例列举如下：

生成人工人脸图像和图像数据集
组合图像以形成新的数据集
生成卡通人物
从 2D 图像生成 3D 人脸和对象
语义图像翻译
从不同的彩色图像生成一组彩色图像
文本到图像的翻译
人体姿态估计
照片编辑和修复

GNN 概述

图神经网络( GNN ) 将 CNN 学习扩展到图数据。图可以表示为节点和边的组合，其中节点表示图的特征，边连接相邻节点，如下图所示：

在此图像中，节点由实心白点表示，边缘由连接点的线表示。

以下等式描述了图表的关键参数：

将图转换为由节点、边和节点之间的关系组成的向量称为图嵌入。嵌入向量可以用以下等式表示：

以下列表描述了上述等式的元素：

h [ n ] = 当前节点n的状态嵌入
h ne [ n ] = 节点n邻域的状态嵌入
x [ n ] = 节点n的特征
x e [ n ] = 节点n边的特征
x ne [ n ] = 节点n邻域的特征
o [ n ] = 节点n的输出

如果H , X是通过堆叠所有状态和所有特征构建的向量，那么您可以为 GNN 迭代状态编写以下等式：

上述一般等式根据 GNN 的类型推导出为各种形式。有两个主要分类：光谱 GNN 和非光谱 GNN。

光谱 GNN

Spectral GNN 最初由 Joan Bruna、Wojciech Zaremba、Arthus Szlam 和 Yann LeCun 在题为Spectral Networks and Deep Locally Connected Networks on Graphs的论文中提出。您可以在https://arxiv.org/pdf/1312.6203v3.pdf找到论文的详细信息。

Spectral GNN 是傅里叶域中的卷积。谱 GNN 可以用以下等式表示：

以下列表描述了上述等式的元素：

g θ = 也可以被认为是卷积权重的过滤器参数
x = 输入信号
U = 归一化图拉普拉斯算子的特征向量矩阵

Kipf 和 Welling（在他们的文章Semi-Supervised Classification With Graph Convolution Networks, ICLR 2017 中）进一步简化了这一点，以解决以下过拟合问题：

使用以下重整化进一步简化了这一点：

这里，表示激活函数。

下图说明了 GNN 的架构：

GNN 层聚合来自其邻居的特征信息，并应用 ReLU 激活、池化、全连接和 softmax 层对图像中的不同特征进行分类。

强化学习概述

强化学习是一种机器学习，其中代理通过根据累积的过去奖励信号的反馈预测奖励（或结果）来学习在当前环境中采取行动。Q- learning 由 Christopher Watkins 在题为Learning from Delayed Rewards的论文中介绍，是强化学习中最流行的算法之一。Q意味着质量——这是给定动作产生奖励的价值：

在每个学习状态，Q表存储状态、动作和相应奖励的值。
智能体搜索Q表以做出最大化长期累积奖励的下一个动作。
强化学习在一个关键方面不同于监督学习和无监督学习：它不需要输入标签（监督）或底层结构（无监督）来将对象分类。

下图说明了强化学习的概念。代理在某种状态下采取行动以产生行动，从而产生奖励。动作价值随着时间的推移而提高以最大化奖励：

代理从一个状态 ( s t ) 开始，观察一系列观察结果，采取行动 ( a t ) 并获得奖励。

下面的累积值函数被最大化以在Q学习方法中找到所需的输出：

以下列表描述了上述等式的主要特征：

是旧值
是学习率
是在即时奖励和延迟奖励之间进行交易的折扣因子，α 是学习率
是奖励
最大值是学习值

由于Q学习在估计的动作值上包含一个最大化步骤，它往往会高估值。

在强化学习中，卷积网络可用于创建能够在复杂情况下获得积极奖励的智能体动作。这个概念首先由 Mnih 等人提出。在 2015 年发表的一篇题为《通过深度强化学习实现人类水平控制》的论文中。可在https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf找到本文的详细信息。

这包括三个卷积层和一个全连接隐藏层。请注意，在强化学习中，卷积网络的解释与监督学习不同。在监督学习中，CNN 用于将图像分类为不同的类别；在强化学习中，图像代表一种状态，CNN 用于创建代理在该状态下执行的动作。

迁移学习概述

到目前为止，我们已经学会了通过单独设计工作来解决特定任务来构建 CNN 架构。神经网络模型是深度密集型的，需要大量的训练数据、训练运行和调优的专业知识才能达到高精度；然而，作为人类，我们并不是从零开始学习一切——我们向他人学习，我们向云（互联网）学习。当我们试图分析的新类的数据不足时，迁移学习很有用，但在类似的类中有大量预先存在的数据。每个 CNN 模型（AlexNet、VGG16、ResNet 和 inception）都在 ImageNet ILSVRC 竞赛数据集上进行了训练。ImageNet 是一个包含 22,000 个类别中超过 1500 万张标记图像的数据集。ILSVRC 使用 ImageNet 的一个子集，在 1,000 个类别中的每个类别中包含大约 1,000 个图像。

在迁移学习中，可以修改为其他情况开发的预训练模型，以用于我们的特定情况来预测我们自己的类别。我们的想法是选择我们已经研究过的 CNN 架构，例如 AlexNet、VGG16、ResNet 和 inception，冻结一两层，更改一些权重，并输入我们自己的数据来对类别进行预测。在第 4 章“图像深度学习”中，我们了解了 CNN 如何查看和解释图像。

这些学习将用于构建迁移学习，所以让我们总结一下我们在第 4 章“图像深度学习”中的 CNN 可视化中学到的一些关键点：

前几层基本上是汽车的通用特征（例如边缘检测、斑点检测等）——中间层连接边缘形成汽车的特征，例如轮胎、门把手、灯、仪表板、依此类推，最后几层非常抽象，对于特定对象非常具体。
全连接层将其前一层的输出扁平化为单个向量，将其乘以不同的权重，然后对其应用激活系数。它使用机器学习支持向量机( SVM )类型的方法进行分类。

现在我们理解了这些概念，我们将能够欣赏以下常用的迁移学习方法：

1.移除并交换 softmax 层：

以使用 TensorFlow 在 ImageNet 上预训练的 CNN 为例，例如 VGG16、AlexNet、ResNet 或 inception。
移除最后一个 softmax 层，并将 CNN 的其余部分视为新数据集的固定特征提取器。
将 softmax 层替换为您自己定义的类数量的自定义 softmax 层，并使用您的数据集训练生成的模型。

2.微调 ConvNet。为了减少过度拟合，请保持一些较早的层固定，并且只微调网络的更高级别部分。正如我们在第 4 章“图像深度学习”中的可视化示例中所见，最后一层非常抽象，并且针对特定数据集进行了调整，因此冻结整个模型并将 softmax 更改为步骤 1的新 softmax可能会导致在更高的不准确性。为了提高准确性，最好从 CNN 中间训练您的自定义图像——这样，全连接层之前的最后几层将具有特定于您的应用程序的特征，这将导致更高的预测准确性。在第 6 章中，使用迁移学习进行视觉搜索，我们将对这个概念进行编码，并看到从 CNN 中间附近开始训练的准确性提高。

概括

在本章中，我们了解了不同卷积网络 (ConvNet) 的架构，以及如何将 ConvNet 的不同层堆叠在一起以将各种输入分类为预定义的类。我们学习了不同的图像分类模型，例如 AlexNet、VGGNet、Inception 和 ResNet，它们为什么不同，它们解决了什么问题，以及它们的总体相似之处。

我们了解了对象检测方法，例如 R-CNN，以及它如何随着时间的推移转化为快速且更快的 R-CNN 以进行边界框检测。本章介绍了两个新模型，GAN 和 GNN，作为两组新的神经网络。本章以对强化学习和迁移学习的介绍结束。我们了解到，在强化学习中，代理与环境交互以根据奖励学习最优策略（例如在交叉路口左转或右转），而在迁移学习中，预训练模型（例如 VGG16）可以用于通过优化 CNN 的后期层来基于新数据派生一个新类。

在下一章中，您将学习如何使用迁移学习来训练您自己的神经网络，然后使用经过训练的网络执行视觉搜索。

你可能感兴趣的:(神经网络,深度学习,cnn)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">