清榎

经典卷积神经网络

一、卷积神经网络的演变

二、经典神经网络

2.1 LeNet5

2.1.1 背景

2.1.2 结构

2.1.3 总结

2.2 AlexNet

2.2.1 背景

2.2.2 创新点

2.2.3 结构

2.3 VGG-16

2.3.1 背景

2.3.2 结构

2.4 Inception Net

2.4.1 背景

2.4.2 结构

2.5 ResNet（残差神经网络）

2.5.1 背景

2.5.2 梯度消失和梯度爆炸

2.5.3 ResNet的核心

2.5.4 ResNet的结构

2.6 DenseNet （密集网络）

2.6.1 背景

2.6.2 特点

2.6.3 结构

编辑 2.6.4 优点

三、 R-CNN系列

3.1 背景

3.2 实现过程

3.2.1 Selective Search算法

3.2.2 SVM分类

3.2.3 Bbox回归

3.3 其他R-CNN系列网络

一、卷积神经网络的演变

二、经典神经网络

2.1 LeNet5

2.1.1 背景

Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, November 1998.

LeNet5是由Y.LeCun等人提出的，主要进行手写数字识别和英文字母识别。

很经典，虽然小，但是模块齐全。

2.1.2 结构

1. 输入层

32X32的图片

2. C1层（卷积层）

采用了6个5X5的卷积核，且步长为1（32-5+1 = 28）得到了6个28X28的特征图。此时神经元个数为6X28X28 = 784 个。

3. S2层（下采样层）

进行了平均池化，池化核2X2，步长为2（无重叠移动），得到6个14X14的特征图。平均池化后加乘一个权重，加上一个偏置作为激活函数的输入，激活函数的输出作为下一层的输入。

4. C3层

采用了16个5X5的卷积核组，且每个卷积核组中卷积核数量不同（前6个卷积核个数为3，中间6个为4，之后3个为4，最后一个为4），如下图所示：

加偏置和激活函数后得到16个10X10的特征图（14-5+1 = 10），此时神经元数量为1600。

此处有个疑问，为什么要设计卷积核组中卷积核数量不同？应该是有助于减少参数数量，降低模型复杂度。

5. S4层

对16个10X10的特征图进行池化核为2X2，步长2的最大池化，得到的最大值乘以一个权重参数，再加上一个偏置参数作为激活函数（sigmoid）的输入，得到16张 5*5的特征图，神经元个数已经减少为16*5*5=400。

6. C5层

用16个5*5的卷积核进行卷积，乘以一个权重参数并求和，再加上一个偏置参数作为激活函数（sigmoid）的输入，得到1*1（5- 5+1=1）的特征图。

然后我们希望得到120个特征图，就要用总共120个5*5卷积核组（每个组16 个卷积核）进行卷积，神经元减少为 120个。

与C3层不同的是，这里的连接是一种全连接。

7. F6层

全连接层，有84个节点，对应的是一个7X12的比特图，如下所示：

特征图大小与C5一样都是1×1，与C5层全连接。计算输入向量和权重向量之间的点积，再加上一个偏置，然后将其传递给sigmoid 函数得出结果。

8.Output层（全连接层）

共有10个节点，分别代表数字0到9，如果节点i的输出值为0（比如向量为[0,1,1,1,...1],识别为数字0)，则网络识别的结果是数字i。采用的是径向基函数（RBF）的网络连接方式。

假设x是上一层的输入（F6层的84个神经元），y是RBF的输出，则RBF输出的计算方式是：

$\omega _{ij}$ 的值由i的比特图编码确定，i从0到9，j取值从0到84-1。 RBF输出的值越接近于0，表示当前网络输入的识别结果与字符i 越接近。

2.1.3 总结

卷积核大小、卷积核个数（特征图需要多少个）、池化核大小和步长等这些参数都是变化的，这就是所谓的CNN调参，需要学会根据需要进行不同的选择。

后续补上LeNet5识别首先数字的代码。

2.2 AlexNet

2.2.1 背景

获得ImageNet LSVRC-2012（物体识别挑战赛）的冠军，1000 个类别120万幅高清图像，Error: 26.2%(2011)→15.3%(2012)。

AlexNet确定了CNN在计算机视觉领域的王者地位。

A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012

2.2.2 创新点

首次成功应用ReLU作为CNN的激活函数。
使用Dropout丢弃部分神元，避免了过拟合。
使用重叠MaxPooling（让池化层的步长小于池化核的大小），一定程度上提升了特征的丰富性。
使用CUDA加速训练过程。
进行数据增强，原始图像大小为256×256的原始图像中重复截取 224×224大小的区域，大幅增加了数据量，大大减轻了过拟合，提升了模型的泛化能力。

2.2.3 结构

AlexNet论文中的原始结构分成了两组，并不是所有通道都用来卷积，如下图所示：

后来更常用的结构是不分组，而是全部进行卷积，结构图如下所示：

AlexNet可分为8层（池化层算入卷积层中），5个卷积层，3个全连接层。介绍时按照常用不分组的结构进行介绍。

1. 输入层

227X227X3的图像作为输入

2. 第一层（卷积层）

使用96个11X11的卷积核，步长为4，进行卷积，输出为55X55X96（(227-11)/4+1 = 55)。

然后使用核大小3X3，步长为2（可以重叠）的最大池化，输出为27X27X96（(55-3)/2+1=27)

3. 第二层（卷积层）

使用256个大小为5×5的卷积核，步长为1，同时利用padding保证输出尺寸不变（pad=2），因此该层输出大小为27×27×256（27+2*2-5+1）。

然后再通过核大小为3×3、步长为2的最大池化层，进而输出大小为13×13×256((27-3）/2+1=13)。

4. 第三层与第四层（卷积层）

使用384个大小为3X3的卷积核，步长为1，进行same卷积，输出为13X13X384。

5. 第五层（卷积层）

使用256个大小为3X3的卷积核，步长为1，进行same卷积，输出为13X13X256。

然后再通过核大小为3X3、步长为2的最大池化层，进而输出为6X6X256，并进行数据扁平化，展开为9216个单元。

6. 第六、七、八层（全连接层）

全连接加上Softmax分类器输出1000类的分类结果。

2.3 VGG-16

2.3.1 背景

VGGNet由剑桥大学和DeepMind公司提出。比较常用的是VGG-16，结构规整，具有很强的拓展性。

相较于AlexNet，VGG-16网络模型中的卷积层均使用3*3的卷积核，且均为步长为1的same卷积，池化层均使用2*2的池化核，步长为2。

K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.

2.3.2 结构

整体网络结构如下图所示。卷积层均为3X3，步长1的same卷积，池化层均为2X2，步长2的最大池化。共有13个卷积层、3个全连接层，共16层，故称之为VGG-16。

	Conv1	Conv2	Conv3	Conv4	Conv5
卷积层数	2	2	3	3	3
卷积核数	64	128	256	512	512

此处有个疑问，为什么要设计成这种多卷积层串联且卷积核小的结构？

因为两个卷积核大小为3X3的卷积层串联后的感受野尺寸为5X5，相当于单个卷积核大小为5X5的卷积层。两者参数数量比值为(2*3*3)/(5*5)=72% ，前者参数量更少。可以起到减少参数数量简化模型的作用。

此外，两个的卷积层串联可使用两次ReLU激活函数，而一个卷积层只使用一次。

2.4 Inception Net

2.4.1 背景

Google公司2014年提出。

文章提出获得高质量模型最保险的做法就是增加模型的深度（层数）或者是其宽度（层核或者神经元数），采用了22层网络。

以下为Inception四个版本所对应的论文，末尾为ILSVRC中的Top-5错误率：

[v1] Going Deeper with Convolutions: 6.67% test error

[v2] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift: 4.8% test error

[v3] Rethinking the Inception Architecture for Computer Vision: 3.5% test error

[v4] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning: 3.08% test error

2.4.2 结构

和卷积层、池化层顺序连接的结构（如VGG网络）相比，这样的结构主要有以下改进：

一层block就包含1x1卷积，3x3卷积，5x5卷积，3x3池化(使用这样的尺寸不是必需的，可以根据需要进行调整)。这样，网络中每一层都能学习到“稀疏”（3x3、5x5）或“不稀疏”（1x1）的特征，既增加了网络的宽度，也增加了网络对尺度的适应性；
通过deep concat在每个block后合成特征，获得非线性属性。

同时在3X3、5X5卷积核之前加上1X1的卷积核，来降低特征图的厚度，如下图所示：

更详细的介绍见：卷积神经网络结构简述（二）Inception系列网络 - 知乎

2.5 ResNet（残差神经网络）

2.5.1 背景

ResNet（Residual Neural Network），又叫做残差神经网络，是由微软研究院的何凯明等人2015年提出。

获得CVPR2016最佳论文奖。

残差神经网络的主要贡献是发现了“退化现象（Degradation）”，并针对退化现象发明了 “快捷连接（Shortcut connection）”，极大的消除了深度过大的神经网络训练困难问题。神经网络的“深度”首次突破了100层、最大的神经网络甚至超过了1000层。

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition. CVPR 2016: 770-778

2.5.2 梯度消失和梯度爆炸

随着卷积网络层数的增加，误差的逆传播过程中存在的梯度消失和梯度爆炸问题同样也会导致模型的训练难以进行。甚至会出现随着网络深度的加深，模型在训练集上的训练误差会出现先降低再升高的现象。残差网络的引入则有助于解决梯度消失和梯度爆炸问题。

梯度消失和梯度爆炸的原因详解：

详解机器学习中的梯度消失、爆炸原因及其解决方法_Double_V_的博客-CSDN博客_梯度消失的原因及解决方法

2.5.3 ResNet的核心

ResNet的核心是叫做残差块（Residual block）的小单元，残差块可以视作在标准神经网络基础上加入了跳跃连接（Skip connection），如下图所示。跳跃连接增强了前面数据对于l+2的影响，可以有效减小梯度消失。

按照这个思路，ResNet分别构建了带有跳跃连接的ResNet构建块、以及降采样的ResNet构建块，降采样构建块的主杆分支上增加了一个1×1的卷积操作，如下图所示：

2.5.4 ResNet的结构

下图展示了34层ResNet模型的架构图，仿照AlexNet的8层网络结构，也将ResNet划分成8个构建层（Building Layer）。一个构建层可以包含一个或多个网络层、以及一个或多个构建块（如ResNet构建块）。

第一个构建层，由1个普通卷积层和最大池化层构建。

第二个构建层，由3个残差模块构成。

第三、第四、第五构建层，都是由降采样残差模块开始，紧接着3个、5个、2个残差模块。

2.6 DenseNet （密集网络）

2.6.1 背景

Gao Huang, Zhuang Liu, Laurens van der Maaten. Densely Connected Convolutional Networks. CVPR 2017

2.6.2 特点

相比ResNet，DenseNet提出了一个更激进的密集连接机制：即互相连接所有的层，具体来说就是每个层都会接受其前面所有层作为其额外的输入。在DenseNet中，每个层都会与前面所有层在channel维度上连接（concat）在一起，并作为下一层的输入。对于一个L层的网络，DenseNet共包含L（L+1）/ 2个连接。连接图如下图所示：

2.6.3 结构

CNN网络一般要进行池化来降低特征图的大小，而DenseNet的密集连接方式需要特征图大小保持一致。为了解决这个问题，DenseNet网络中使用DenseBlock+Transition的结构。其中DenseBlock是包含很多层的模块，每个层的特征图大小相同，层与层之间采用密集连接方式。而Transition模块是连接两个相邻的DenseBlock，并且通过Pooling使特征图大小降低。

2.6.4 优点

DenseNets可以自然地扩展到数百个层，而没有表现出优化困难。

在实验中，DenseNets随着参数数量的增加，在精度上产生一致的提高，而没有任何性能下降或过拟合的迹象。

缓解了消失梯度问题。加强了特征传播，鼓励特征重用。

三、 R-CNN系列

3.1 背景

Region-CNN的缩写，主要用于目标检测。来自2014年CVPR论文“Rich feature hierarchies for accurate object detection and semantic segmentation”。

在 Pascal VOC 2012 的数据集上，能够将目标检测的验证指标 mAP 提升到 53.7%，这相对于之前最好的结果提升了整整 13.3%。

3.2 实现过程

        • 区域划分：给定一张输入图片，从图片中提取 2000 左右类别独立的候选区域，采用的是 Selective Search 算法。

        • 特征提取：对于每个区域利用 CNN 抽取一个固定长度的特征向量， R-CNN 使用的是 Alexnet。

         • 目标分类：对每个区域利用 SVM 进行目标分类。

         • 边框回归：Bounding box Regression（Bbox回归)进行边框坐标偏移优化和调整。

3.2.1 Selective Search算法

核心思想：图像中物体可能存在的区域应该有某些相似性或者连续性，基于这一想法进行子区域合并。

首先，通过图像分割算法将输入图像分割成许多小的子区域。

其次，根据这些子区域之间的相似性(主要考虑颜色、纹理、尺寸和空间交叠4个方面的相似性) 进行区域迭代合并。每次迭代过程中对这些合并的子区域做bounding boxes(外切矩形)，这些子区域的外切矩形就是通常所说的候选框。

3.2.2 SVM分类

在这里每个类别对应一个SVM分类器，如果有20个类别，则会有20SVM分类器。对于每个类别的分类器只需要判断是不是这个类别的，如果同时多个结果为Positive则选择概率之最高的。

3.2.3 Bbox回归

核心思想是通过平移和缩放方法对物体边框进行调整和修正。

给定 $\left(P_{x}, P_{y}, P_{w}, P_{h}\right)$ ，寻找一种映射f ，使得:

$\left(\widehat{G}_{x}, \widehat{G}_{y}, \widehat{G}_{w}, \widehat{G}_{h}\right)=f\left(P_{x}, P_{y}, P_{w}, P_{h}\right)$

$\left(\widehat{G}_{x}, \widehat{G}_{y}, \widehat{G}_{w}, \widehat{G}_{h}\right) \approx\left(G_{x}, G_{y}, G_{w}, G_{h}\right)$

先做平移：

$\begin{aligned}(\Delta x, \Delta y), \Delta x &=P_{w} d_{x}(P), \Delta y=P_{h} d_{y}(P) \\ \widehat{G}_{x} &=P_{w} d_{x}(P)+P_{x} \\ \widehat{G}_{y} &=P_{h} d_{y}(P)+P_{y} \end{aligned}$

再做缩放：

$\begin{aligned}\left(\Delta_{w}, \Delta_{h}\right), \Delta_{w} &=\exp \left(d_{w}(P)\right), \Delta_{h}=\exp \left(d_{h}(P)\right) \\ \widehat{G}_{w} &=P_{w} \exp \left(d_{w}(P)\right) \\ \widehat{G}_{h} &=P_{h} \exp \left(d_{h}(P)\right) \end{aligned}$

真实偏移量：

$t_{x}=\left(G_{x}-P_{x}\right) / P_{w}$

$\\t_{y}=\left(G_{y}-P_{y}\right) / P_{h}\\ t_{w}=\log \left(G_{w} / P_{w}\right)\\ t_{h}=\log \left(G_{h} / P_{h}\right)\\$

计算损失函数：

$W_{*}=\operatorname{argmin}_{\widehat{W}_{*}} \sum_{i}^{N}\left(t_{*}^{i}-\widehat{W}_{*}^{T} \emptyset_{5}\left(P^{i}\right)\right)^{2}+\lambda\left\|\widehat{W}_{*}\right\|^{2}$

$d_{*}(P)=\widehat{W}_{*}^{T} \emptyset_{5}\left(P^{i}\right), \emptyset_{5}\left(P^{i}\right)$ 是输入目标的特征向量（AlexNet第五层pooling输出的特征）。

3.3 其他R-CNN系列网络

具体如下所示，不进行详述

卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

经典卷积神经网络

一、 卷积神经网络的演变

二、经典神经网络

2.1 LeNet5

2.1.1 背景

2.1.2 结构

2.1.3 总结

2.2 AlexNet

2.2.1 背景

2.2.2 创新点

2.2.3 结构

2.3 VGG-16

2.3.1 背景

2.3.2 结构

2.4 Inception Net

2.4.1 背景

2.4.2 结构

2.5 ResNet（残差神经网络）

2.5.1 背景

2.5.2 梯度消失和梯度爆炸

2.5.3 ResNet的核心

2.5.4 ResNet的结构

2.6 DenseNet （密集网络）

2.6.1 背景

2.6.2 特点

2.6.3 结构

2.6.4 优点

三、 R-CNN系列

3.1 背景

3.2 实现过程

3.2.1 Selective Search算法

3.2.2 SVM分类

3.2.3 Bbox回归

3.3 其他R-CNN系列网络

你可能感兴趣的:(深度学习,深度学习,卷积神经网络)

一、卷积神经网络的演变