starxhong

CNN网络结构进化概述

网络工程问题是深度学习中比较基础的问题，网络工程的难点在于，缺乏对深度神经网络的理论理解（即常说的黑盒模型），无法根据理论来设计网络结构，实际中更多的是不断的尝试，根据实验反馈出来的结果确定某一结构是不是好的结构。在这些尝试中，CNN是一种非常成功的网络形式，CNN的网络结构迭代速度也非常快，诸如大家所熟知的AlexNet，VGGnet，GoogleNet，ResNet，ResNext，DenseNet等等井喷式地出现，这些网络并不是凭空遐想，其设计背后有着一定的逻辑，在演进过程中有创新也有传承。

本文试图简单梳理CNN网络发展脉络，探究网络结构演进背后的逻辑。

上图是CNN网络主要发展脉络的一种描述(但绝不是全部)。网络工程主要可以包括两个方面：连接结构设计和运算操作符设计（structure space和operator space）。

连接结构设计：网络层次设计与层次之间的连接方式，如网络深度和宽度，bottleneck，shortcut，branches，RoI pooling layer等；

运算操作符设计：网络运算符设计，如激活函数(ReLU等)，数据处理(Xavier、Batch Normarlization等），特殊卷积（Holed Convolution、group convolution等），特殊池化，损失函数（Focal loss等）。

LeNet（1998 ）

上世纪九十年代末，Yann LeCun将BP算法应用到CNN网络中用于手写字符，LeNet成为第一个具有实用价值的CNN神经网络。LeNet结构为conv1+pooling1+conv2+pooling2+fc，五层结构。LeNet奠定了CNN的三大核心思想：局部感受野，权值共享，下采样。使得神经网络能够在图像领域得到应用。但由于当时计算力和数据限制，加上缺乏理论支持，LeNet火了一把之后就沉寂了，直到2012年AlexNet横空出世。

AlexNet（12年ImageNet Challenge冠军，2012 NIPS）

AlexNet的成功不是因为理论的巨大创新，而是计算力和数据限制得以突破(GPU和ImageNet)，同时，在LeNet的基础上网络结构也做了一些优化（主要就是加深了）。在连接设计方面：卷积层数量增加到5层，卷积层尺度有11x11、5x5、3x3多种，全连接层增加到3层；在运算符操作符方面：使用ReLU替代sigmoid作为激活函数来加速训练，使用Dropout为网络引入ensembling减少过拟合，使用LRN做数据的归一化（后来证明作用不大）。至于论文中提到的创新点之一Data Arguemetation属于数据预处理，不在网络结构讨论范畴。

VGGNet（2014 ImageNet Challenge, 2015 ICLR）

可以看成是加深版的AlexNet，整体框架还是和LeNet和AlexNet类似，都是conv layer+FC layer。创新在于，因为一个5x5的卷积可以由两层3x3的卷积等效，同时参数数量减少（25 vs 18），所以VGG卷积模板尺寸全部为3x3，使得网络单元模块化，可以象拼积木一样进行组合，架起一个网络就像火车车厢拼接一样简单。VGG有多个版本，取决于用了多少个基本单元，但都有与AlexNet一致的3个FC layer，意味着参数还是很多。容易拼接并不等于可以无限加深网络，过深的网络非常难训练，需要stage-wise training，即训练了11层的VGG的基础上再训练13层的，在13层训练好的基础上再训练16层的。同时，深层网络往往有梯度消失或梯度爆炸的问题，需要非常好地初始化参数（常用Xavier或MSRA，它们都是逐层初始化，而不是像传统的Recap只对输入做初始化）。这些掣肘的问题意味着VGG网络很难实用。

NIN（2014 CVPR）

NIN-Network in Network对CNN的卷积层做了一个较大的革新，经典CNN中的卷积层其实就是用线性滤波器对图像进行内积运算，这种卷积滤波器是一种广义线性模型(GLM)，类似于单层神经网络，GLM的抽象能力是比较低水平的。NIN采用了MLP即多层感知器作为卷积层模型提高了非线性，实际操作起来也很简单，只需要在经典卷积层后嵌套两组1x1的卷积层就可以实现。NIN的另一个改进是用全局均值池化的方法替代传统CNN中的全连接层，对每个特征图一整张图片进行全局均值池化，这样每张特征图都可以得到一个输出，对应着一个类别，可以理解为由于采用了mlpconv，网络在前面卷积阶段特征提取得足够好，后面就不需要再用FC layer来增加非线性了，极大地减少了参数和overfitting风险。

GoogLeNet（2014 ImageNet Challenge, 2015 CVPR）

GoogleNet和NIN一脉相承，主要是在卷积层上做了较大的改进，在网络加深的同时，将卷积层的网络拓宽(这里拓宽的意思与传统神经网络增加单层网络节点是不一样的，后者对应到CNN中应该是增加filter数目即增加通道数，而这里的拓宽可以简单认为是结构图看起来更宽)，其主要特征是用了Inception结构。Inception结构前后有4个版本，Inception V1版本逻辑很简单，不同于一般把网络加深的方法，Inception V1索性把不同尺度的卷积和pooling同时平行地进行然后把结果拼起来组成一个block，把加深变成加厚，在同一层就能提取不同尺度信息，同时获得非线性属性，而不需要再依赖ReLU或者pooling增加非线性，如下图（a）所示。但是出于控制参数量的考虑，单纯加厚显然不合适，于是参考NIN，在3x3，5x5，pooling上加分支上加1x1的卷积，如图（b）。

Inception V2 和V3讨论集成了Inception中的许多Tricks，包括在Inception block中，与其用7×7 尺寸的卷积，不如用一对 1×7 和 7×1 卷积更高效（熟悉SIFT特征的同学应该不陌生）。另外值得一提的是引入Batch Normalize做初始化，为什么不用Xavier或MSRA呢？因为它们不适用于多分支网络，BN不仅逐层初始化，而且是对每个mini-batch做。Inception V4更是将Inception标准化模块化，什么样的输出应该用什么样Inception Block都定好了，直接像积木一样堆就行。将模块拼到ResNet上就成了Inception-ResNet。

何凯明在17年CVPR的报告中总结GoogLeNet时，总结Inception系列三大基本结构：Mutiple branches(1x1,3x3,5x5,pool)，Shortcut(stand-alone 1x1 , merged by concat)，Bottleneck（reduce dimension by 1x1 before 3x3/5x5 conv ）。

ResNet(2016 CVPR Best Paper，深度达到152层)

ResNet的出现是解决普通网络随着深度增加，性能反而下降的问题，这个问题是由实验印证得到的，造成这个问题的原因是梯度消失而非过拟合。ResNet通过引入一条shortcut使得信息跨层流动，缓解了梯度消失的问题。作者认为，优化残差映射比优化原始的映射更容易，在极端情况下，如果一个标识映射是最优的，那么将残差值推到零将比通过一堆非线性层来匹配一个恒等映射更容易。网络加深后参数过多，所以引入了Bottleneck即1x1的卷积来减少参数（也可以控制维度）。ResNet与GoogLeNet类似的结构是：Shortcut和Bottleneck，但没有用到Mutiple branches（恒等映射通常不能算是branch），何凯明在2017CVPR推出的新作ResNeXt就是在ResNet基础上引入Mutiple branches。

Cornell University的几个人研究了ResNet，发现它所谓的“超深网络”只是个噱头，它本质上是一堆浅层网络的集合——《Residual Networks are Exponential Ensembles of Relatively ShallowNetworks》，一个拥有三个block的ResNet可以展开为下图的形式，类似于多个网络的ensemble形态，所以精度很高。这种看法有一定争议，但可以为我们剖析网络结构提供一种思路。

少个block情况下，对ResNet影响甚微，而VGGNet就惨不忍睹了。因为，多线网络少个block，网络仍然是通的，单线网络少个block，网络断开。我个人认为，这里网络断开可以理解为梯度消失，所以ResNet对梯度消失不敏感。

Xception(v4 2017 arxiv by Google) 和 ResNext(2017 CVPR by FAIR)

之所以把这两个放到一起说，是因为它们分别在Inception和ResNet的基础上，都做了比较类似的改进——稀疏连接（sparse connection）。卷积神经网络爆发前，都是全连接网络，即上一层图像W*H*C都对下一层有贡献，卷积神经网络是将W和H局部感知了，但对通道C还是全部使用了。ResNext模型中，作者提出了Cardinality这个概念，可以理解为通道的分组数。首先使用逐点卷积减少输入特征的通道数，再利用计算量较小的分组卷积（group convolution）结构取代原有的卷积运算，减少整体的计算复杂度。下图左边是ResNet的一个单元，右边是ResNext的单元，左边可以看作Cardinality=1，右边是Cardinality=32。

Xception模型中，将普通的卷积运算拆分成逐通道卷积（depthwise convolution）和逐点卷积（pointwise convolution）两部进行，有效地减少了计算量和参数量，在做卷积计算的时候，每一个通道内的数据做单独计算，如果有N维通道则有N维输出，那么相当于Cardinality等于N。

ShuffleNet( Jul 2017 arXiv by Face++ )

ShuffleNet网络结构同样沿袭了稀疏连接的设计理念。作者通过分析Xception和ResNeXt模型，发现这两种结构通过卷积核拆分虽然计算复杂度均较原始卷积运算有所下降，然而拆分所产生的逐点卷积计算量却相当可观，成为了新的瓶颈。受ResNeXt的启发，作者提出使用分组逐点卷积（group pointwise convolution）来代替原来的结构。通过将卷积运算的输入限制在每个组内，模型的计算量取得了显著的下降。然而这样做也带来了明显的问题：在多层逐点卷积堆叠时，模型的信息流被分割在各个组内，组与组之间没有信息交换（如下图 (a)所示）。需要打乱各组的信息（如下图(b)所示），所以引入了一种方便的方法——通道重排（channel shuffle）（如下图(c)所示）。结果是参数大大减少，可以在arm这样的硬件上实现。关于卷积的各种形式可以参考CNN中千奇百怪的卷积方式大汇总。

DenseNet(2017 CVPR best paper)

DenseNet与ResNet和Highway Network有相似之处，核心是在网络结构中加入shortcut，使得信息不仅能从上一层流入相邻的下一层，还能跨层建立连接，相比于ResNet的跨一层，DenseNet更是将shortcut思想更极端地展现出来。优势：有效解决梯度消失问题；强化特征传播；支持特征重用；大幅度减少参数数量。为了减少模型参数，在dense block里面采用bottleneck layers。同时compression的操作减少Feature Map数量。但代价是内存占用很厉害。

参考文献：

论文就不列举了，主要列一下比较好的博客，方便大家理解。

大牛讲堂｜Batch Normalization的分析与展望：http://qingmang.me/articles/-3789820675106857200/

NIN-Network In Network阅读笔记：http://blog.csdn.net/hiterdu/article/details/45418545

Network in Network-读后笔记：https://www.jianshu.com/p/96791a306ea5

Network in Network网络分析： http://blog.csdn.net/mounty_fsc/article/details/51746111

Inception深度网络家族盘点：http://nooverfit.com/wp/inception%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%AE%B6%E6%97%8F%E7%9B%98%E7%82%B9-inception-v4-%E5%92%8Cinception-resnet%E6%9C%AA%E6%9D%A5%E8%B5%B0%E5%90%91%E4%BD%95%E6%96%B9/#more-3865

GoogLeNet学习心得：http://www.cnblogs.com/Allen-rg/p/5833919.html

Inception in CNN：http://blog.csdn.net/stdcoutzyx/article/details/51052847

Deep Residual Networks学习： https://zhuanlan.zhihu.com/p/22071346

ResNet学习： http://blog.csdn.net/xxy0118/article/details/78324256

Google Xception Network：http://blog.csdn.net/shuzfan/article/details/77129716

[DL-架构-ResNet系] 003 ResNeXt： https://zhuanlan.zhihu.com/p/29679851

无需数学背景，读懂 ResNet、Inception 和 Xception 三大变革性架构：https://www.jiqizhixin.com/articles/2017-08-19-4

ResNext与Xception——对模型的新思考： https://zhuanlan.zhihu.com/p/28839889

ShuffleNet和MobileNet对比：https://xueqiu.com/3426965578/88678286

CNN中千奇百怪的卷积方式大汇总： https://zhuanlan.zhihu.com/p/29367273

DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
神经网络项目--基于FPGA的AI简易项目（1-9图片数字识别）霖12 深度学习 pytorch 神经网络 fpga开发人工智能机器学习
1.训练MNIST模型importtorch#导入pytorch核心库importtorch.nnasnn#神经网络模块，如卷积层importtorch.optimasoptim#优化器fromtorchvisionimportdatasets,transforms#数据集与图像预处理工具#定义CNN模型classSimpleCNN(nn.Module):#PyTorch库中所有神经网络的“基础模
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
基于cnn和resnet和mobilenet对比实现驾驶员分心检测深度学习乐园 cnn 人工智能神经网络
演示效果及获取项目源码点击文末名片本项目旨在通过深度学习技术，结合卷积神经网络（CNN）模型、ResNet模型和MobileNet模型，实现对驾驶员分心行为的自动检测。我们通过训练这些模型来识别不同的驾驶员分心行为，包括如发短信、通话、喝水等行为。使用的数据集包含驾驶员行为的图片，并且针对每个行为标注了相应的标签（例如"正常驾驶"、"右手发短信"等）。MobileNetV2是Google于2018
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
Transformer：自注意力驱动的神经网络革命引擎大千AI助手人工智能 Python #OTHER transformer 神经网络深度学习 google 人工智能机器学习大模型
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！从语言理解到多模态智能的通用架构基石⚙️一、核心定义与历史意义Transformer是由Google团队在2017年论文《AttentionIsAllYouNeed》中提出的深度学习架构，其颠覆性创新在于：完全摒弃RNN/CNN：仅依赖自注意力机制（S
渣土车识别漏检率高？陌讯算法实测降 90% 2501_92487936 目标跟踪人工智能计算机视觉目标检测算法智慧城市
在城市建筑垃圾运输管理中，渣土车的合规性监测一直是行业痛点。传统视觉算法在复杂工况下常常出现误判——阴雨天车牌识别模糊、夜间车灯眩光导致车型误分类、不同品牌渣土车混检时准确率骤降。某市政管理局的统计显示，采用传统方案时，日均漏检率高达23%，由此引发的违规倾倒投诉占比超60%。技术解析：从单模态到多特征融合的突破传统渣土车识别多依赖单一目标检测模型（如FasterR-CNN），其核心缺陷在于：特征
复杂场景检测老翻车？陌讯算法实测提升 40% 2501_92453489 算法视觉计算机视觉视觉检测
在工业质检、安防监控等计算机视觉落地场景中，工程师常面临棘手问题：传统算法在光照突变、目标遮挡等复杂环境下，漏检率高达20%以上，泛化能力不足成为项目落地的最大阻碍。而陌讯AI视觉算法通过架构创新，正在重新定义复杂场景下的检测精度标准。技术解析：从单模态到多模态的跨越传统目标检测模型多依赖单一RGB图像输入，在特征提取阶段容易受环境干扰。以经典的FasterR-CNN为例，其区域提议网络（RPN）
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
python——struct模块稚与 Python python 数据分析
文章目录structmodule简介常用函数常见format解析MINSTstructmodule最近在学CNN，想找一个合适的数据集，就想到了MINST。但是官网中挂出的文件是train-images-idx3-ubyte.gz等解压后为idx3-ubyte后缀文件。后缀名中idx3表示3维的数据。简介struct模块用于二进制和常用数据类型之间的互相转化，此模块中大部分函数接受一个实现了Buf
街道垃圾识别难？陌讯视觉算法实测准确率突破95% 2501_92487900 算法边缘计算目标检测视觉检测计算机视觉
开篇痛点：街道垃圾识别的技术挑战在智慧城市和环保监管场景中，街道垃圾的实时检测一直是个难题。传统视觉算法（如YOLOv5、FasterR-CNN）在复杂街道场景下表现不佳，主要面临以下问题：光照干扰：早晚光线变化导致误检（如阴影被识别为垃圾）小目标漏检：饮料瓶、烟头等小物体在640x640输入下仅占10x10像素遮挡问题：垃圾桶周边堆积物造成特征混淆某环保科技公司实测数据显示，开源模型在真实场景中
FasterRCNN源码解析（一）-——跑通代码_霹雳巴拉wz的代码看不懂 2401_84140023 2024年程序员学习运维 linux 面试
为了做好运维面试路上的助攻手，特整理了上百道【运维技术栈面试题集锦】，让你面试不慌心不跳，高薪offer怀里抱！这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。本份面试集锦涵盖了174道运维工程师面试题128道k8s面试题108道shell脚本面试题200道Linux面试题51道docker面试题35道Je
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
中药细粒度图像分类小lo想吃棒棒糖分类数据挖掘人工智能
在细粒度图像分类（FGVC）领域，BilinearCNN（BCNN）模型因其能够捕捉图像中的局部特征交互而受到广泛关注。该模型通过双线性池化操作将两个不同CNN提取的特征进行外积运算，从而获得更加丰富的特征表示，这对于区分外观相似但属于不同子类别的物体尤其有效。然而，BCNN通常计算成本较高，限制了其在移动设备或资源受限环境下的应用。为了实现轻量化并保持高精度的细粒度分类，可以考虑将MobileN
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
Transformer、BERT等模型原理与应用案例程序猿全栈の董（董翔）人工智能热门技术领域 transformer bert 深度学习
Transformer、BERT等模型原理与应用案例Transformer模型原理Transformer是一种基于注意力机制的深度学习模型架构，由Vaswani等人在2017年的论文"AttentionIsAllYouNeed"中提出。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同，Transformer完全依赖自注意力机制来处理输入序列的全局依赖关系。核心组件多头自注意力机制(Mul
大模型卷积神经网络（CNN）的架构原理 hao_wujing cnn 架构人工智能
大家读完觉得有帮助记得关注和点赞！！！一、卷积神经网络（CNN）的核心原理与架构CNN是一种专为结构化数据（如图像、文本）设计的深度学习模型，其核心在于层次化特征提取与参数高效共享，使其成为大模型中视觉和多模态任务的基础组件。1.核心结构分层解析输入层接收预处理后的数据（如图像去均值、归一化），为后续卷积操作提供标准化输入39。卷积层（核心）局部感知：每个卷积核（如3×3）仅处理输入数据的局部区域
时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统忆愿高质量领域文章 keras 人工智能深度学习机器学习 python
文章目录引言：当算法遇见时尚第一章数据工程：时尚系统的基石1.1数据获取的多元化途径1.2数据预处理全流程1.2.1图像标准化与增强1.2.2多模态数据处理第二章模型架构设计：从分类到推荐2.1基础CNN模型（图像分类）2.2多任务学习模型（属性联合预测）第三章推荐算法核心3.1协同过滤与内容推荐的融合第四章系统优化4.1注意力机制应用第五章实战演练5.2实时推荐API实现第六章前沿探索：时尚AI
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 语言模型人工智能自然语言处理算法均值算法 prompt
LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其在于跨模态对齐技术——通过训练将图像和文本映射到同一语义空间，使语言模型能够理解视觉信息。一、为什么LLM能识别图像？核心技术原理1.跨模态对齐：让图像与文本说同一种语言向量空间统一：图像通过CNN或ViT编码为特征向量（如512维），文本通过Transformer编码为语义向量（如768维）。CLIP等模型通过对比学习优化编码
PyTorch+CNN进行猫狗识别项目
任务介绍数据结构为：big_data├──train│└──cat│└──XXX.jpg（每个文件夹含若干张图像）│└──dog│└──XXX.jpg（每个文件夹含若干张图像）├──val│└──cat│└──XXX.jpg（每个文件夹含若干张图像）│└──dog└─────└──XXX.jpg（每个文件夹含若干张图像）需要对train数据集进行训练，达到给定val数据集中的一张猫/狗的图片，识别
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

CNN网络结构进化概述

你可能感兴趣的:(CNN)