海鸥-号

一文读懂AI网络结构：LeNet-5 AlexNet VGG Inception ResNet MobileNet

1 引言

当前深度学习十分火热，深度学习网络模型对于降低错误率的重要作用不言而喻。深度学习应用场景主要分为三类：物体识别与分类，物体检测，自然语言处理。在物体识别与分类领域，随着AlexNet在2012年一炮走红，深度学习重新燃起了一片热情。从Lenet5第一次使用卷积开始，经历了AlexNet VGG Inception ResNet等各种模型，错误率也一再降低。ResNet-152 top-5错误率仅为3%左右，远低于人眼的5.1%。本文主要讲解各种网络模型的结构，他们的特点，以及这些特点为何能减少训练时间和降低错误率。

2 LeNet-5

LeNet-5的出现标志着CNN卷积神经网络在AI领域的出现，CNN以视觉感受野和权值共享的思想，大大减少了模型参数，使得深度学习模型训练成为了可能。但由于诞生于1998年，GPU的概念都还没有提出，CPU的性能又是极其低下，而且LetNet-5只能使用在手写字识别等很简单的应用场景，故一直没有火起来。但作为CNN应用的开山鼻祖，学习CNN势必先从学习LetNet-5开始。LeNet-5网络结构如下图

LeNet-5输入为32x32的二维像素矩阵，由于是灰度图，输入通道为1，其正向传播步骤为

先经过一层5x5的卷积，feature map为6，也就是输出通道为6。由于没有在图片四周加padding，像素矩阵大小变为了28x28。这一层参数量为(5x5+1)x6 = 156。
然后经过一层2x2的平均值池化层进行下采样。像素矩阵大小变为了14x14
再经过一层5x5的卷积，feature map为16。像素矩阵大小变为了10x10。这一层参数量为(5x5x6+1)x16 = 2416
然后经过一层2x2的最大值池化层。像素矩阵大小变为了5x5
在经过一层5x5的卷积，feature map为120。像素矩阵大小变为了1x1。这一层参数量为(5x5x16+1)x120 = 48120
然后经过一层全连接层, 输出为84.故这一层参数量为84x120 = 10080
最后一层为Gaussian Connections输出层，输出0~9共10个分类。目前主流输出层已经由softmax来代替

LeNet-5的特点如下

使用了卷积来提取特征，结构单元一般为卷积 - 池化 -非线性激活
已经加入了非线性激活，激活函数采用了tanh和sigmoid，目前大多数情况下我们使用的是relu
池化层使用的是平均值池化，目前大多数情况下我们使用最大值池化
分类器使用了Gaussian Connections，目前已经被softmax替代

3 AlexNet

AlexNet在2012年以16.4%的显著优势问鼎ILSVRC的冠军，重新燃起了人们对于深度学习研究的热情。它第一次采用了relu，dropout，GPU加速等技巧，参数量为6000万，模型大小240M左右。其网络结构如下

AlexNet输入图片为224x224, 输入为RGB三通道。正向传播共5个卷积层和3个全连接层，步骤为

conv1-relu1-pool1-lrn1: 11x11的卷积，步长为4，输出通道96,也就是96个特征图。分为两组，每组48个通道。然后通过一层relu的非线性激活。在经过一层最大值池化，池化核大小3x3, 步长为2。最后再经过一层LRN，局部响应归一化。第一层运算后图片大小为27x27x96
conv2-relu2-pool2-lrn2: 第二层的输入即为第一层的输出，也就是27x27x96的像素矩阵。96个feature map分成两组，分别在两个GPU中进行运算。卷积核大小为5x5, 步长为1，输出通道为128. 然后进过一层relu非线性激活。再经过一层最大值池化，池化核大小仍然为3x3, 步长为2. 最后再经过一层LRN。第二层运算后为两组13x13x128的图片
conv3-relu3: 第三层的输入为第二层的输出，也就是13x13x128的像素矩阵。先经过卷积核大小为3x3x192的卷积运算，步长为1。然后就是relu非线性激活。注意这一层没有max-pooling和LRN。第三层运算后为两组13x13x192
conv4-relu4: 第四层先经过卷积核大小为3x3, 步长为1的卷积运算，然后经过relu非线性激活。第四层运算后尺寸仍然为两组13x13x192的图片
conv5-relu5-pool5:第五层先经过卷积核大小为3x3, 输出通道128，步长为1的卷积运算，然后经过relu非线性激活。最后经过一层大小为3x3, 步长为2的max-pooling, 第五层运算后为两组6x6x128的图片
fc6-relu6-dropout6: 第六层为全连接层，输入为两组6x6x128, 组合在一起也就是6x6x256。输出通道为4096。经过relu和dropout后输出。输出为4096的一维向量
fc7-relu7-dropout7: 第七层为全连接层，输入为4096的一维向量，输出也为4096的一维向量，也就是4096x4096的全连接。然后通过relu和dropout输出。输出为4096的一维向量。
fc8: 第八层为全连接层，输入为4096的一维向量，输出为1000的一维向量，对应1000个分类的输出。也就是4096x1000的全连接。输出为1000的一维向量。经过这一层后就可以通过softmax得到1000个分类的分类结果了。

AlexNet的结构特点为

采用relu替代了tanh和sigmoid激活函数。relu具有计算简单，不产生梯度弥散等优点，现在已经基本替代了tanh和sigmoid
全连接层使用了dropout来防止过拟合。dropout可以理解为是一种下采样方式，可以有效降低过拟合问题。
卷积-激活-池化后，采用了一层LRN，也就是局部响应归一化。将一个卷积核在(x,y)空间像素点的输出，和它前后的几个卷积核上的输出做权重归一化。
使用了重叠的最大值池化层。3x3的池化核，步长为2，因此产生了重叠池化效应，使得一个像素点在多个池化结果中均有输出，提高了特征提取的丰富性
使用CUDA GPU硬件加速。训练中使用了两块GPU进行并行加速，使得模型训练速度大大提高。
数据增强。随机的从256x256的原始图片中，裁剪得到224x224的图片，从而使一张图片变为了(256-224)^2张图片。并对图片进行镜像，旋转，随机噪声等数据增强操作，大大降低了过拟合现象。

4 VGG

VGG为ILSVRC 2014年第二名，它探索了卷积网络深度和性能，准确率之间的关系。通过反复堆叠3x3卷积和2x2的池化，得到了最大19层的深度。VGG19模型大概508M，错误率降低到7.3%。VGG模型不复杂，只有3x3这一种卷积核，卷积层基本就是卷积-relu-池化的结构，没有使用LRN，结构如下图。

VGG的特点如下

采用了较深的网络，最多达到19层，证明了网络越深，高阶特征提取越多，从而准确率得到提升。
串联多个小卷积，相当于一个大卷积。VGG中使用两个串联的3x3卷积，达到了一个5x5卷积的效果，但参数量却只有之前的9/25。同时串联多个小卷积，也增加了使用relu非线性激活的概率，从而增加了模型的非线性特征。
VGG-16中使用了1x1的卷积。1x1的卷积是性价比最高的卷积，可以用来实现线性变化，输出通道变换等功能，而且还可以多一次relu非线性激活。
VGG有11层，13层，16层，19层等多种不同复杂度的结构。使用复杂度低的模型的训练结果，来初始化复杂度高模型的权重等参数，这样可以加快收敛速度。

5 Google Inception

Google Inception是一个大家族，包括inceptionV1 inceptionV2 inceptionV3 inceptionV4等结构。它主要不是对网络深度的探索，而是进行了网络结构的改进。inceptionV1击败了VGG，夺得2014年ILSVRC冠军。之后Google又对其网络结构进行了诸多改进，从而形成了一个大家族。

5.1 InceptionV1

inceptionV1是一个设计十分精巧的网络，它有22层深，只有500万左右的参数量，模型大小仅为20M左右，但错误率却只有6.7%。它的网络结构特点如下

去除了最后的全连接层，而使用全局平均池化来代替。这是模型之所以小的原因。AlexNet和VGG中全连接几乎占据了90%的参数量。而inceptionV1仅仅需要1000个参数，大大降低了参数量
inception module的使用。借鉴与Network in Network的思想，提出了inception module的概念，允许通道并联来组合特征。其结构如下

inception module分为并联的四路，分别为单独的1x1卷积，1x1并联3x3, 1x1并联5x5, 池化后1x1卷积。使用不同的卷积结构来提取不同特征，然后将他们组合在一起来输出。使用了1x1,3x3,5x5等不同尺寸的卷积，增加了提取特征面积的多样性，从而减小过拟合

5.2 inceptionV2

inceptionV2和V1网络结构大体相似，其模型大小为40M左右，错误率仅4.8%，低于人眼识别的错误率5.1%。主要改进如下

使用两个串联3x3卷积来代替5x5卷积，从而降低参数量，并增加relu非线性。这一点参考了VGG的设计
提出了Batch Normalization。在卷积池化后，增加了这一层正则化，将输出数据归一化到0~1之间，从而降低神经元分布的不一致性。这样训练时就可以使用相对较大的学习率，从而加快收敛速度。在达到之前的准确率之后还能继续训练，从而提高准确率。V2达到V1的准确率时，迭代次数仅为V1的1/14, 从而使训练时间大大减少。最终错误率仅4.8%

5.3 inceptionV3

inceptionV3的网络结构也没太大变化，其模型大小96M左右。主要改进如下

使用非对称卷积。用1x3+3x1的卷积来代替一个3x3的卷积，降低了参数的同时，提高了卷积的多样性
分支中出现了分支。如下图

5.4 inceptionV4

inceptionV4主要是借鉴了resNet残差网络的思想，可以看做是inceptionV3和resNet的结合。inceptionV4模型大小163M，错误率仅仅为3.08%。主要在ResNet网络中讲解

6 ResNet

6.1 ResNetV1

ResNet由微软提出，并夺得了2015年ILSVRC大赛的冠军。它以152层的网络深度，将错误率降低到只有3.57%，远远低于5.1%的人眼识别错误率。它同样利用全局平均池化来代替全连接层，使得152层网络的模型不至于太大。网络中使用了1x1 3x3 5x5 7x7等不同尺寸的卷积核，从而提高卷积的多样性。resNetV1_152模型大小为214M，不算太大。

ResNet提出了残差思想，将输入中的一部分数据不经过神经网络，而直接进入到输出中。这样来保留一部分原始信息，防止反向传播时的梯度弥散问题，从而使得网络深度一举达到152层。当前有很多人甚至训练了1000多层的网络，当然我们实际使用中100多层的就远远足够了。残差网络如下图

ResNet的主要特点，就一个字，深！

6.2 ResNetV2

ResNetV2相对于V1的最大变化，就是借鉴了inceptionV2的BN归一化思想，这样来减少模型训练时间。

7 MobileNet

为了能将模型部署在终端上，需要在保证准确率的前提下，减小模型体积，并降低预测时的计算时间，以提高实时性。为了能到达这一目的，Google提出了mobileNet框架。最终mobileNetV1_1.0_224模型以16M的大小，可以达到90%的top-5准确率。模型甚至可以压缩得更小，mobileNetV1_0.25_128只有10M左右，仍然能达到80%的准确率。

7.1 mobileNet depthwise原理

mobileNet模型的核心是，将一个普通的卷积拆分成了一个depthwise卷积和一个1x1的普通卷积(也叫pointwise卷积）。depthwise卷积层的每个卷积只和输入的某一个channel进行计算，而combining则由1x1的卷积来负责。如下图

对于卷积核dk*dk,输入通道为M，输出通道为N的普通卷积，每个输出通道都是由M个卷积分别和输入通道做计算，然后累加出来，所以需要的参数量为dk x dk x M x N。而对于depthwise卷积，每个卷积只和输入通道的某一个通道发生计算，并且不需要累加操作，其卷积后的输出通道和输入通道相等，仍然为M。然后再经过一层1x1的普通卷积。故其参数为dk x dk x M + 1 x 1 x M x N。

mobileNet参数量比原来减少了多少呢，我们由下面的计算可以得出

(dk x dk x M + 1 x 1 x M x N) / (dk x dk x M x N) = 1/N + 1/(dk^2)

由于输出通道一般都比较大，为48 96 甚至4096，故一般取1/(dk^2)，对于最常见的3x3卷积，mobileNet参数量可以降低为原来的1/9.

7.2 mobileNet网络结构

mobileNet一共包含28层，第一层的卷积为普通卷积，之后的卷积为分解的3x3 depthwise卷积和1x1 pointwise卷积。另外，最后有一个全局平均池化层和全连接层。并利用softmax得到分类结果。如下图所示

7.3 mobileNet可裁剪化

为了得到更小的模型，mobileNet还可以进行输入通道和分辨率的剪裁，称为Width Multiplier 和 Resolution Multiplier。Width Multiplier 表示输入通道变为baseline的多少倍， Resolution Multiplier表示输入图像缩小为多少。经过剪裁后的mobileNetV1_0.25_128模型，只有10M左右，准确率仍然可达到80%左右。作为端上图像预处理完全足够。下面是Width Multiplier 和 Resolution Multiplier的结果

8 总结

CNN已经广泛应用在物体识别和分类领域，短短几年间就出现了AlexNet VGG inception ResNet等优秀的神经网络结构，并且每隔几个月就问世一种优秀网络结构，可以说是百花齐放。这要归功于TensorFlow等框架的成熟和GPU等硬件性能的提升，使得网络结构的设计和验证日趋平民化。各种网络结构，其实本质上也是在解决神经网络的几大痛点问题，如下

减少模型参数量，降低模型体积
加快训练收敛速度，减少训练耗时
加快模型预测计算时间，提高实时性。这主要还是通过减少参数量来达到
减少过拟合问题
减少网络层级过深时的梯度弥散问题

学习网络模型，不应该去死记硬背，因为有源源不断的网络结构涌现。我们应该重点掌握每个模型的特点，以及他们是如何来解决上面列举的这些神经网络痛点的。

ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
深度学习核心知识简介和模型调参研术工坊深度学习知识和技巧深度学习人工智能 python
深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。###核心参数及其影响####1️⃣Loss（损失函数）**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。**生活类比**：想象你在教小孩认识动物：-**完美情况**：小孩看到猫说"猫"，看到狗说"狗"→Loss=0-**有错误**：小孩看到猫说"狗"→
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
2025年跑深度学习电脑配置-深度学习显卡推荐 OpenCV图像识别人工智能深度学习智能电视人工智能
2025年跑深度学习任务，电脑配置需从处理器、内存、显卡、存储、散热与电源、扩展性、网络连接等多方面综合考量，以下是具体分析：处理器（CPU）多核高性能：深度学习涉及大量并行计算任务，需要处理器具备强大的多核处理能力。英特尔至强Scalable处理器（SapphireRapids或后续架构）和AMDEPYC处理器（Genoa或后续架构）是不错的选择。英特尔至强Scalable处理器提供卓越的单核性
【深度学习第六期深度学习中的归一化与正则化技术：原理、实践与应用】码上有前 Python 深度学习 Pytorch 深度学习人工智能 cnn
作者：“码上有前”文章简介：深度学习欢迎小伙伴们点赞、收藏⭐、留言深度学习中的归一化与正则化技术：原理、实践与应用摘要：本文深入探讨深度学习中批量归一化（BN）、层归一化（LN）、标准化以及正则化等关键技术。详细阐述它们的基本原理，包括如何调整数据分布、控制模型复杂度等；通过丰富的实例和对应代码，展示在不同网络架构中这些技术的具体实现方式，以及对模型训练和性能的影响；同时，对比分析各项技术的特点和
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
大模型与智能体：螺旋共生，绘就智能新蓝图东锋17 人工智能大模型智能体人工智能
大模型与智能体：螺旋共生，绘就智能新蓝图在人工智能的前沿领域，大模型与智能体宛如两颗璀璨的星辰，以一种精妙的螺旋共生关系，重塑着智能世界的格局，深刻影响着我们生活与工作的方方面面。大模型：构筑智能大厦的基石大语言模型，像广为人知的GPT-4、通义千问等，凭借在海量数据中深度学习的锤炼，展现出卓越的语言理解与生成天赋。它们就像知识渊博的学者，能熟练应对各类自然语言任务。无论是洋洋洒洒的文章创作，还是
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【深度学习-Day 35】实战图像数据增强：用PyTorch和TensorFlow扩充你的数据集吴师兄大模型深度学习入门到精通深度学习 pytorch tensorflow 人工智能 python 大模型 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【深度学习】【入门】Linear和flatten 学习中的阿陈深度学习人工智能
1.Linear1.Linear的概念Linear层，通常也被称为全连接层，是神经网络中一种经典且基础的层结构。它的核心特点是每一个神经元都与上一层的所有神经元相连接，这种全连接的方式使得信息能够在层与层之间充分传递和整合2.Linear层的作用Linear层在神经网络中主要承担着特征整合与输出映射的重任。在经过卷积、池化等层提取出数据的局部特征后，Linear层能够将这些分散的局部特征进行整合，
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
深度学习基础2 TY-2025 深度学习深度学习人工智能
5.张量索引操作（1）索引操作行列索引列表索引print(data[[0,2],[1,2]])#返回(0,1)，(2,2)两个位置的元素print(data[[[0],[1]],[1,2]])#返回0，1行的1，2列共4个元素范围索引print(data[:3,:2])#前3行前2列数据print(data[2:,:2])#第2行到最后的前2列数据布尔索引tensor([[0,7,6,5,9],[
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后