镰刀韭菜

【AI理论学习】CNN模型演变：从VGGNet到EfficientNet

CNN模型演变：从VGGNet到EfficientNet

1. 卷积神经网络模型变迁简介
2. VGGNet
3. Inception
4. ResNet
5. MobileNet
6. MobileNet v2
7. EfficientNet
总结
参考文献

内容来源：https://zhuanlan.zhihu.com/p/583901845，作者：deephub

1. 卷积神经网络模型变迁简介

卷积神经网络（CNNs）模型变迁的主要里程碑有模块化、多路径、因式分解、压缩、可扩展。一般来说，分类问题是计算机视觉模型的基础，它可以延申解决更复杂的视觉问题，例如：目标检测的任务包括检测边界框并对其中的对象进行分类。而分割的任务则是对图像中的每个像素进行分类。卷积神经网络首次被用于解决图像分类问题，并且取得了很好的效果，所以在这个问题上，研究人员开始展开竞争。通过对ImageNet Challenge中更精确分类器的快速跟踪研究，他们解决了与大容量神经网络的统计学习相关的更普遍的问题，促进了深度学习的重大进展。在本文中我们将整理一些经典的CNN模型，详细介绍这些模型的设计理论和关键创新点。

2. VGGNet

介绍的第一个CNN，命名是为VGGNet。它是AlexNet的直接继承者，AlexNet被认为是第一个“深度”神经网络，这两个网络有一个共同的祖先，那就是Lecun的LeNet。

从它开始，尽管它的年代久远，但是由于VGGNet的特殊性，直到今天仍然站得住脚（这是极少数的DL模型能够做到的）。第一个介绍VGGNet还有一个原因是它还建立了后续CNNs所采用的通用组件和结构。

如上图1所示，卷积神经网络从一个输入层开始，它与输入图像具有相同的尺寸，224 x 224 x 3。
然后，VGGNet堆叠第一个卷积层（CL 1），其中包括64个大小为3 × 3的核，输出一个224 x 224 x 64的张量。

接下来，它在具有相同配置的 64 个通道上堆叠使用相同大小的 3 x 3 核的CL 2，生成相同尺寸的特征映射。
然后，使用filter size为2 x 2、填充和步幅为2的最大池化来降低特征映射的空间分辨率，从224 x 224 x 64降低到112 x 112 x 64。最大池并不影响特性映射深度，因此通道的数量仍然是64。

这里将这三层之上称作Module 1，一般情况下也被称作stem，可以理解为它提取的是最基本的线条特征。我们将其称为Module 1是因为它定义为以一定分辨率操作的处理单元。所以可以说：VGGNet的Module 1以224 x 224分辨率工作，并生成分辨率为112 x 112的特征图，后面的Module 2继续在其上工作。

类似地，Module 2也有两个带有 3 x 3 核的CLs，用于提取更高级别的特征，其次是最大池化，将空间分辨率减半，但核的数量乘以2，使输出特征映射的通道数量翻倍。

每个Module 处理输入特征映射，将通道加倍，将空间分辨率除以2，以此类推。但是不可能一直这样做，因为Module 6的空间分辨率已经是7x7了。

因此，VGGNet包括一个从3D到1D的展平（flatten）操作，然后应用一个或两个稠密层，最后使用softmax计算分类概率(这里是1000个标签)。

总结一下VGGNet引入的设计模式，以在准确性方面超越所有以前的研究:

模块化架构允许卷积层内的对称性和同质性。通过构建具有相似特征的卷积层块，并在模块之间执行下采样有助于在特征提取阶段保留有价值的信息，使用小核，两个 3x3 核的卷积的感知范围可以等效于单个 5x5 的感知范围。级联的小核卷积也增强了非线性，并且可以获得比具有一层更大核的更好的精度。小核还可加快 Nvidia GPU 上的计算速度。
与平均池化或跨步卷积（步幅大于 1）相比，最大池化操作是一种有效的下采样方法。最大池化允许捕获具有空间信息的数据中的不变性。因为图像分类任务需要这种空间信息减少才能达到类别分数的输出，而且它也被“流形假设”证明是合理的。在计算机视觉中，流形假设指出 224 x 224 x 3 维度空间中的真实图像表示非常有限的子空间。
将整体下采样与整个架构中通道数量的增加相结合形成金字塔形结构。通道的倍增补偿了由于学习到的特征图的空间分辨率不断降低而导致的表征表达能力的损失。在整个层中，特征空间会同步变窄和变深，直到它准备好被展平并作为输入向量发送到全连接层。每个特征都可以看作一个对象，其存在将在整个推理计算过程中被量化。早期的卷积层捕获基本形状，因此需要的对象更少。后面的层将这些形状组合起来，创建具有多种组合的更复杂的对象，所以需要大量的通道来保存它们。

3. Inception

接下来介绍与VGGNet同年出现但晚一点的第二个CNN，Inception[5]。这个名字的灵感来自克里斯托弗诺兰的著名电影，这个网络引发了关于“寻求更深层次的 CNN”的争论，并很快变成了一个问题。事实上，深度学习研究人员意识到，如果能正确训练更深层次的神经网络，那么获得的准确性就越高，尤其是在涉及 ImageNet 等复杂分类任务时。简而言之，更多的堆叠层提高了神经网络的学习能力，使其能够捕捉复杂的模式并并能在复杂的数据中进行泛化。

但是设法训练更深的网络是非常困难的。堆叠更多层会产生成本，并使训练神经网络变得更加困难。这是由于梯度消失问题，当损失梯度通过无数计算层反向传播，并逐渐收敛到几乎为零的微小的值时，就会发生这种情况。因此训练网络的早期层（距离输入近的层）变得很复杂，这些层无法执行特征提取并将提取的信息传递给后续层。

在Inception中，研究人员在一个深度级别上模拟了几个层。这样既增强了神经网络的学习能力，又扩大了神经网络的参数空间，避免了梯度的消失。

上图 2 是这个多尺度处理层的内部视图结构。关注蓝色组件，看到一个 $n x n x 3$ 的输入层和一个 $\sum k_i$ 的输出层。它不是应用 k 个大小为 3x3 的卷积滤波器，而是并行应用多个处理层。相同的输入将同时通过 1x1 卷积、3x3 卷积、5x5 卷积和最大池化（步长为 1 以保持分辨率）。然后将所有生成的大小为 nxnxk1、nxnxk3、nxnxk5 和 nxnxk 的特征图连接成大小为 $\sum k_i$ 的输出特征图。

但是可以看到多尺度的特征的维度并不相同，所以这里的红色组件聚合来自不同感知领域和处理路径的多尺度特征。每条路径至少产生 k 个通道，其中 k 是输入通道的数量。

记住我之前提到的：使用最大池层的下采样阶段不会影响通道数。但是堆叠多个多尺度层肯定会引发内存不足异常，为了克服这个问题初始设计者引入了逐点卷积，只是经典的卷积层，但是核大小为1 x 1，这样r < k，从而有效地减少特征图的深度，而不会牺牲此时提取的相关数据处理水平。

Inception的主要设计成果:

多路径是基于在体系结构中包含多重分支的想法，模拟单个神经网络中的子网络的集成。这种多尺度分层是很重的（资源需求和计算大），从来没有被广泛采用，但是在一个层内组合多条路径的能力激发了后续神经网络的发展。
1x1卷积是计算机视觉中一种非常有用和普遍的工具。这是一种低成本的操作，参数占用小，处理时间相对较快。使用它可以有效地减少在输出特征图中的通道数量，使神经网络需要更少的内存和计算能力。增加额外的1x1卷积层会减少参数的数量，这是因为每一层的参数数量受到输入通道数量的强烈影响。

4. ResNet

接下来是ResNet[6]，它是最具革命性的深度学习发明之一，也是被引用次数最多的研究论文之一。这是因为ResNet是第一个成功堆叠超过100层的CNN。在当时100个层完全是疯狂的想法。现在我们谈论的是transformers中的一千亿个参数都是很平常的事情。但是在当时，如果告诉你ResNet有100层时，你肯定会先问：他们解决了梯度消失的问题了吗？这是ResNet出名的原因。因为今天我们不再听到梯度消失问题任何声音了。

让我们看看这个革命性的技巧。使用VGGNet模块化架构，并更改单个块的内容。如下图3所示，残差块有n x n x 3作为输入，也有n x n x 3作为输出。

处理路径之一是一个带有 3 x 3核的标准卷积，然后在它旁边添加一个快捷/跳过连接，即，一个直接将输入传递到输出的单位函数。这是深度学习领域最具革命性的创新之一。乍一看可能很奇怪，但你想得越多它就越合乎逻辑。

Resnet是一堆模块加上下采样，然后是堆叠更多模块加上再次下采样。在模块内包含一个残差块，其中包含将输入链接到输出的跳过/残差连接。输入的数据只通过这些快捷连接，这正是 ResNet 解决梯度消失问题的原因。

**当输入通过快捷连接(一个恒等函数)时如何不丢失梯度？**有两件事可以解释：

ResNet的跳过连接允许绕过给定输入数据的任何不必要的处理级别，因为深度神经网络中的一些层可能与检测应用于对象子集的特定模式有关。
我们可以假设输入包含响应，计算层的目标是细化它，直到推导出类。因此在每个级别添加处理结果作为迭代细化时，维护原始输入流是有意义的。

因为ResNet的出现，所以ImageNet社区决定不再进行神经网络层数堆叠挑战，因为问题已经解决，争论也差不多结束了。研究人员已经开始着手解决其他的问题，例如：试图减少FLOPS或内存占用的总数。这就是我接下来要讨论的神经网络。

5. MobileNet

我们在成本最小化时代的第一个CNN是MobileNet[7]。它是一个紧凑的CNN，参数较少，在移动平台上运行速度快，同时也提供高性能。

MobileNet的诀窍在于将卷积运算分解为两阶段的超高效处理。

如上图4所示，经典的卷积层通过3D过滤器，每个核在输出特征映射中产生一个通道。作为一种替代方案，MobileNet提出了一种深度卷积，其中应用一堆仅二维过滤器，这些过滤器通过输入张量的所有通道。

它所做的只是采用了单个过滤器的结果，不是将它们相加而是让它们保持非连接，这只是一个经典卷积的应用？

是的，但是这样做的话，最终会得到许多独立的特征图，如果我们只是将它们连接起来，那么不同的渠道之间将不再有任何关联。但是我们忽略了两点：一是特征映射需要链接，二是通道需要改变。

来自Inception的一个重要结论就出来了：当我们想要以较低的代价改变通道的数量时，我们使用点（1x1）卷积。

所以MobileNet将点向卷积应用到由深度卷积得到的特征图上。如下图5所示，使用任意数量的1x1过滤器来生成任意数量的通道。例如乘以k来得到典型的特征映射，其大小为 n x n x k。

在图5中，首先看到一个处理2D空间信息的深度卷积，然后是一个合并和处理z维通道信息的点卷积。

6. MobileNet v2

MobileNet已经发布了第二个版本。MobileNet v2[8]是一个残差神经网络，也就是说它将残差块堆叠到更深的层次，除了在层内部，它还分解了卷积操作，以达到成本效益。

MobileNet v2将这些层划分为一组处理高维数据处理，另一组压缩信息并将其传输到相邻的层。

上图6中是MobileNet v2的基础块。首先使用点卷积达到高维k > r，然后使用深度卷积有效地分析信息，最后再次使用点向卷积返回低维。除此以外还包含了一个从输入层到输出层的快捷连接。

这样的压缩是如何在不降低性能的情况下工作呢？这个可以参考VGG中提到的系统下采样的假设。

7. EfficientNet

EfficientNet[9]，这篇文章中要讨论的最后一个CNN。尽管它是在2019年底发布的，但它已经老了。如图7所示，该网络的性能超过了目前为止所有其他神经网络。

让我们详细看看是什么让它如此强大。EfficientNet可以说是MobileNetv2，在网络规模上的调整。它真的很简单，并且非常有效，这也可能是它被称作Efficient的原因吧。

EfficientNet也会堆叠反向残差块，但对神经网络的深度、宽度和分辨率的任意选择提出了自己的理解：网络的深度对应于网络的层数。宽度与一层中的神经元数量相关，或者更确切地说，与卷积层中的核器数量相关。分辨率是输入的高度和宽度。

EfficientNet提出了一种简单但有效的缩放技术，使用复合系数 $ɸ$ 以原则性的方式均匀缩放网络的宽度、深度和分辨率。 $ɸ$ 是一个用户定义的全局比例因子(整数)，它控制可用资源的数量，而 $α$ 、 $β$ 和 $γ$ 决定如何分别将这些资源分配给网络深度、宽度和分辨率。

因此，通过设置 $ɸ = 1$ ，可以使用网格搜索确定超参数- α， β和γ-。由于网络规模小，计算速度快。当确定最优超参数时，可以增大复合系数ɸ，从而得到更大、更精确的模型。这就是不同版本的efficiency entnet: B1到B7是如何构造的，B旁边的整数表示复合系数的值。

使用这个网络规模启发式的方法优于所有最先进的CNN，尽管所有的设计结构和模式都与MobileNet v2相同。

上面说的是高情商的解释，如果看不懂的话，那么直白的解释是什么呢：EfficientNet是暴力调参的结果

总结

2014年是深度学习的元年。现在当你看到VGGNet、ResNet或EfficientNet时可能觉得已经很老了，但是他们的改进和里面的思路对于我们来说还是非常重要的，这些论文都是值得阅读和实验的。如果你对CNN感兴趣，可以去看看efficient entnetv2[10]，它是在2021年底发布的。

参考文献

[1] Sumit Saha, A Comprehensive Guide to Convolutional Neural Networks, TDS, 2018
[2] Simonyan et al., Very Deep Convolutional Networks for Large-Scale Image Recognition, 2014
[3] Krizhevsky et al., ImageNet Classification with Deep Convolutional Neural Networks, 2012
[4] Yann Lecun, LeNet-5 convolutional neural networks, 1998
[5] Szegedy et al., Going Deeper with Convolutions, 2014
[6] He et al., Deep Residual Learning for Image Recognition, 2016
[7] G. Howard et al., MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, 2017
[8] Sandler et al., MobileNetV2: Inverted Residuals and Linear Bottlenecks, 2018
[9] Tan et al., EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks, 2019
[10] Tan et al., EfficientNetV2: Smaller Models and Faster Training, 2021

和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
基于Python Anaconda环境，使用CNN-LSTM模型预测碳交易价格的完整技术方案神经网络15044 仿真模型算法机器学习 python cnn lstm
以下是一个基于PythonAnaconda环境，使用CNN-LSTM模型预测碳交易价格的完整技术方案。内容涵盖数据预处理、模型构建、训练优化、预测可视化和结果分析等核心环节，代码与文字说明共计超过6000字。基于CNN-LSTM的碳交易价格预测系统设计与实现一、项目背景与目标1.1碳交易市场概述碳交易作为应对气候变化的重要市场机制，其价格波动直接影响企业减排决策。准确预测碳价（CarbonEmis
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
编译OpenCV支持CUDA视频解码 AI标书 python openvc cuda nvidia docker build
如何在Ubuntu上编译OpenCV并启用CUDA视频解码支持（cudacodec）在深度学习、视频处理等高性能计算领域，OpenCV的GPU加速功能非常重要。特别是它的cudacodec模块，能直接利用NVIDIA硬件实现高效的视频解码，极大提升性能。本文将基于Ubuntu环境，详细介绍从环境准备到编译安装OpenCV，并开启cudacodec模块的全过程。完整的shell脚本以及本次编译所用到
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一