shelley__huang

我的模型有多快？——深度学习网络模型的运算复杂度、空间占用和内存访问情况计算

深度网络的计算消耗是学术 paper 相对少见的话题。当然，早期网络精度不够的情况下讨论压缩也没有意义。工程师需要实现模型并让网络尽可能地在各类环境下工作，模型的资源消耗情况和运行速度非常关键。

原文以移动端的模型应用为例，列出了四个主要问题：

空间占用——单个模型的参数文件要占用多大空间
内存占用——运行在手机或平板上时需要占用多大的 RAM
运行速度——尤其考虑实时的视频和大图像处理情形
耗电情况——我可不想要暖手宝

案例：作者的一位客户最近用 MobileNetV2 替换掉了 V1 模型，按理说V2 的计算量远小于 V1 ，

（注：可参考
https://www.zhihu.com/question/265709710/answer/299136290，https://www.reddit.com/r/MachineLearning/comments/8a7sf6/d_mobilenet_v2_paper_said_depthwise_separable/。
官方已经放出模型 https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet 页面上也有实验测试结果。看完全文也会发现 V2 不比 V1 慢。作者这里有点标题党。）

1.计算消耗

可以用 FLOPS（floating point operations per second，每秒浮点运算数）来衡量模型的速度。另一种方法是 MACCs（multiply-accumulate operations，乘-加操作），也叫 MAdds。但说穿了，都是点积运算而已。

什么叫乘-加？神经网络里的运算大都是这样的：

y = w[0]*x[0] + w[1]*x[1] + w[2]*x[2] + … + w[n-1]*x[n-1]

w 和 x 都是向量，y 是标量。上式是全连接层或卷积层的典型运算。一次乘-加运算即一次乘法+一次加法运算，所以上式的 MACCs 是n 。

不过可以看到，加法运算的次数并非 n 而是 n-1 。但考虑 MACCs 时可以类比算法复杂度估算的 big-O ，即结果可以是近似的。

而换到 FLOPS 的情况，点积做了 2n-1 FLOPS，即 n-1 次加法和 n 次乘法。可以看到，MACCs 大约是 FLOPS 的一半。

1.1 全连接层

全连接层的计算

y = matmul(x, W) + b

权重 W
是一个 I×J 矩阵，输入 x 是 I 维实值向量，b 是 J 维偏置。输出 y 也是 J维实值向量。FC 层的 MACCs 也不难计算。

上文例子是向量与向量的点积，FC 是向量与矩阵的点积，每一组点积发生在输入 x
同权重 W 某一列之间，计有 I MACCs，一共要计算 J 组点积，所以 FC 层的 MACCs 总计 I×J，跟权重的尺寸一致。

偏置项 b
对 MACCs 的影响可以忽略不计。而上面也提到 MACCs 中加法比乘法少一次， b

刚好补上了这个缺。

所以，对I的输入、权重为 I×J 的权重矩阵和 J 的输出，MACCs 为 I×J ，FLOPS 为 (2I−1)×J。

举例：

一个全连接层，输入 100 维，输出 300 维，MACCs 有 300×100=30,000
。不过，如果一个全连接层紧接着卷积层，输入可能没有指定长度 I 但有 feature map 的尺寸比如（512, 7, 7）。在 Keras 里就需要写一行 Flatten 把它展平，这样此时的 I 就是 512×7×7了。

1.2 激活函数

FC 完了接下来通常有个激活函数，ReLU 或者 Sigmoid。激活函数的计算没有点积，所以只用 FLOPS 衡量。

对输出为 J FC 层，ReLU 有 J

FLOPS：

y = max(x, 0)

相比之下 Sigmoid 就复杂很多。

y = 1/(1+exp(-x))

我们把加减乘除、指数、平方根等等运算都算作一次 FLOPS，这里有除法、加法、指数和减法四种运算，所以 FLOPS 就是 J×4。

相对于全连接的矩阵运算，激活函数的计算量通常忽略不计（博主注：不一定，看情况）。

1.3 卷积层

卷积层要单独算而不是用全连接层的结论，是因为输入至少是三维的：H×W×C。对于这样的卷积层，MACCs 有：

K×K×Cin×Hout×Wout×Cout

解释一下：

输出的 feature map 里每个通道上有 Hout×Wout个元素，权重以 K×K大小的窗口，在所有的 Cin个通道上做点积，共有 Cout个卷积核，上述操作重复了 Cout 次

同样，这里也忽略了偏置和激活函数。不应该忽略的是 stride（步长）、dilation factors（漏孔/膨胀卷积）、padding（填充），这就是为什么直接从输出尺寸 Hout×Wout

开始算的原因——都已经考虑在内了。

举例：

3×3卷积，128 个 filer，输入的 feature map 是 112×112×64，stride=1，padding=same，MACCs 有：

3×3×64×112×112×128=924,844,032

接近十亿的乘-加操作。

1.4 Batch Normalization

计算公式：

z = gamma * (y - mean) / sqrt(variance + epsilon) + beta

首先以输入为卷积层的情况为例。

每个通道上都存在一组 mean 、beta 、gamma 、variance ，C个通道就有 C×4个可学习的参数。而且 BN 是作用在每一个元素上的，这样看来，造成的 FLOPS 应该不少。

但有趣的是，在 BN 直接连接卷积层的情况下，即 Conv-BN-ReLU 时，通过一组推导，可以将 BN 的计算整合到卷积层当中（注意这是 inference 的情况，跟训练阶段差别很大），从而消去的 BN 层造成的 FLOPS。如果是 Conv-ReLU-BN 的结构这一套就行不通了。

（ BN 层的计算结合到 Conv 层中去，BN 层的 FLOPS 消失了，Conv 层需要乘一个常系数）

即从结果上来说，在 inference 时模型中的 BN 层实际被消去了。

1.5 其他层

像 Pooling 层虽然确实很关键，但没有用到点积运算，所以 MACCs 不能很好地衡量这部分计算消耗。如果用 FLOPS，可以取 feature map 的尺寸然后乘一个常系数。

如 maxpooling 层，stride=2、filter_sz=2（即输出保持相同尺寸），112 x 112 x 128 的feature map，FLOPS 就是 112 x 112 x 128 = 1,605,632 。相对卷积层和全连接层的运算，这个计算量比较小，所以也可以忽略不计。

RNN 这里不做讨论。简单来说，以 LSTM 为例，计算主要是两个大的矩阵乘法，sigmoid，tanh 和一些元素级的操作。可以看成两个全连接层的运算，所以 MACCs 主要取决于输入、输出和隐状态向量的尺寸。点积运算还是占了大头。

2. 内存占用

内存带宽其实比 MACCs 更重要。目前的计算机结构下，单次内存访问比单次运算慢得多的多。

对每一层网络，设备需要：

从主内存中读取输入向量 / feature map
从主内存中读取权重并计算点积
将输出向量或 feature map 写回主内存

涉及大量的内存访问。内存是很慢的，所以网络层的内存读写对速度有很大的影响，可能比计算耗时还要多。

2.1 权重的内存占用

全连接层有 I x J 大小的权重矩阵，加上偏置向量共计 (I + 1) x J 。

卷积层的 kernel 通常是正方形的，对 kernel_sz = K 和输入通道为 Cin 、输出 Cout 和额外的 Cout 个偏置的情况，共有 (K x K x Cin + 1) x Cout 个参数。对比之下卷积层的参数量远小于全连接。

举例：

全连接层有4096个输入和4096个输出，所以权重数 (4096+1) x 4096 = 16.8M 。

3 x 3 、48个卷积核，在64x64 、32个通道的输入上计算，共有 3 x 3 x 32 x 48 + 48 = 13, 872 个权重。

注意到此处卷积层的输入实际是全连接层的32倍（通道），输出是48倍，然鹅权重数只有后者的千分之一不到。全连接层的内存占用真的很可怕。

作者注：卷积层可以看作一个受限连接的全连接层，即权重对 k x k 以外的输入置零，不使用。

2.2 feature maps 和中间结果

CS231n 的 Lesson 9 专门花了很多篇幅讲 feature map 的计算，可以参考。

还是举例说明。卷积层的输入是 224x224x3 ，把所有这些值读出来需要访问 150,528 次内存。如果卷积核是 KxKxCout ，还要乘上这个系数（因为每次卷积都要访问一遍）。拿 stride=2, kernel 数为32的情况来说，输出的 feature map 尺寸为 112x112x32，共计 401,408 次内存访问。

所以，每层的内存访问总数如下：

input = Hin x Win x Cin x K x K x Cout

output = Hout x Wout x Cout

weights = K x K x Cin x Cout + Cout ，按上例：

input = 224 x 224 x 3 x 3 x 3 x 32 = 43,352,064
output = 112 x 112 x 32 = 401,408
weights = 3 x 3 x 3 x 32 + 32 = 896
total = 43,754,368

当网络层数加深时，Hin Win 会越来越小，但通道数会变得很大：

input = 28 x 28 x 256 x 3 x 3 x 512 = 924,844,032
output = 28 x 28 x 512 = 401,408
weights = 3 x 3 x 256 x 512 + 512 = 1,180,160
total = 926,425,600

这种情况下 weights 部分也会变得很大，所以是不能忽略的。

raw_convnet

这幅图是通过开源的工具draw_convnet(https://github.com/gwding/draw_convnet)生成的。在清楚整个前向计算网络中的每一个层的输入输出以及参数设置后可以自己手动画出计算图出来，对于参数量计算就很直观了。
feature map大小计算

输入：N0*C0*H0*W0

输出：N1*C1*H1*W1

输出的feature map大小：

H1=(H0+2×pad−kernel_size) / stride+1

W1=(W0+2×pad−kernel_size) / stride+1

当输入的H0 == W0时，公式可以简化为：

H1=W1=(h + 2xpad - kernel_size) / stride + 1

注：当stride为1时，若pad=(kernel_size−1) / 2，那么经过计算后的feature map大小不变

LeNet-5

下面是一个多通道图像的输入LeNet-5网络前向计算模拟图：

网状立体格子表示kernel，其他颜色方图表示feature map(Input表示输入层，可以看做特殊的feature map)一个kernel对应一个feature map参数量主要为kernel大小每个kernel带一个bias

整个网络占据权重的为Convolution/Innerproduct 两层，分别计算参数量为，：

C1： 5 x 5 x 20 = 500，5x5卷积核， 20个feature map输出，20个kernel

C2： 20x 5 x 5 x 50 = 25000 ，20维度输入，则20x5x5 kernel，50个feature map输出，即相当于20通道的图像输入，则需要20x5x5的kernel来卷积乘，50个这样的卷积核操作得到50个feature map，50个kernel

F1： 50x4x4x500 = 400000，50维度特征图输入，全连接，每个点做卷积乘，则kernel大小为50x4x4，共500个feature map输出，500个kernel

F2 : 500x1x1x10 = 5000，500维度特征图输入，全连接，kernel大小为500x1x1，共10个feature map输出，10个kernel

用4bytes的float类型来存储参数，则总的参数量大小为：

500 + 25000 + 400000 + 5000 + （20 + 50 + 500 + 10） = 431080

字节数为：

431080 x 4 = 1724320 ≈ 1683.90625kb ≈ 1.64M
对比实际LeNet-5网络基于caffe训练出来的模型大小为：1.64 MB (1,725,025 字节)，基本接近，因为模型中可能还带有附加特性参数。

2.3 Fusion

这一节的意思是，像 ReLU 这样比较简单的运算，如果不做优化，在计算时近乎是从输入到输出做了一次拷贝。计算可以认为不耗时间，但内存访问还是有消耗的，所以可以把这一步同卷积层的计算合成，从而节省了一轮内存读写。

3. MobileNet V2 vs. V1

这部分作者讲了他认为 V2 不会比 V1 快的分析过程。结论跟开头博主引的图相近，即乘子都为1.0时，V2是显著快于V1的，但V2在乘子为1.4时速度比V1稍慢。

至于原因嘛，简单来说就是 V2 的层数更深，每层的输入输出参数读写导致内存访问量大增。因此作者认为影响 inference 速度的瓶颈其实不在 MACCs，而是内存访问数（memory accesses）。

V2 with multiplier=1.4 的速度略慢于 V1，但精度高出不少；V2 with multiplier=1.0 速度比 V1 快很多。可以根据需要进行取舍。官方页面上也给了很多实验参考。

然后作者对 VGG16 做了一点考察，结论很有意思。

VGG16 经常被当作图像方面的特征提取器，结构很简单，层数也不多，看起来好像计算比较多、内存访问会少一些，真的是这样吗？对比 MobileNet（输入按移动设备16:9的规格，是126x224，可以算出以下结果：

VGG16 params: 15M
VGG16 MACCs : 8380M
VGG16 MAes  : 8402M

所以更大的 feature map 导致了更多的内存访问。

4 结论

论文中 MobileNet V2 主要比较了 MACCs 和参数量，指出因为这两项规模更小所以速度更快。但实际上还要考虑内存访问的情况。

另外本文给出的 MACCs、内存访问、参数量都是估计值，只用于同类模型的复杂度比较，出了这个语境是毫无意义的。
进一步阅读

论文：

Convolutional Neural Networks at Constrained Time Cost by He & Sun (2014) gives a nice overview of the computation costs and trade-offs between depth, filter sizes, etc. in convnets.

Learning both Weights and Connections for Efficient Neural Networks by Han et al. (2015) has a table with the relative costs of computations versus memory accesses. Plus it talks about pruning neural networks, which is a cool topic in its own right.

参考:

 http://machinethink.net/blog/how-fast-is-my-model/ 
http://blog.csdn.net/cheese_pop/article/details/51955915
http://timdettmers.com/2015/03/26/convolution-deep-learning/

工具：

Alchemy from fritz.ai lets you analyze ML models to see if they’re ready for mobile development.

Netscope shows the structure of models and also analyzes their computational cost. Currently supports Caffe only.

pytorch与深度学习随记——AlexNet 黑色的山岗在沉睡深度学习随记深度学习 pytorch 人工智能
AlexNet和LeNet的设计理念非常相似，但也存在显著差异：基本结构对比网络深度：AlexNet比LeNet-5要深得多，AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。激活函数：AlexNet使用ReLU而不是sigmoid作为其激活函数，这有助于缓解梯度消失问题并加速训练过程。AlexNet架构的创新点局部响应归一化(LRN)：AlexNet引入LRN层，可以创建
深度学习-138-LangGraph之应用实例(七)构建自动绘图系统皮皮冰燃深度学习深度学习人工智能 LangGraph
文章目录1初始化核心功能1.1大语言模型1.2结构化输出1.3搜索引擎1.4Python执行环境2编排流2.1创建图2.2可视化图2.3应用图3绘图指定线型4添加工具增强4.1执行工具和打印工具4.2绑定工具4.3编排流4.4可视化图4.5应用1初始化核心功能1.1大语言模型importosos.environ['OLLAMA_HOST']='127.0.0.1'os.environ['OLLAM
穿越AI边界：深度集成DeepSeek API与云平台的实践之路云边有个稻草人热门文章人工智能 DeepSeek 大数据集成DeepSeek API DeepSeek算法阿里云百炼平台集成
云边有个稻草人-CSDN博客随着人工智能技术的日益发展，深度学习和自然语言处理（NLP）已经在很多领域得到了广泛的应用。DeepSeek作为一款领先的大型语言生成模型，凭借其强大的推理和生成能力，已经被越来越多的开发者和行业专家所青睐。通过DeepSeek提供的API接口，开发者可以在多个领域中实现先进的自然语言理解和生成任务。本文将深入探讨如何使用Python调用DeepSeek的API接口，并
AI在农业中的应用:精准农业的新时代 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI,农业,精准农业,机器学习,深度学习,计算机视觉,农业机器人1.背景介绍农业是人类文明的基石，也是全球经济的重要支柱。然而，随着人口增长和资源短缺，传统农业面临着诸多挑战，例如低效率、资源浪费、环境污染和气候变化的影响。为了应对这些挑战，精准农业应运而生。精准农业是指利用现代信息技术和数据分析手段，对农业生产进行精细化管理，提高资源利用效率、产量和产品质量，同时减少环境污染。人工智能（AI）作
AI驱动的企业学习管理系统 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI、机器学习、深度学习、企业学习管理系统、个性化学习、学习路径推荐、知识图谱1.背景介绍在当今瞬息万变的数字化时代，企业面临着前所未有的挑战和机遇。知识更新速度加快，技术迭代日新月异，员工需要不断学习新技能，提升自身竞争力，才能适应不断变化的市场环境。传统的企业学习管理系统(LearningManagementSystem,LMS)往往以标准化课程和批量学习为主，难以满足员工个性化学习需求，且缺
从零到精通：小白DeepSeek全栈入门指南好东西不迷路各自资源 AI 前端 html python
第一部分：认知准备（1-3天）1.1基础概念搭建人工智能三要素：数据/算法/算力深度学习与传统机器学习的区别神经网络基本结构（输入层/隐藏层/输出层）常用术语解析：epoch、batch、loss、accuracy1.2环境配置实战Python环境搭建（推荐Anaconda）condacreate-ndeepseekpython=3.8condaactivatedeepseek深度学习框架选择指南
Python vLLM 实战应用指南 ghostwritten python python 开发语言
文章目录1.vLLM简介2.安装vLLM3.快速开始3.1加载模型并生成文本3.2参数说明4.实战应用场景4.1构建聊天机器人示例对话：4.2文本补全输出示例：4.3自定义模型服务启动服务调用服务5.性能优化5.1GPU加速5.2动态批处理6.总结vLLM是一种高性能的开源深度学习推理引擎，专注于高效的生成式模型推理任务。它通过动态批处理和内存优化技术大幅提高了大模型（如GPT系列）的推理性能，非
从零到一：利用DeepSeek构建高精度图像分类模型实战解析一碗黄焖鸡三碗米饭人工智能前沿与实践分类数据挖掘人工智能
引言：为什么选择DeepSeek进行图像分类？在计算机视觉领域，图像分类作为基础任务，其技术演进经历了从传统特征工程到深度学习的革命性转变。DeepSeek作为国产自研的深度学习框架，凭借其高效计算优化和灵活架构设计，在ImageNet等基准测试中展现出与PyTorch、TensorFlow等主流框架相媲美的性能。本文将手把手带您实现从零搭建工业级图像分类模型的全过程。一、DeepSeek技术架构
深度学习模型可视化：通俗易懂的全面解读 Crazy learner 模型部署深度学习人工智能
目录1.什么是深度学习模型可视化？2.张量（Tensors）：深度学习中的核心数据结构3.常见的节点操作**Gather**操作**Transpose**操作**Pow**操作**Add**操作**Mix**操作4.查看模型详情5.可视化工具总结在深度学习领域，理解模型内部的工作原理对于优化、调试和改进模型至关重要。随着神经网络的复杂性日益增加，开发者和研究人员逐渐意识到，可视化不仅是理解模型的一
考研导师选择方法 herosunly 考名校研究生经验分享考研选择导师考研导师选择方法
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
深度学习-81-大语言模型LLM之基于litellm与langchain与ollama启动的模型交互皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1LiteLLM1.1生成对话补全1.2响应格式(OpenAIFormat)1.3异步调用1.4流式生成对话补全1.5支持的ollama模型2langchain2.1LangChain简介2.2LangChain架构2.3构建简单LLM应用程序(OllamaLLM)2.3.1生成对话补全2.3.2流式生成对话补全2.4聊天模型(ChatOllama)2.4.1Invoke调用2.4.2st
《动手学PyTorch深度学习建模与应用》第二章：2.4-2.6节详解环工人学Python 深度学习 pytorch 人工智能 python 机器学习学习
写在前面：不知不觉已经更了第一个章节，目前的内容都是很基础的内容，有人会问现在ai时代，还有必要学习这些内容吗，我想说的是，越是基础的内容我们越要认真去学习和分析，ai可以快速解决问题，但是我希望我们可以知其所以然，感谢所有支持的收藏和粉丝，希望这些文章对你们有些许帮助！点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写
在Python中高效操作三维和四维数组相乘：人工智能基础 NumPy部分秋‍. python numpy 开发语言人工智能
一、前言在深度学习、科学计算和数据分析领域，处理高维数组是家常便饭。本文将深入探讨三维和四维数组的相乘操作，通过NumPy库演示各种实用技巧。二、核心概念梳理1.数组维度理解三维数组：(层,行,列)可理解为多个二维矩阵的堆叠四维数组：(批次大小,通道数,高度,宽度)常见于图像处理2.关键函数对比函数特性说明支持维度np.multiply元素级相乘任意np.dot标准矩阵点积≤2np.matmul广
python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习... 坂田月半
内容简介O'ReillyMedia,Inc．介绍第1章向量、矩阵和数组1.0简介1.1创建一个向量1.2创建一个矩阵1.3创建一个稀疏矩阵1.4选择元素1.5展示一个矩阵的属性1.6对多个元素同时应用某个操作1.7找到最大值和最小值1.8计算平均值、方差和标准差1.9矩阵变形1.10转置向量或矩阵1.11展开一个矩阵1.12计算矩阵的秩1.13计算行列式1.14获取矩阵的对角线元素1.15计算矩阵
英特尔开发板试用：结合OAK深度相机进行评测 OAK中国_官方数码相机
最近英特尔官方发布了一篇文章：主要介绍了如何将英特尔开发板（小挪吒）与OAK深度相机结合使用，并通过OpenVINO™工具套件进行开发和性能评测OAK相机：作为深度数据采集的核心设备，其深度测距功能与OpenVINO™推理相结合，实现了高效的目标检测和深度信息处理。OpenVINO™：作为英特尔的深度学习推理框架，为开发板和OAK相机提供了强大的推理支持。性能优化：通过模型转换和硬件加速，去实现高
VSLAM新方案之《在复杂环境中实现高精度与超强鲁棒性》 OAK中国_官方 SLAM 人工智能 rpab-map
OAKChina&苏州泛科特机器人联合推出OAK-DSeries&因子空间感知（FactorPerceptionKit）VSLAM解决方案01FactorPerceptionKit简介FactorPerceptionKit是一种真正基于深度学习技术的VSLAM方案，不同于许多厂商仅通过添加目标检测或语义分割模型来实现额外功能，我们直接在SLAM底层使用HF-Net模型，该模型同时进行局部特征点检测
深度学习开源数据集大全：从入门到前沿念九_ysl AI 人工智能
在深度学习中，数据是模型训练的基石。本文整理了当前最常用且高质量的开源数据集，涵盖图像、视频、自然语言处理（NLP）、语音与音频等方向，帮助研究者和开发者快速定位所需资源。一、图像类数据集1.MNIST简介：手写数字识别领域的“HelloWorld”，包含6万张训练图像和1万张测试图像，尺寸为28×28的灰度图。特点：适合入门级图像分类任务，支持快速验证算法原型28。下载地址：MNIST官网2.I
程序员未来的出路：行业趋势与职业发展分析 guzhoumingyue AI python
随着技术的发展和行业需求的变化，程序员的职业出路也在不断演变。以下是程序员未来可能的职业发展方向及具体建议：一、技术深耕路线AI与机器学习专家趋势：AI技术在各行业的应用日益广泛，从自动驾驶到智能客服，需求持续增长。技能要求：Python、TensorFlow、PyTorch、数据挖掘、算法优化。发展路径：从机器学习工程师做起，积累项目经验。深入研究深度学习、强化学习等前沿技术。成为AI架构师或数
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统奔强的程序课程设计
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
建筑兔零基础人工智能自学记录34|深度学习与神经网络2 阿克兔人工智能toto学习人工智能深度学习神经网络
1、人工神经网络ANN从生物课上学到的有关神经元、突触的生物神经网络，被模仿出了简化的人工神经网络（ANN,artificialneuralnetwork）。ANN结构为：输入层、隐藏层、输出层人工神经元：基于生物神经元的数学模型ANN过程：输入---加权求和---激活函数激活函数：类似生物神经元的阈值，达到阈值输出信号（‘神经网络的万能逼近定理’---两层以上神经网络可以逼近任意函数）2、深度学
自然语言处理NLP入门 -- 第十节简单的聊天机器人山海青风 #自然语言处理自然语言处理 chatgpt
一、为什么要做聊天机器人？在互联网时代，我们日常接触到的“在线客服”“自动问答”等，大多是以聊天机器人的形式出现。它能帮我们快速回复常见问题，让用户获得及时的帮助，并在一定程度上减少人工客服的压力。同时，聊天机器人也是了解自然语言处理（NLP）最好的实战项目之一。因为它整合了文字理解（NLU）、对话管理、文本生成（NLG）等多方面知识，既能看到很直观的对话效果，也能结合深度学习模型让机器人变得更智
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
全过程带你从入门到精通《动手学PyTorch深度学习建模与应用》第二章：2.1-2.3节详解，篇幅超了，缺的后面再补吧环工人学Python 深度学习 pytorch 人工智能 python 机器学习
写在前面：点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写代码。在深度学习的世界里，理解基础概念是构建复杂模型的关键。第二章“深度学习基础与PyTorch实现”将帮助我们深入理解深度学习的核心概念，并通过PyTorch实现这些概念。这一章的内容非常重要，因为它不仅涵盖了神经网络的基本原理，还介绍了激活函数、损失函数和优
基于 Pytorch 的全卷积网络人脸表情识别：从数据到部署的实战之旅那年一路北 Pytorch理论+实践 pytorch 网络人工智能
前言：本文将详细介绍基于Pytorch框架，利用全卷积网络进行人脸表情识别的完整过程，涵盖从数据集的准备、模型的设计与训练，再到模型的部署与预测，通过代码实现以及详细讲解，帮助读者深入理解并掌握这一技术。一、引言人脸表情是人类情感交流的重要方式，不同的表情能够传达出丰富的情感信息。人脸表情识别在智能交互、安防监控、心理健康分析等众多领域有着广泛的应用前景。随着深度学习技术的发展，基于卷积神经网络的
基于yolov8的糖尿病视网膜病变严重程度检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的糖尿病视网膜病变严重程度检测系统基于YOLOv8的糖尿病视网膜病变严重程度检测系统是一款利用深度学习技术，专为糖尿病视网膜病变早期诊断设计的智能辅助工具。该系统采用YOLOv8目标检测模型，结合经过标注和处理的医学影像数据集，能够高效且准确地检测并分类糖尿病视网膜病变的不同严重程度。YOLOv8模型以其高速和高精度的特点，在处理眼底图像时展现了强大的能力。通过优化模型
【深度学习】矩阵的核心问题&解析大数据追光猿数学基础-矩阵深度学习矩阵人工智能
一、基础问题1.如何实现两个矩阵的乘法？问题描述：给定两个矩阵AAA和BBB，编写代码实现矩阵乘法。解法：使用三重循环实现标准矩阵乘法。或者使用NumPy的dot方法进行高效计算。defmatrix_multiply(A,B):m,n=len(A),len(A[0])n,p=len(B),len(B[0])C=[[0for_inrange(p)]for_inrange(m)]foriinrange
基于yolov10的水果成熟度之石榴成熟度检测 qq1309399183 计算机视觉实战项目集合 YOLO 目标检测目标跟踪计算机视觉人工智能水果成熟度检测视觉检测
石榴成熟度检测**Pomegranate*是一个基于深度学习的系统，旨在自动化检测和分类石榴果实的生长阶段（未成熟、成熟、成熟期）。该系统采用最新的YOLOv10目标检测模型，能够高效地分析图像或视频中的石榴果实，并根据其外观特征识别其生长阶段。通过这种技术，农民可以更好地监控石榴果实的发育过程，优化作物管理，合理安排收获时间，从而提高生产效率和经济收益。系统概述石榴作为一种重要的水果作物，广泛种
yolov5-训练好的模型部署的几种方式-ONNX 黄晓魚 halcon3d PCL点云处理深度神经网络 YOLO C#python
ONNX，即OpenNeuralNetworkExchange，是微软和Facebook发布的一个深度学习开发工具生态系统，旨在让AI开发人员能够随着项目发展而选择正确的工具。ONNX所针对的是深度学习开发生态中最关键的问题之一，在任意一个框架上训练的神经网络模型，无法直接在另一个框架上用。开发者需要耗费大量时间精力把模型从一个开发平台移植到另一个。因此，如何实现不同框架之间的互操作性，简化从研究
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
大语言模型原理与工程实践：手把手教你训练 7B 大语言模型自动化训练框架 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架关键词：大语言模型、7B模型、自动化训练、深度学习、神经网络、自然语言处理、分布式计算文章目录大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {