DU_YULIN

MobileNet V2阅读笔记

文章目录

前言
摘要（Abstract）
1. 介绍（Introduction）
2. 相关工作（Releated Work）
3. 预习，讨论和直觉（Preliminaries, dicusssion and intuition）
- 3.1 基于深度可分离的卷积（Depthwise Separable Convolutions）
- 3.2 线性瓶颈（Linear Bottlenecks）
3.3 反转残差（Inverted residual）
- 3.4 信息流解析（Information flow interpretation）
4. 模型架构（Model Architecture）
5. 实现注意项（Implementation Notes）
- 5.1 内存高效推理（memory efficient inference）
6.实验（Experiments）
总结

前言

今天开始阅读轻量级分类网络MobileNet v2，这里写下阅读笔记，方便以后复习。
论文标题：MobileNetV2: Inverted Residuals and Linear BottleNecks

摘要（Abstract）

这篇论文描述了一种新的移动端框架，即MobileNetV2, 在多个任务和数据集中被证实是移动端模型的最优模型（state-of-the-art）。论文也描述了在目标检测中应用这些移动端模型的有效方法，并将这种方法用于一个新颖的框架，称为SSDLite。另外，论文也验证了怎样搭建一个移动端语义分割模型，它是一个删减版的DeepLabv3，被称为 Mobile DeepLabv3。

MobileNetV2是基于反向残差架构（inverted residual），它的捷径连接（shortcut connections）是在细化的瓶颈层之间（thin bottleneck layers）。中间扩展层使用了轻量基于深度卷积来过滤特征并把它的输出作为非线性的输入。另外，论文发现移除比较窄的层中的非线性是很重要的，这样可以保持模型的表达能力。论文证实了这样可以提升模型性能，并给模型设计提供指导。
（问题1：什么是细化的瓶颈层？这个细化指的是什么？
问题2：什么是比较窄的层？这个窄如何定义？）

最终，MobileNetV2允许从转换表示中解耦输入与输出，这为以后的分析提供了一个方便的框架。论文在ImageNet分类数据集， COCO目标检测数据集和VOC图像分割数据集中测量模型性能。论文在如下几个方面对模型的权衡效果进行评估：模型准确性，模型计算量（Multi-Adds）,实际延迟以及模型参数量。

1. 介绍（Introduction）

神经网络变革了机器智能的很多领域，对于有挑战性的图像识别任务能够超出人类的准确性。然而，准确性的提升往往需要较多的计算资源，但是这些资源需求往往超出移动端和嵌入式应用的限制。

论文介绍了一个新的神经网络架构，它是为移动端和有资源限制的环境专门设计的。论文网络实现了移动端定制计算机视觉模型的最优（state-of-the-art）,在减少计算量和内存需求的同时保证了相同的准确率。

论文的主要贡献是提出一个新颖的层模块：带线性瓶颈的反向残差（the inverted residual with linear bottoleneck）。这个模块将低维压缩表示作为输入，然后被扩展到高维，通过轻量级的基于深度的卷积进行过滤。特征通过线性卷积紧接着被映射回低维表示。官方实现是TensorFlow-Slim模型库的一部分。

这个模块可通过任何一个现代框架使用标准操作进行有效实现。论文的模型在多个标准数据集打败了当时最优模型。论文提出的这个卷积模块尤其适用于移动端设计，因为它能在推理阶段明显减少内存需要（在推理阶段从来不会完全实例化大的内部张量）。这减少了很多嵌入式硬件设计的主存访问需要，很多嵌入式硬件提供了少量快速的软件控制缓存。

2. 相关工作（Releated Work）

这部分主要从初始的人工设计神经网络开始介绍，包括AlexNet, VGG, InceptionNet, Resnet, 并介绍了一些关于网络的优化方法；然后介绍了基于泛化算法和增强学习的模型结构搜索方法，属于自动设计模型的范畴，并指出这种方法通常输出比较复杂的模型。最后论文介绍了本论文的目标是给开发者提供更好地指导，并给出最简单的网络设计。

论文提出的MobileNetV2是基于MobileNetV1,保留了简单性，不需要任何特别的操作，同时提升了准确性，在移动应用的多个分类任务和检测任务重实现最优。

（这里只是简单总结了论文中这一章节的内容，如果感兴趣，可自行阅读原始论文）。

3. 预习，讨论和直觉（Preliminaries, dicusssion and intuition）

3.1 基于深度可分离的卷积（Depthwise Separable Convolutions）

基于深度可分离的卷积是将标准卷积分解为两个独立层，即基于深度的卷积层和基于点的 $1\times 1$ 卷积层。基于深度的卷积层用于过滤特征，对输入特征每一通道使用一个单通道卷积核；基于点的卷积层用于对基于深度的卷积层的输出特征进行线性组合，产生新的特征表示。和标准卷积相比，计算量减少了大约 $k^2$ 倍， $k$ 指卷积核大小，一般取 $k = 3$ ，因此，这里计算量一般减少 $8 - 9$ 倍。

MobileNetV2就是用 $3\times 3$ 基于深度的可分离卷积。

3.2 线性瓶颈（Linear Bottlenecks）

考虑一个由 $n$ 层组成的深度神经网络，每一层 $L_{i}$ 都有一个激活张量，它的维度是 $h_{i}\times w_{i}\times d_{i}$ 。这一节将讨论这些激活张量的基本属性，论文中将这些激活张量视为具有 $d_{i}$ 维， $h_{i}\times w_{i}$ 个像素的容器。对于一个将真实图像作为输入集，这些层激活张量的集合构成了一个“感兴趣流形（manifold of interest）”。关于神经网络中的感兴趣流形，一直以来都有这样一个假设：它可以被嵌入到低维子空间中。换句话说，当我们观察一个深度卷积层的所有单一的 $d$ 通道像素时，被编码进这些值中的信息实际上是在一些流形里面，它们依次可嵌入到一个低维子空间当中（注意，流形的维数不同于子空间的维数，可通过一个线性变换将流形嵌入到子空间中）。

有这样一个事实：通过简单减少层的维数就可以减少操作空间的维数。MobileNetV1中通过一个宽度乘法因子参数（对输入通道数乘以一个参数 $\alpha$ , $\alpha <=1$ ）将计算量和准确率有效权衡就成功利用了这点，它也已经融入其它网络模型设计当中。遵循这一直觉，宽度乘法器方法允许我们减少激活空间的维数除非感兴趣流形跨越整个空间，然而深度卷积神经网络中使用的非线性坐标变换，比如ReLU，破坏了这一直觉。举个例子：ReLU在 $1$ 维空间中将一条直线变成一条射线（ray），在 $n$ 维空间中呢，将产生带有 $n$ 个关节点的分段线性曲线。
（这段属于硬翻译，个人理解就是通过减少层的维数-输入通道数就可以减少模型计算量，MobileNetV1中的宽度乘法器就是这种，但是需要满足一个条件 - 感兴趣流形必须要跨越整个输入空间，也就是不能有信息损失，但是深度卷积网络中应用的ReLU这种非线性变换则会造成信息损失。）

一般来说，如果层中变换 $R e L U (B x)$ 的结果有非0的容量 $S$ ，那么可以对输入经过一个线性变换 $B$ 得到这些被映射到 $S$ 内部的点，因此说明了一部分的输入空间是和整个维度的输出相关联的。换句话说，深度网络仅在输出域的非零部分有线性分类的能力。更官方的论述开参考论文中的附录内容。

上图主要表达了：原始低维数据被嵌入到高维空间后，经过ReLU这类非线性坐标变换后，输入数据的损失对比，从图中可以看出，空间维度越大（ $> 15$ ），经过ReLU后原始数据损失相对小一些。

另一方面，当 $R e L U$ 封闭了某一通道，毫无疑问将损失那个通道的信息。然而，如果我们有很多通道，那么在激活流形中有ReLU这样一个结构，其它通道中仍然保留了这个信息。在附录中说明了：如果输入流形可以被嵌入到激活空间的低维子空间中，那么 $R e L U$ 变换可以保留这个信息同时将所需的复杂性引入这个表示函数集中(不理解这句话是什么意思）。

根据这一明确需求：兴趣流形应该位于高维激活空间的低维子空间中，论文提出了两条性质：

如果在 $R e L U$ 变换后，兴趣流形保留在非零区域，它对应一个线性变换。
$R e L U$ 可以保存输入流形的完整信息，但是输入流形必须在输入空间的低维子空间中。

上面这两条见解给论文优化已有的神经架构提供了宝贵经验：假设兴趣流形是低维的，那么通过在卷积模块中插入线性瓶颈（linear bottleneck）可以获取到它。实验证据表明使用线性层对于减少信息破坏是至关重要的。在第6章中证实了在瓶颈中使用非线性层确实降低了几个百分比的性能，这进一步验证了假设。在CIFAR数据集中，在传统残差模块的输入中移除非线性确实提升了性能。

论文的余下部分将使用瓶颈卷积，论文将输入瓶颈的大小和内部大小的这个比率称为扩展比率（expansion ratio）。

（个人理解，线性瓶颈就是将瓶颈卷积后的ReLU非线性变换替换为线性变换，减少输入信息损失，提高准确率；）

3.3 反转残差（Inverted residual）

瓶颈模块和残差模块相似，每一个模块包括一个输入，紧跟着就是几个瓶颈层，然后跟着扩展层。然而，受直觉的启发，瓶颈层实际上包含所有需要的信息，这里扩展层仅仅作为一个实现细节，它对张量使用了一个非线性变换，模型中直接在瓶颈层间使用捷径（shortcuts）。

Figure.3中可视化了普通残差模块和瓶颈层残差模块的差异。这里瓶颈层引入捷径的目的和普通残差模块相似：在多层间提升梯度传播的能力。这个反向设计主要考虑内存利用。

瓶颈卷积的运行时间和参数统计

Table.1展示了瓶颈卷积的基本实现机构。对于一个模块大小为 $h\times w$ ，扩展因子为 $t$ ,核大小为 $k$ ,输入通道为 $d^{'}$ ，输出通道为 $d^{''}$ ，运算量（Multiply-Add）为：

3.4 信息流解析（Information flow interpretation）

论文架构的一个有趣的性质是：瓶颈层的输入输出域间有一个自然的分割，变换层是一个非线性函数，它将输入转换为输出。瓶颈层可被视为网络在每一层的容纳能力,变换层则被视为表现力。这与传统的卷积块(常规的和可分离的)形成了对比，在传统卷积块中，表现力和容纳能力是纠缠在一起的，是输出层深度的函数。

特别在论文的用例中，当内层深度是0时，由于快捷连接的存在，卷积变为恒等函数。当扩展比率小于1时，这就是经典的残差模块。论文中瓶颈层则需要这个扩展比率大于1。

此次解析允许我们将模型的表现力从模型的容纳能力中分离出来单独研究，我们相信这种分离研究保证了能够为网络性质提供一个更好地理解。
（这小结也是直译，感觉没有什么有用信息，可能个人对英语理解能力有限吧）

4. 模型架构（Model Architecture）

这部分将详细描述模型架构。模型的基本模块是带残差的瓶颈深度可分离卷积,Table.1详细描述了这个模块的组成。MobileNetV2包含有32个过滤器的初始卷积层，紧跟着19个残差瓶颈层，如Table.2所示。论文使用了 $R e L U 6$ 这一非线性函数，主要是考虑兼容低精度计算机。使用了卷积核大小为 $3\times 3$ ，在训练中使用dropout和batch normalization（避免过拟合的方法）。

除了第一层外，整个网络使用常量扩展比率。论文通过实验发现，这个扩展比率在 $5 - 10$ 间有相似的性能，小网络用小的扩展比率性能好一些，大的网络用大的扩展比率会得到较好的额性能。

论文实验中使用扩展比率为 $6$ 。比如，瓶颈层输入张量为 $64 - c h a n n e l$ ，生成 $128 - c h a n n l e$ 的输出，中间扩展层是 $64 * 6 = 384$ channels。

超参数权衡 论文网络中，宽度乘法因子是1，输入图像大小为 $224\times 224$ ，计算量（Multiply-Adds）为300 百万(million)，参数量为3.4 百万（million）。为了权衡模型性能，论文使用输入分辨率从96到224，宽度乘法因子从0.35 到1.4进行了实验。网络计算量（Multiply-Adds）从7 到 585 M,模型大小在1.7M 到6.9M之间。

论文模型对所有层使用宽度乘法因子，最后一个卷积层除外，这能够提升小模型的性能。

5. 实现注意项（Implementation Notes）

5.1 内存高效推理（memory efficient inference）

反转残差瓶颈层允许内存高效实现，对于移动端应用来说这是非常重要的。推理阶段一个标准的高效实现使用TensorFlow或者Caffe,构造一个有向无环图 $G$ ，它的边表示操作，节点表示中间计算的张量。为了最小化内存中的张量数，需要规划计算过程。一般来说，可以搜索所有可能的计算顺序 $\sum(G)$ ，然后挑选一个使下列公式最小的一个：

这里， $\pi, G)$ 表示中间张量的列表，这个中间张量可连接于 $\pi_{i}...\pi_{n}$ 中任何一个节点。 $∣ A ∣$ 表示张量 $A$ 的大小， $s i z e (i)$ 表示在操作 $i$ 执行过程中内部存储内存的总量。

对于仅有普通平行结构的图来说，比如残差连接，仅有一个特别的计算顺序以及推理所需的总记忆量和记忆上限，简化后的计算公式为：

内存用量可被简化为操作过程中输入与输出用量总和的最大值。如果将一个瓶颈残差模块视为一个单操作（将内部卷积视为用完即释放的一个张量），内存总量可由瓶颈层张量大小来表示，而不是瓶颈层内部张量大小（这个是更大的）。

（个人理解：用每一瓶颈层输入与输出张量的和的最大值来计算内存用量）

瓶颈残差模块
这一部分主要对瓶颈残差模块的内存计算进行分析，得出当瓶颈残差模块中间扩展层的扩展系数 $t\in[2,5]$ 时，在不影响模型运行性能的前提下，能够减少内存需求，详细内容这里就不说明了，感兴趣可以自行阅读论文。
（个人理解：其实这一章节是对内存实现的优化，不理解也没关系，不影响对MobileNetV2的理解，其实读完这一部分，个人也不是很理解优化内存的原理，哈哈）

6.实验（Experiments）

这里仅贴出实验结果数据，就不进行详细说明了

图像分类：

目标检测

语义分割

消融研究

细节部分请大家自行阅读原论文.

总结

到这里，论文就读完了，附录里的内容就不说了，都是公式定理证明之类的，比较枯燥，主要是自己不太理解，就不记录了，以免误导大家。

其实MobileNetV2的主要贡献就是引入了一个新的模块：带残差的瓶颈卷积模块，理解这个模块，大家也就掌握了MobileNetV2的核心。

这篇论文篇幅较长，个人感觉不太容易阅读，尤其是对线性瓶颈层的介绍部分，很多地方都是硬翻译加上个人理解，很多英语词汇不知道用中文怎么表达，望大家见谅。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
python通过pyautogui库来控制鼠标和键盘
目录前言1.关于屏幕和鼠标位置2.鼠标移动、拖拽、点击、滚动和运动3.使用键盘4.消息框5.屏幕截图6.图像识别定位前言PyAutoGUI是一个纯Python的GUI自动化工具，通过它可以用程序自动控制鼠标和键盘操作。它支持Windows,MacOS和Linux。安装:pipinstallpyautogui基本用法看代码，非常简单易用。importpyautoguipyautogui.click(
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
2025年人工智能、虚拟现实与交互设计国际学术会议学术小八学术人工智能 vr 交互
重要信息官网：www.aivrid.com时间：2025年10月17-19日地点：中国-东莞部分介绍征稿主题包括但不限于：生物特征模式识别机器视觉专家系统深度学习智能搜索自动编程智能控制智能机器人系统组件虚拟现实平台用于VR/AR的AI平台数据和生成、操作、分析和验证浸入式环境和虚拟世界的生成优化和现实的渲染人工智能与用户体验个性化推荐系统情感计算与用户响应虚拟现实与沉浸式技术沉浸式环境设计交互设
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
探秘AI大模型：一键获取深度学习精华-PPT全面解读曹筱习Dwayne
探秘AI大模型：一键获取深度学习精华-PPT全面解读【下载地址】AI大模型PPT资源下载本仓库提供了一个名为“ai大模型ppt”的资源文件下载。该资源文件详细介绍了AI大模型的相关内容，包括但不限于AI大模型的定义、应用场景、技术架构、发展趋势等。通过这份PPT，您可以深入了解AI大模型的核心概念和实际应用，为您的学习和研究提供有力支持项目地址:https://gitcode.com/open-s
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置