everydaylucky

基于深度学习的计算机视觉研究新进展（综述笔记）

深度学习的应用场景：图像搜索、自动驾驶、用户行为分析、文字识别、虚拟现实和激光雷达等等

基于深度学习的计算机视觉同时可以对其他学科产生影响：

在计算机图形学的动画仿真和实时渲染技术；

材料领域的显微镜分析技术；

医学图像分析处理技术；

实施评估师生课堂表现和考场行为的智慧教育；

分析运动员比赛表现技术等

数据集：

2007年，普林斯顿大学李飞飞团队基于 WordNet 的层级结构开始搭建 ImageNet 数据集。最终在 2009 年公开。如今 ImageNet 数据集包含超过 14 000 000 张带标签的高清图像、超过 22 000 个类别。

2010 年开始举办的 ILSVRC 图像分类比赛成为计算机视觉领域的重要赛事，用于评估图像分类算法的准确率。ILSVRC 比赛数据集是 ImageNet 的一个子集，包含 1000 类、数百万张图片。

2018 年谷歌发布了 Open Image 数据集［33］，包含了被分为 6 000 多类的 900 万张带有目标位置信息的图片

JFT‑300M 数据集［ 34 ］包含 300 万张非精确标注的图像

DeepMind 也公开了 Kinetics 数据集［ 35‑36 ］，包含650 000 张人体动作的视频截图。这些大规模数据集增强了深度学习模型的泛化能力，为全世界深度学习工作者和数据科学家提供了数据支持，保障了深度学习领域的蓬勃发展。

1.通用深度神经网络模型综述

1998年LeCun提出LeNet，由2个卷积层和3个全连接层组成，又称作LeNet-5，结构如图所示，被广泛的应用于手写数字识别。

缺点：在小数据集上表现良好，在大数据集上表现一般

2012年 AlexNet被提出，首次将深度学习技术应用到大规模图像分类领域，采用5层卷积层和3层全连接层，激活函数使用RELU取代了sigmoid，用dropout方法取代了权重衰减缓解过拟合。在ImageNet上取得了17%的错误率，结构如图所示。

2014提出ZFNet，通过反卷积可视化CNN学习到的特征，在ImageNet上取得了11.7%的错误率；

2015年提出GoogleNet，提出了一种Inception模块，错误率降到了6.7%。如图 3 所示。这种结构基于网络中的网络（Network in network，NiN）的思想［24］，有 4条分支，通过不同尺寸的卷积层和最大池化层并行提取信息，1 × 1 卷积层可以显著减少参数量，降低模型复杂度。GoogLeNet 一共使用 9 个 Inception 模块，和全局平均池化层、卷积层及全连接层串联。

2015年，VGGNet被提出，重复使用3*3的卷积核和和2*2的池化层，将深度网络加深到了16-19层，如图所示。

2016年，何凯明团队提出了ResNet,将 top‑5 错误率降至 3.6%。ResNet 最深可达 152 层，以绝对优势获得了目标检测、分类和定位3个赛道的冠军。该研究提出了残差模块的跳接结构，每 1 个残差模块里有 2 个相同输出通道的 3×3 卷积层，每个卷积层后接 1 个 BN（Batch nor‑ malization）层和 ReLU 激活函数。跳接结构可以使数据更快地向前传播，保证网络沿着正确的方向深化，准确率可以不断提高。

2017 年提出的 DenseNet ［ 30 ］和 ResNeXt ［ 31 ］都是受 ResNet ［ 29 ］的启发。DenseNet 的目标不仅仅是学习残差映射，而且是学习类似泰勒展开的更高阶的项。因此 DenseNet 的跳接结构没有用加法，而是用了联结，如图 6 所示。

ResNeXt［ 31 ］则是结合了 ResNet ［ 29 ］和 Inception v4 ［ 27 ］，采用 GoogLeNet 分组卷

积的思想，在简化的 Inception 结构中加入残差连接，并通过一个超参数“基数”调

整 ResNeXt 模块中分支的数量。

和 ResNeXt 同年提出的 Xception ［ 32 ］也是一种基于 Inception 分组卷积思想的模型。分组卷积的核心思想是将通道拆分成不同大小感受野的子通道，不仅可以提取多尺寸的特征，还可以减少参数量，降低模型复杂度。Xception 模块可以视为一种极端情况的 Inception 模块，它的输入先经过一个1× 1 的卷积层后进入多个完全相同的 3 × 3 卷积层分支，如图 8所示。

生成模型可以学习数据中的隐含的特征并对数据分布进行建模，应用非常广泛，然后基于这一分布通过采样生成新的数据。

变分自编码器（VAE）是一种当前主流的基于深度学习技术的生成模型，是对标准自编码器的一种变形。（以下内容略，看不懂编码器相关的知识）

生成对抗网络（GAN）是另一种十分常见的基于深度学习技术的生成模型，它包括两个同时进行的组件：生成器和判别器，结构如图所示。生成器从隐向量生成图像，判别器对真伪图像进行分类，二者相互对抗，互相促进。

变分自编码器和生成对抗网络近年来有了显著的发展［ 39 ］。在计算机视觉领域中，变分自编码器和生成对抗网络已经被广泛应用于图像翻译、超分辨率、目标检测、视频生成和图像分割等领域，具有广阔的研究价值和应用前景。

2.轻量级网络

轻量化网络的设计核心是在尽可能保证模型精度的前提下，降低模型的计算复杂度和空间复杂度，从而使得深度神经网络可以被部署在计算性能和存储空间有限的嵌入式边缘设备上，实现从学术界到工业界的跃迁。

在分布式训练中，小模型使得服务器之间通信产生的带宽负担也相对较小。目前学术界和工业界设计轻量化的深度网络模型主要有 4 种方法：人工设计的轻量化神经网络、基于神经网络架构搜索（Neural architecture search， NAS ）的自动设计神经网络技术、卷积神经网络压缩和基于 AutoML 的自动模型压缩。

2016年，由伯克利和斯坦福的研究者提出的 SqueezeNet ［ 40 ］是最早进行深度模型轻量化的工作之一， SqueezeNet 提出了一种 Fire 模块用来减少参数量，在网络结构上， SqueezeNet 借鉴了 VGG 堆叠的形式，在 2 层卷积层和池化层中间堆叠了 8 个 Fire 模，结构如图：

2017，MobileNet是谷歌提出的轻量化网络，核心是通过用深度可分离卷积代替标准的卷积。深度可分离卷积将标准卷积拆成 1 个深度卷积和 1 个逐点卷积（也就是 1×1 卷积），可以将计算量降低至原来的 1/8~1/9。

比 MobileNet 晚 2 个月由 Face++ 团队提出的 ShuffleNet ［ 42 ］基于这一思想，使用了 Channel Shuffle 和分组卷积。分组卷积的思想最早由 AlexNet ［ 13 ］提出，初衷是为了降低单张 GPU 的占用，将输入通道分成相同的几条分支然后连结，从而减少训练参数量。之后的 Inception 模块将这一思想发扬光大，ResNeXt ［ 31 ］的成功也证明了分组卷积的有效性。由于分组卷积会让信息的流通不当ShuffleNet 设计了 Channel Shuffle ，将各组通道均分并进行混洗，然后依次重新构成特征图，示意图如图15 所示。

ShuffleNet 模块摒弃了 Pointwise 卷积，因为对于输入维度较高的小型网络，1× 1 卷积的开销巨大。例如在 ResNeXt 模块中，1× 1 卷积占据了 93.4% 的计算量。在网络拓扑上，SqueezeNet 和 MobileNet 都采用了 VGG （ Visual geometry group ）的堆叠结构，而 ShuffleNet采用了 ResNet 的跳接结构。

2018年， MobileNet 和 ShuffleNet 又相继提出了改进版本。 MobileNet v2 ［ 43 ］结构如图 17 所示，采用了效率更高的残差结构，提出了一种逆残差模块，并将 Mo bileNet v1 模块的最后一个 ReLU6 层改成线性层。

结构上 ShuffleNet v2 采用了一种 Channel Split 操作，将输入的特征图分到 2 个分支里，最后通过连结和 Channel Shuffle 合并分支并输出。 ShuffleNet v1 和 ShuffleNet v2 结构如图 18 所示。

2020年，华为诺亚方舟实验室的团队提出了 GhostNet。如图 19 所示，可以用更少的参数量提取更多的特征图。首先对输入特征图进行卷积操作，然后进行一系列简单的线性操作生成特征图，从而在实现了传统卷积层效果的同时降低了参数量和计算量。该团队认为性能较好的主流卷积神经网络如ResNet‑50 通常存在大量冗余的特征图，正是这些特征图保证了网络对数据深刻的理解。Ghost 模块用更小的代价模拟了传统卷积层的效果。

随着模型规模的扩大，硬件资源变得更加稀缺，在保证精度的前提下压缩并加速模型将会是经久不衰的热门研究方向，也是信息化时代发展的必经之路。近年来大量的关于模型压缩和结构

优化的工作不断涌现，如网络剪枝［ 46 ］、张量分解［ 47‑48 ］和知识迁移［ 49 ］等。轻量化模型的发展有助于深度学习技术的推广和应用，推动深度学习技术的产业化发展。

3.面向特定任务的深度网络模型

3.1目标检测

传统算法：HOG、SIFT、LBP等

深度神经网络的模型：R-CNN、FastR-CNN、 Faster R‑CNN ［ 52 ］等一系列模型，这些模型均将目标检测问题归结为如何提出可能包含目标的候选区域和如何对这些区域分类两个阶段，因此这类模型也被称作两阶段模型。

R‑FCN［ 53 ］提出了一种位置敏感分数图来增强网络对于位置信息的表达能力，提高网络的检测精度。

特征金字塔网络（Feature Pyramid network ， FPN）［56 ］借鉴了 ResNet 跳接的思想，结合了层间特征融合与多分辨率预测。

YOLO［ 57 ］是单阶段模型的代表，它没有提出候选区域的过程，而是直接将提出候选区域和分类统一为一个边界框回归的问题，将整张图片作为网络的输入，在输出层对边界框位置信息和类别进行回归，实现了端到端的学习过程。

和两阶段模型相比，单阶段模型只需要进行一次类别预测和位置回归，因此卷积运算的共享程度更高，拥有更快的速度和更小的内存占用。最新的单阶段模型如 FCOS ［ 61 ］、 VFNet ［ 62 ］等工作已经可以达到接近两阶段模型精度，同时拥有更好的实时性，更适合在移动端部署。

在未来的研究工作中，小目标检测和视频目标检测依旧是研究的热点问题。同时，为了加快推理速度并在移动端嵌入式设备部署模型，目标检测的轻量化一直备受工业界的关注。在采集到多模态的信息（如文字、图像、点云等）后，如何通过更好的信息融合来提高检测性能也是未来的一个重点研究方向。

3.2 图像分割

应用场景：场景理解、医学图像分析、机器人感知及视频监控领域等

2015年

U-Net和FCN。

U‑Net可视为一个编码器 ‑ 解码器结构，编码器有 4 个子模块，每个子模块通过一个最大池化层下采样，解码器再通过上采样的 4 个子模块增大分辨率直到与输入图像的分辨率保持一致，其结构如图由于卷积采用的是 Valid 模式，实际输出图像的分辨率低于输入图像的分辨率。 U‑Net 网

络同时还采取了跳接结构（即图 26 中的灰色箭头），将上采样结果与编码器中具有相同分辨率的子模块的输出进行连接，作为解码器中下一个子模块的输入。

Mask R-CNN 实例分割（不感兴趣）

2016 年的 DeepLab 又提出了一种空洞卷积，避免了化层带来的信息损失，并使用全连接的条件随机场（ Condi tional random field ， CRF ）优化分割精度

2017 年剑桥大学提出的 SegNet ［ 67 ］的主要动机是针对道路和室内场景理解，设计一个像素级别的图像分割网络，同时保证内存和计算时间方面上的高效。SegNet 采用“编码器 ‑ 解码器”的全卷积结构，编码网络采用 VGG16 ［ 28 ］的卷积层，解码器从相应的编码器获取最大池化索引后上采样，产生稀疏特征映射。

2017 年香港中文大学提出了 PSPNet ［ 70 ］，该网络采用金字塔池化模块，用大小为 1 × 1 、2× 2 、3× 3 和 6× 6 的 4 层金字塔分别提取不同尺度的信息，然后通过双线性插值恢复长宽，把不同层的特征连结起来得到全局信息，这种结构比全局池化更具有代表性，融合了多尺度的信息。PSPNet 在 PASCAL VOC 2012 数据集上 mIoU 达到了 82.6% ，在 MS COCO 数据集上预训练后达到 85.4% 。 PSPNet 结构如图 31 所示。

DeepLabv2 ［ 71 ］在 DeepLabv1 ［ 66 ］和 PSPNet ［ 70 ］的基础上用 ResNet101 代替 VGG16 ，并提出了一种带有空洞卷积的空间金字塔池化模块（Atrous spatial Pyramid pooling ， ASPP ）

DeepLabv3 ［ 72 ］重新审视了空洞卷积的作用，将其级联模块应用在 ResNet 最后一个模块之后，不使用空洞卷积和使用空洞卷积的级联模块。

DeepLabv3+ ［ 73 ］相对于 DeepLabv3 ，采用了“编码器 ‑ 解码器”的结构，编码器中包含丰富的语义信息，解码器则输出图像的边缘细节信息。空间金字塔池化模块，“编码器‑ 解码器”结构和带有空洞卷积的“编码器‑ 解码器”结构

2019 年旷视科技提出了一种名为 DFANet ［ 74 ］的高效 CNN 架构，通过子网和子级联的方式聚合多尺度特征，极大地减少了参数量。解码器的骨干网络采用 3 个改良的轻量级 Xception 融合结构，编码器则是一个高效的上采样模块，用于融合高层和底层的语义信息。

图像分割是像素级的稠密分类任务，在搜集数据集时需要真值标注每个像素，但由于这个要求极

其耗时且非常昂贵，许多研究人员开始用弱监督学习和半监督学习的方法训练网络。常见的弱标注有图像类别标签、边界框、显著图和类激活图（Class activation map ， CAM ）等。

热门研究方向：

基于小样本学习技术的图像分割算法同样具有广阔的前景，因为在许多应用领域，例如医学图像分析领域，获取学习样本的成本较高，难度也较大。图像分割技术的实时性也是一个难题，目前大多数模型并不能达到实时性的要求，但在很多应用场景下，速度的重要性远高于精度。

3.3超分辨率技术（不感兴趣）

卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
使用YOLOv5-ONNX-PyQT-EXE: 全栈式对象检测应用的构建与部署
使用YOLOv5-ONNX-PyQT-EXE:全栈式对象检测应用的构建与部署去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，实时对象检测是一个至关重要的任务。是一个开源项目，它将流行的YOLOv5对象检测模型集成到ONNX(OpenNeuralNetworkExchange)中，并通过PyQT构建了一个可执行的应用程序，使得非开发人员也能轻松地进行对象检测。项目简
OpenCV实现相机标定的棋盘格制作与应用 BIG-HO
本文还有配套的精品资源，点击获取简介：在计算机视觉领域，棋盘格标定板用于获取相机参数，实现图像校正和三维重建。OpenCV库提供了绘制棋盘格和相机标定的功能。本文将详细介绍如何使用OpenCV制作棋盘格标定板，包括设计、绘制、保存、相机标定过程和应用。通过实际案例，如畸变矫正、三维重建、AR应用和机器人导航，展示棋盘格标定板在视觉技术中的关键作用。1.棋盘格设计与绘制1.1棋盘格的基本概念与应用棋
从0开始学习计算机视觉--Day04--线性分类 Chef_Chen 学习计算机视觉分类
从宏观来看，卷积网络可以看做是由一个个不同的神经网络组件组合而成，就像积木一样通过不同类型的组件搭建形成，其中线性分类器是一个很重要的组件，在很多卷积网络中都有用到，所以了解清楚它的工作原理对我们后续的学习会有很大的帮助。线性分类器是参数模型中最简单，最基础的例子，下面我们用输入图片输出图片分类的模型的例子来更进一步地了解它。首先，我们输入一张图片到模型中，输入后我们就会得到f(x,W)，x指的是
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
MIAOYUN | 每周AI新鲜事儿（06.14-06.20）人工智能算法机器学习深度学习
紧跟技术浪潮，洞察行业未来，MIAOYUN《每周AI新鲜事儿》，为您精选全球AI领域的最新动态，涵盖AI技术突破、行业动态、趋势发展、前沿政策与学术研究，带您走在智能时代前沿，一起来回顾本周发生的AI新鲜事儿吧！AI开源大模型腾讯混元3D2.1大模型全链路开源6月14日，在CVPR2025（计算机视觉领域顶会之一）上，腾讯混元3D2.1大模型对外全链路开源，其模型权重及架构、训练代码、数据处理流程
【人工智能】微调的秘密武器：释放大模型的无限潜能蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在人工智能迅猛发展的今天，大规模语言模型（LLMs）以其强大的通用能力席卷各行各业。然而，如何让这些通用模型在特定领域或任务中发挥最大潜力？答案是微调（Fine-tuning）。本文深入探讨微调的理论基础、技术细节与实践方法，揭示其作为解锁大模型隐藏潜力
【运维】Python与Ansible协同作战：打造自动化服务器配置管理的终极解决方案蒙娜丽宁 Python杂谈人工智能运维 python ansible
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在现代IT运维中，服务器配置管理是一项繁琐但至关重要的任务。手动配置多台服务器不仅耗时，还容易出错。本文深入探讨如何利用Python结合Ansible工具实现自动化服务器配置管理与环境部署。通过Python脚本调用AnsibleAPI，我们可以动态生成配
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
c语言opencv所用库函数,Py之cv2：cv2库(OpenCV，opencv-python)的简介、安装、使用方法(常见函数、方法等)最强详细攻略... weixin_39729272 c语言opencv所用库函数
##关于OpenCV简介##OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和MacOS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV用C++语言编写，它的主要接口也是C++语言，但是依然保留
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

基于深度学习的计算机视觉研究新进展（综述笔记）

你可能感兴趣的:(综述,深度学习,计算机视觉)