海马有力量

基于现代深度学习的目标检测方法综述

论文地址：A Survey of Modern Deep Learning based Object Detection Models
论文结构：

一、论文亮点（与其他综述不同）：

1、深度分析了两类检测方法：单步和两步检测，并从历史的角度分析；

2、详细的评估了重要的体系结构和轻量化模型。

二、背景

1、目标：识别出图像中所有物体并用框出

2、挑战：

1）内类差异：同一物体的不同形态，或被环境影响；

2）过多的分类量：需要更多的带标签数据集；

3）效率：需要更强的算力，尤其是随着移动设备和边缘设备的普及

三、数据集和评估标准

1、数据集

1）PASCAL VOC：2005年产生。11k图片，27k标签，20种类，提出mAP在0.5 IoC评估模型；

2）ILSVRC ：ImageNet的数据集，包含1百万图片，1000种类（其中50万图片，200个种类是手工选出的）。通过减小IoC的门槛来帮助小目标检测；

3）MS-COCO：2015年微软制作，包含2百万图片，每张图片平均包含3.5个种类和7.7个实例，评价标准更严格，把IoC从0.5到0.95每步长为0.5分一个等级；

4）Open Image：2017年谷歌制作，包含9百余万图片，其中1.9百万的图片中有16百万边界框和600个种类，特点是忽略未注释的类，类的检测要求类及其子类等。

上述数据集倾斜问题：Pascal VOC, MS-COCO, 和Open Images 中人和车等数量最多前五类相比其他数据数量不平衡，其他数据数量太少了。ImageNet 数据集中数据数量最多的是考拉和键盘，它们在现实世界中并不是最常见的。

2、标准

FPS：frames per second，每秒图片（处理的数量）；

IoU：检测到的边界框区域与实际边界框区域的相交面积；

准确率：（Precision）TP/TP+FP

召回率：（Recall）TP/TP+FN

PR：横纵为Recall，纵轴为Precision的曲线；

AP：PR的面积，越接近1越好；

mAP，所有AP的均值。

四、重要的基础

1、AlexNet：获得2012年ILSVRC冠军，包含8个网络层——五个卷积层和三个全连接层，最后一个全连接层和softmax分类器连接。通过多个卷积核获得图像特征，AlexNet是神经网络火热起来；

2、VGG：包含更多更小的卷积层（16-19个网络层，8-16个卷积层，两个卷积层后接池化层），使参数更少，收敛更快。

3、GoogLeNet/Inception：其他神经网络随着精确度的提升，算力需求也在增加。为此GoogLeNet提出使用局部稀疏连接架构而不是完全连接架构来解决这些问题。它有22个深层网络，由多个Inception模块堆叠在一起；

4、ResNet：其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题；

5、ResNeXt：本质是ResNet，其中的残差网络块被特制的拓扑模块代替，它中间产生的参数更少，赢得2016年ILSVRC冠军；

6、CSPNet：网络结构分为两个网络层：一个是卷积层块，一个卷积层和卷积层块的输出结合。它更容易实现并且削减了重复的梯度；

7、EfficientNet：提出使用一个复合参数来均匀缩放所有三个维度，每一个模块的参数总是有联系。它的精确率和速度都。

五、目标检测方法

1、先前方法

1）Viola-Jones：2001年提出，主要用于人脸识别，首先通过滑动窗口和计算积分图像获取Haar-like特征，然后用Adaboost缩放对特征分类和识别；

2）HOG Detector：把图像分成小的连通区域，叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器；

3）DPM：分而治之的思想，把目标的不同部位分别检测，去除不可能组成目标的部分，然后把它们排列作为检测。

2、两阶段检测器

1）R-CNN：R-CNN分为提取框（selective search生成2000个候选区域）、框提取特征（CNN得到特征向量）、图像分类（SVG）、非极大值抑制（NMS）四个步骤进行目标检测。不过在特征提取这一步将传统的特征(如 SIFT、HOG 特征等)换成了深度卷积网络提取的特征。速度较慢。

2）SPP-NET：可以输入尺寸不同的图片进行识别，卷积层对尺寸没要求，全连接层需要固定尺寸进行连接，于是在它们之间加上空间金字塔池化层（SSP-NET）得到同一尺寸向量。首先通过SS搜索出的候选框用CNN进行一次特征提取，得到feature maps，在其中找到各个候选框的区域，再对候选框进行SSP，提取出固定长度的特征向量，最后用SVM对特征向量进行分类识别。速度有提升，但也比较慢。

3）fast R-CNN：将整幅图像和region proposal（SS产生）作为输入，经过卷积层提取feature map后，经过RoI pooling后输出固定大小的特征图，然后输入到全连接层，将特征向量分支为两个同级的输出层：一个用于分类，即类别个数+1个Softmax概率估计。另一个用于边框回归，输出检测框位置信息的纠正值。速度较快。

4）faster R-CNN：首先让输入图像经过CNN网络，得到一个feature map，利用Region ProPosal Network（RPN）（不再使用SS）对feature map产生候选框，然后把候选框在feature map的区域经过RoI pooling产生一个尺度固定的特征向量，接着进入全连接层做分类以及边框回归。速度接近实际需求。

5）FPN：FPN（feature pyramid netword）首先对正向传播的feature map下采样得到特征金字塔，然后自顶向下对高层特征进行上采样和对底层特征求和，每层得到特征对其对进行卷积和分类。它使用了更大的feature map（top-down），使得小目标的检测更加有效。

6）R-FCN：输入的图像首先通过ResNet得到feature maps，使其通过RPN得到RoI proposals，最后的输出通过卷积层并输入到分类器和回归器。R-FCN速度比前面模型更快。

7）Mask R-CNN：类似于Faster R-CNN，它不再使用RoIPooL layer而是RoIAlignlayer。论文作者选用ResNeXt和FPN作为backbone。

8）DetectoRS：宏观层面采用FPN生成的Recursive Feature Pyramid（RFP），微观层面采用Switchable Atrous Convolution (SAC)统一卷积的尺寸。

3、单阶段检测器

1）YOLO：诞生于2016年。输入的图片分成S*S的网格细胞，然后对物体中心所在细胞进行回归检测。速度快，但物体密集或目标小时效果较差。

2）SSD：结构由VGG16和多尺度特征检测网络构成，速度和准确率都好，能够检测较小的物体。

3）YOLOv2和YOLO9000：使用DarkNet19作为主干结构，加入了其他优秀的技术：Batch Normalization加快收敛，分类训练和检测系统增加检测层级，移除全连接层增加速度，使用学习过的锚框提高召回率。YOLO9000能够识别9000个种类。YOLOv2效果更好，并且参数更少。

4）RetinaNet：RetinaNet使用FPN作为backbone，FPN的每一层经过两层子网——分类子网通过物体的位置预测分数，box regression subnet回归偏移量，能够检测不同尺寸的物体大小。两个子网都是小的FCN，并且共享参数。RetinaNet综合表现比较好。

5）YOLOv3：使用DarkNet53作为主干结构提取特征图，借鉴FPN的思想，在高、中、低三个层次上分别预测目标框，更好的检测小尺寸物体。并用加入了data augmentation, multi-scale training, batch normalization等技术，把Softmax分类器换成了逻辑分类器。但是它没有突破性改变，甚至精确率更低。

6）CenterNet：CenterNet把识别物体边界框的中心点而不是整个物体。输入的图像通过FCN生成热力图，热力图的顶峰部位对应着整个检测物体。它使用在ImageNet上预先训练的Hourglass-101作为特征提取器，并且有3个头部——heatmap head决定物体中心，dimension head评估物体的大小，offset head纠正物体点的差额。它精确度高，耗时少，但是需要不同的backbone，并且和其他检测器一起工作时效果不好。

7）EfficientDet：使用EfficientNet作为主干，多层BIFPN（bi-direction FPN）提取特征，它是根据NAS-FPN改进的，他消除了无效节点，增强高层特征，并且使用SGD优化器和swish激活函数。EfficientDet综合表现很好。

8）YOLOv4：融合了平滑层级标签、CIoC-loss、CmBN、余弦退火调度等多种技术。这些技术会增加训练时间不影响推断时间。YOLOv4使用预先训练的CSPNetDarknet-53作为主干，SPP和PAN作为neck，YOLOv3作为推断头部。YOLOv4训练算力要求不高，是最好的实时检测器。

9）Swin Transformer：Transformer在NLP领域效果很好，近来年也用在了CV领域。Swin Transformer用transformer作为主干，把图像分割为多块，去取重叠部分。图像块经过4个阶段，每个阶段减少块并且维持每层结构。transformer效果比较好，但是参数相对多。

4、轻量化网络

以上方法有令人满意的结果，但是算力要求高不适用于边缘设备，为此通过轻量化模型可以解决这个问题。

1）SqueezeNet：通过更小的过滤器、减小输入通道来减少参数和保持精度，在网络后部放置降采样层提高精度。SqueezeNet由8层fire module构成，每层由挤压层和扩张层构成，都使用的ReLU激活函数。SqueezeNet的模型大小是AlexNet的1/510。

2）MobileNet：由28层分离卷积层构成，每层有批量归一化和ReLU激活函数。此外作者还引入两种模型减少超参数：宽度倍增器减小输入输出通道统一网络，分辨率倍增器改变图像的大小。MobileNet在一些领域效果好，但是它太简单，梯度流的方法少。

3）ShuffleNet：由一个卷积层和多个ShuffleNet构成。ShuffleNet单元结构与ResNet相似，深层卷积由3*3层构成。可由组数和规模参数管理计算量。

4）MobileNetv2：提出了一种新的层模块——具有线性瓶颈的反向残差，能够减少计算和提高精度。它能把低位输入转成高维，用深度卷积过滤，最后投影为低维。MobileNetv2包含一个卷积层，随后是19个剩余瓶颈模块，随后是两个卷积层，用ReLU6作为非线性激活层来限制计算量。

5）PeleeNet：以DenseNet为基础，并且加入了双路密集层，stem block，动态数量通道等模块。避免使用压缩因素而造成精度损失。PeLeeNet由一个stem block，四个阶段的改性致密层和过渡层，最后是分类层构成。PeleeNet表现较好，但是慢。

6）ShuffleNetv2：它有4个准则：1、输入输出通道相同以减小内存消耗；2、基于目标精心挑选卷积组；3、多路结果达到高的精确度；4、按元素的操作不能忽略。它通过信道分离层将输入分为两部分，然后是三个卷积层，然后与剩余连接连接并通过信道混洗层。

7）MnasNet：他们将搜索问题表述为以高精度和低延迟为目标的多目标优化。它通过将CNN划分为独特的块，然后分别搜索这些块中的操作和连接，从而缩小搜索空间，从而将搜索空间因子化。这也使得每个块都有独特的设计。

8）MobileNet3：以MnasNet为基准，在因子化的分层搜索空间中执行平台感知的自动神经架构搜索，并因此由NetAdapt进行优化，这在多次迭代中去除了网络中未充分利用的组件。

9）Once-For-All（OFA）：首先，训练最大的网络，将所有参数设置为最大值。随后，通过逐渐减小内核大小、深度和宽度等参数维度，对网络进行微调。为了改变深度，使用前几层，其余的从大型网络中跳过。OFA表现好，且计算量小。

六、比较结果

七、未来趋势

目标识别在过去几十年取得了极大的进展，某些领域已达到人类水平。但是仍有有一些问题需要解决：

1）AutoML：用自动神经结构搜索来设计检测器。

2）轻量化检测器：目前的轻量化检测器精度不高，需要小型的，有效的，精确的模型。

3）弱监督：目前的先进模型资源消耗大，需要检测消耗。

4）领域转移：鼓励训练的模型再利用。

5）3D物体检测：在自动驾驶领域很重要，低于人类的标准都不安全。

6）视频中物体检测：物体检测器被设计时缺乏对相邻图像关系的考虑，在视频中物体检测有很大的用处。

八、总结

过去几十年物体检测走过了很长一段路，但是目前最好的检测器仍不是最理想的，并且轻量化模型的应用需求是指数级的。两阶段检测器越来越准确，但是慢，不能用于实时的需求。单阶段检测器改变了这一现象，使目物体检测能够运用在自动驾驶上。目前Swin Transformer是最准确的检测器，我们仍需要更准确更快的检测器。

参考资料：
如何评价rcnn、fast-rcnn和faster-rcnn这一系列方法
深度学习中的FPN详解
YOLO家族进化史（v1-v7）

Python自动化运维：一键掌控服务器的高效之道蒙娜丽宁 Python杂谈运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在互联网和云计算高速发展的今天，服务器数量的指数增长使得手动运维和管理变得异常繁琐。Python凭借其强大的可读性和丰富的生态系统，成为实现自动化运维的理想语言。本文以“Python自动化运维：编写自动化脚本进行服务器管理”为主题，深入探讨了如何利用Py
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
基于C++和ONNX Runtime的YOLOv5目标检测实战浪浪山小白兔 c++YOLO 目标检测
1.前言在计算机视觉领域，目标检测是一项关键任务，其应用广泛，涵盖了安防监控、自动驾驶、工业检测等众多领域。YOLOv5作为一种先进的目标检测算法，以其速度快、精度高的特点备受关注。本文将详细介绍如何使用C++结合ONNXRuntime推理引擎来部署YOLOv5模型，实现高效的目标检测。2.ONNX与YOLOv52.1ONNX简介ONNX（OpenNeuralNetworkExchange）是一种
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
应用跳转歌曲播放页转场卡顿性能优化工具使用案例
场景导入目标规则使用性能检测工具检测性能问题使用性能分析工具进一步分析性能问题根因优化方案及优化收益场景导入某应用首页点击最下方播放圆盘跳转到歌曲播放页用肉眼观测有明显的抖动卡顿。如果不通过性能工具集进行分析，开发者需要：1、复现问题；2、抓取trace；3、分析trace找出丢帧问题点。操作步骤多，耗时较长。本场景通过采用静态检查工具进行问题发现、定位及修改。目标规则CodeLinter目标检测
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
Python中实现多层感知机（MLP）的深度学习模型 Echo_Wish Python 笔记从零开始学Python人工智能 python 深度学习开发语言
深度学习已经成为机器学习领域的一个热门话题，而多层感知机（MLP）是最基础的深度学习模型之一。在这篇教程中，我将向你展示如何使用Python来实现一个简单的MLP模型。什么是多层感知机（MLP）？多层感知机（MLP）是一种前馈神经网络，它包含一个输入层、一个或多个隐藏层以及一个输出层。每个层都由一系列的神经元组成，神经元之间通过权重连接。MLP能够学习输入数据的非线性特征，因此在复杂问题的建模中非
深度学习-92-大语言模型LLM之基于langchain的模型IO的模型调用皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Model的输入输出2langchain支持的模型3调用Ollama模型3.1设置环境变量3.2大语言模型LLM(OllamaLLM)3.2.1生成文本补全3.2.2流式生成文本补全3.3聊天模型(ChatOllama)3.3.1内置的消息类型3.3.2HumanMessage和SystemMessage3.3.3元组方式构成消息列表3.3.4stream流式3.4文本嵌入模型(Olla
深度学习基础18（多层感知机代码实现） NDNPOMDFLR 深度学习深度学习 python 经验分享人工智能神经网络
多层感知机的从零开始实现现在自己实现一个多层感知机。为了与之前softmax回归获得的结果进行比较，将继续使用Fashion-MNIST图像分类数据集importtorchfromtorchimportnnfromd2limporttorchasd2lbatch_size=256train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
AI Agent：深度解析与未来展望码事漫谈 c++人工智能
一、AIAgent的前世：从概念到萌芽（一）早期探索AIAgent的概念可以追溯到20世纪50年代，早期的AI研究主要集中在简单的规则系统上，这些系统的行为是确定性的，输出由输入决定。随着时间的推移，AI逐渐能够处理不确定性，1990年代机器学习的兴起为AIAgent的发展奠定了基础，神经网络技术的突破为深度学习的发展提供了可能。（二）技术突破2017年后，大语言模型（LLM）的出现推动了AIAg
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
【人工智能】Python常用库-Keras：高阶深度学习 API IT古董深度学习人工智能 Python 人工智能 python 深度学习
Keras：高阶深度学习APIKeras是一个高效、用户友好的深度学习框架，作为TensorFlow的高级API，支持快速构建和训练深度学习模型。它以模块化、简单和灵活著称，适合研究和生产环境。Keras的发音为[ˈkerəs]，类似于“凯拉斯”或“克拉斯”。这个名字来源于希腊语κέρας(kéras)，意思是“角”或“角质物”。这个词与深度学习的灵感来源——大脑的神经网络结构有一定联系。Kera
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级 2401_89759264 人工智能前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
深度学习从入门到精通：全面指南 AI天才研究院计算大数据AI人工智能 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《深度学习从入门到精通：全面指南》文章目录《深度学习从入门到精通：全面指南》文章关键词文章摘要引言第一部分：深度学习基础入门第1章：深度学习概述1.1深度学习的基本概念1.2深度学习的发展历程1.3深度学习的基本原理神经网络前向传播反向传播第2章：深度学习框架入门2.1TensorFlow入门TensorFlow环境搭建TensorFlow基本数据结构2.2PyTorch入门PyTorch环境搭建
第十九周：SSD（Single Shot MultiBox Detector） L-含光承影目标跟踪人工智能计算机视觉
SSD（SingleShotMultiBoxDetector）摘要Abstract1引言2SSD框架2.1设计理念2.2训练2.3预测3创新与不足总结参考摘要本篇博客介绍了SSD（SingleShotMultiBoxDetector），这是一种基于全卷积网络的单阶段目标检测模型。与双阶段检测模型（如FasterR-CNN）相比，SSD在保持较高检测精度的同时，显著提升了检测速度，使其更适用于实时检
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
【Python】已解决ModuleNotFoundError: No module named ‘tensorflow‘ 屿小夏 python tensorflow neo4j
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Python】已解决：ModuleNotFoundError: No module named ‘tensorflow‘ 屿小夏 python tensorflow neo4j
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习Transformer框架 Clown爱电脑深度学习 transformer 人工智能自然语言处理机器学习
Transformer是一种深度学习框架，专门用于处理序列数据。它是2017年由Vaswani等人提出的，在NLP领域取得了很大的成功。Transformer的主要优势在于它可以并行地处理输入序列中的所有元素，并且不依赖于序列长度。它使用了self-attention机制，可以在序列中不同位置的元素之间建立联系。这使得Transformer在许多NLP任务中取得了最先进的性能。此外，Transfo
【深度学习】Pytorch：在 ResNet 中加入注意力机制 T0uken 深度学习 pytorch 人工智能
在这篇教程中，我们将介绍如何在ResNet网络中加入注意力机制模块。我们将通过对标准ResNet50进行改进，向网络中添加两个自定义的注意力模块，并展示如何实现这一过程。为什么要加入注意力机制注意力机制可以帮助神经网络专注于图像中重要的特征区域，从而提高模型的性能。在卷积神经网络中，加入注意力机制能够有效增强特征提取能力，减少冗余信息的干扰，尤其在处理复杂图像时，能够提升网络的表现。在本教程中，我
时间序列预测综述 Super_Whw 时序预测
文章目录非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2seq(attention_based_model)2.Facebook-prophet，类似于STL分解思路3.深度学习网络，结合CNN+RNN+Attention，作用各不相同互相配合参考：非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2s
【YOLOv8改进 - 检测头】 RT-DETR检测头，解决传统目标检测器中非极大值抑制（NMS）所带来的速度和准确性之间的平衡问题 YOLO大师 YOLO 人工智能论文阅读目标检测 yolov8
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要YOLO系列因其在速度和准确性之间的合理平衡，已成为实时目标检测中最受欢迎的框架。然而，我们观察到YOLO的速度和准确性受到非极大值抑制（NMS）的负面影响。最近，基于Transformer的端
IGModel——提高基于 GNN与Attention 机制的方法在药物发现中的实用性 Jackie_AI 计算机视觉 stable diffusion 自然语言处理语言模型 Imagen
IGModel——提高基于GNN与Attention机制的方法在药物发现中的实用性导言深度学习在药物发现（发现治疗药物）领域的应用以及传统方法面临的挑战。药物（尤其是我们将在本文中讨论的被称为抑制剂的药物）通过与在人体中发挥不良功能的蛋白质结合并改变这些蛋白质的功能来发挥治疗效果。因此，在设计药物时，必须优化这些结合的亲和力和药理特性，并准确预测蛋白质与药物之间的相互作用。近年来，人们尤其提倡使用
DETRs with Collaborative Hybrid Assignments Training论文阅读与代码分享总结快乐论文阅读
关键词：协作混合分配训练【目标检测】Co-DETR：ATSS+FasterRCNN+DETR协作的先进检测器（ICCV2023）-CSDN博客摘要：在这篇论文中，作者观察到在DETR中将过少的Query分配为正样本，采用一对一的集合匹配，会导致对编码器输出的监督稀疏，严重损害编码器的区分特征学习，反之亦然，也会影响解码器中的注意力学习。为了缓解这个问题，作者提出了一种新颖的协同混合分配训练方案，名
卷积调制空间自注意力SPATIALatt模型详解及代码复现清风AI 深度学习人工智能 python 神经网络 conda
背景与意义SPATIALaTT模型的提出源于对自注意力机制和卷积神经网络（CNN）的深入研究。在计算机视觉领域，CNN长期占据主导地位，而自注意力机制的引入为视觉任务带来了新的思路。SPATIALaTT模型的意义在于融合了这两种强大的特征提取方法，充分发挥了它们的优势。这种融合不仅提高了模型的性能，还为设计更高效的视觉模型提供了新的思路，推动了计算机视觉技术的发展。通过结合自注意力机制和卷积神经网
基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &