Abandon_first

（3）SPP-Net：精进特征提取 + 开拓多尺度训练

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 2015年

文章目录

- Abstract
- Introduction
- Deep Networks with Spatial Paramid Pooling
- - Convolutional Layers and Feature Maps
  - The Spatial Pyramid Pooling Layer
  - Training the Network
- SPP-Net for Image Classification
- SPP-Net for Object Detection
- - Detection Algorithm
  - Implementation of Pooling Bins
  - Mapping a Window to Feature Maps

现在 SPP-Net 留在框架里面的只有一个 spp layer 啦，不过本身 SPP-Net 就是天生可以适应任何 CNN 的，只留一个 layer 又何妨。

Abstract

现有的（传统的） CNNs 由于有全连接层所以必须需要固定输入图片的尺寸，比如 224 × 224 。本文为传统的网络结构增加了一个池化策略，即空间金字塔池化，spatial pyramid pooling，来突破全连接层对整个网络输入图像的约束。无论输入图像的尺寸是多少，SPP-Net 能够产生一个固定长度的特征向量，且能够适应形变，在分类和物体检测任务中都有很好的表现（妈妈再也不用担心我训练网络要被动地特意去 crop 或者 warp 啦～当然你还是可以主动选择用这个来做 data augmentation）。
和“前辈” RCNN 有哪些异同？相同点就是 pipeline 仍然是“缝合怪”，区域推荐 + 特征提取 + 分类 + 候选框回归 4 个部分每个部分都各干各的，散装的，拼在一块儿而已。而最后分类和候选框回归更是一模一样。
上面主要简单说相同点，现在重点说下提升。上一篇也有提过，RCNN 使用 Selective Search 提取了 2000 个 region proposal 之后，是使用 CNN 遍历这 2000 个 region分别依次提取特征的。这里肯定就限制了它的速度，而且还必须把各个对应的 region 强行 resize 送到 CNN 中，进一步约束了特征提取的效果（可能存在很多失真的情况），而且前面遍历 2000 也限制了后面使用更加复杂的特征提取方法（因为会更慢）。而 SPP-Net 中在这个部分的改进是，拿到 2000 个 region proposal 之后，CNN 提取特征是一起提取的，就是遍历全图一次，然后具体到针对某个 region 做分类的时候，映射到全图的 feature map 上拿这个 region 对应的那部分特征图（爱多大就多大无所谓，因为有空间金字塔池化可以拿到固定长度特征向量嘛），拿到这个 region 固定长度特征了再做分类就好了。
还有别的新颖的地方吗？应该是空间金字塔池化带来的多尺度训练神经网络的方法，通过将图片划分成一些尺寸等级，逐一替换尺寸等级来训练网络。

Introduction

传统 CNN 网络可以大致分为卷积和全连接两部分，其中卷积层是不挑输入图像尺寸的，完全是全连接的存在，才导致整个网络必须固定输入图像的大小。

空间金字塔池化原本就存在，是一种传统图像处理方法理论，算是一种词袋模型的拓展。它把图像的特征分成了不同的粒度有粗有细，组合在一起输出（相比单一尺度的特征要更能表达/代表原图）。

空间金字塔池化的加入，使得模型在预测/测试时可以不限定输入图像的大小，同时在训练阶段，也允许模型实现多尺度训练，这一点很有利于增强尺度不变性并降低过拟合的风险。

Deep Networks with Spatial Paramid Pooling

Convolutional Layers and Feature Maps

按照 AlexNet 网络架构来讲，一共可以算作 7 层 = 5 层卷积 + 2 层全连接，后面会根据情况跟上 N + 1 类的 softmax。卷积之后生成的通道图就是 feature map。

The Spatial Pyramid Pooling Layer

与已有的网络模型中的 pooling 相比，空间金字塔池化不会受 feature map 的大小影响，是按照 4 bin 16 bin 这样确定的，而不是根据 pooling 层中的 stride 来确定的。

SPP-Net 用空间金字塔池化替代掉了 AlexNet 中最后一个卷积输出的 feature map 后面紧跟的 pool5，意思就是用的 conv5 的 feature map，论文用的最大池化。（插播：表格结构识别里面网格池化跟 SPP-Net 有点像）

这个在多个尺度的图像上提取特征 SIFT 也用得很 6 了。

Training the Network

这里本来应该是随机输入尺寸变化的图像来训练网络，但是考虑到高效地利用 GPU 计算资源，最好还是同样尺寸的一起训练。

关于训练多尺度，论文此方面的工作也是逐步展开的（猫猫祟祟），先是固定输入 224 × 224，增加了三个变化尺寸的普通 pooling 层，发现 OK；然后直接变数据训练了另外一个一模一样的网络，OK。然后决定变换训练阶段只训练一个网络，每次变换输入图像的尺寸的时候，都保留之前的训练参数。

其实这里我觉得不是很好吧，就是每次完全替换尺度，按照我自己的理解应该是随机混着来最好，只不过确实没法高效利用 GPU 训练 batch 了，不能用 batch 的话，如果每次一张就更新，也是有可能比较震荡的，左右为难。

SPP-Net for Image Classification

SPP-Net 其实并不绑定任何形式 CNN，它的特性是独立的；
多层空间池化能提升模型性能，而且论文做了实验，证明并不是简单地因为多尺度进行空间金字塔池化参数更多，而是因为更多尺度能拿到“更好”的特征；
多尺度训练能提升模型性能，这个原因我觉得和上面一条有共性，也就是这样训练能帮助网络拿到更好的特征。

SPP-Net for Object Detection

前面已经提炼过这部分重点了，重点就是在 R-CNN 的基础上改进了提取所有 region proposal 特征的方式，不再是每个 region 单独跑一遍 CNN，而是在全图范围内一遍 CNN 提取特征，然后根据特定的某个 region 映射在 feature map 上获取仅该 region 对应的那部分feature map，然后再通过空间金字塔池化获取固定长度的特征向量，再送到二分类 SVM 做分类，再做框回归。

Detection Algorithm

用的空间金字塔池化是 4-level 的，每个通道上 1 × 1，2 × 2，3 × 3，6 × 6 一共 50 bins，如果你有 256 个通道，那就是每个 region 对应的 window 会生成 256 × 50 = 12800 维表征，这个向量再送到全连接。再单独训练 SVM 来分类。

多尺度训练时，resize 图片，使得图片的短边在尺度集合中， $\in S = \{480, 576, 688, 864, 1200\}$ 。

Trick：把原图 resize 到多个尺度然后送进网络计算各个尺度的 conv5 特征，怎么用呢？（1）是把这些特征组合起来，然后逐个通道的做池化，（2）是发现选择原图中这个 region 分辨率最接近 224 × 224 的就可以。如果刚刚提到的多尺度足够“多”并且 region 对应的 window 足够“方”，上面两种方案比较接近。

小声逼逼，其实这里我也没太理解哦，为啥 224 × 224 的最好啊，难道多尺度训练之前也是有 224 × 224 预训练参数的？不然的话各个尺度如果都是比较均匀训练的，凭什么就是 224 呢，而不是个别的某个尺寸。

SPP-Net 微调了（仅仅微调了）空间金字塔池化之后的全连接，也就是从拿到了固定长度的特征之后。至于为啥不一起微调空间金字塔池化层以前的卷积层，还被后面 Fast R-CNN 点名 cue 了。

Implementation of Pooling Bins

如果 feature map（可以是全图的，也可以是某个 region 对应的提出来的）尺寸为 w 和 h。如果某个 level 的金字塔要将这个 w × h 的 feature map 映射成 n × n 个 bins。那么第 i 行第 j 列的 bin 在 feature map 上对应的坐标横向范围是 $[\ \lfloor \frac{i - 1}{n} \cdot w \rfloor, \lceil\frac{i}{n} \cdot w\rceil\ ]$ ，纵向范围是 $[\ \lfloor \frac{j - 1}{n} \cdot h \rfloor, \lceil\frac{j}{n} \cdot h\rceil\ ]$ ，好像也没啥好说的，注意范围界限和开闭区间就好了。

Mapping a Window to Feature Maps

这里说些细节。卷积这一大块中每层都有卷积核的大小、padding 的大小和方式、stride 的大小。所以，初始的输入图中对应某个区域的位置（论文这部分一直叫它 window 了），经过了若干层卷积之后，落在此时的 feature map 上位置和大小是会变的。幸运的是，可以通过中间卷积层的各个参数，求解出这种映射。

一般来说，经过几层卷积之后 feature map 的尺寸相比初始输入图来说会明显变小。此时，在 feature map 上选中某一点暂且叫 $P^{'} (x^{'}, y^{'})$ ，它在此前的几层卷积上都是有不同的感受野大小的。

如果卷积核的尺寸横纵方向是一致的，那么感受野就是正方形（除非遇到边界）。

如果所有的卷积 stride 都为 1，padding 是 same 模式（有点串戏突然用框架里面的词汇来讲，总之就是按照 kernel 大小补边），那么feature map 上的点 P’ 以及它在前面几层的感受野的中心 P 坐标是完全一致的。

如果 stride 不全都为 1，而 padding 仍然是 same，那么feature map 上 P’ 点与其对应初始输入图上的感受野中心 $P (x, y)$ 之间就有映射关系 $\cdot x', S \cdot y')$ ，其中这个 S 是前面几层 stride 的累乘。

但是回到这篇论文目标检测算法中的对应任务上来，我们需要计算 Selective Search 提的候选框（这是在原图上的）的特征（在 feature map 上），所以不是要从 feature map 映射回原图，而是从原图映射到 feature map，即 P 到 P’。论文选取原图 region 对应的左上和右下两个角点，通过计算两个角点在 feature map 上的映射点，来计算原图 region 对应 feature map 上的坐标范围。不过左上和右下的具体映射方式略有不同，一个是向下取整再加 1，一个是向上取整再减 1，这个根本原因在于卷积实际计算中的细节。

左上： $\lfloor\frac {x}{S}\rfloor + 1$
右下： $\lceil\frac {x}{S}\rceil - 1$

记忆这种向上向下加加减减的太不靠谱了，时间长了我也记不住，我也不想长时间回来看不断增加记忆，又不是什么基础知识了没必要印在 DNA 里。所以我们按照极端个例来理解就行了。

就把左上角点当做原图中左上角即 (0, 0) 卷积一次，只要有 padding same，这个点卷积操作之后必然落在(1, 1)，因为 feature map 上 (0, 0) 的位置你得对应 padding 啊，不然怎么 same，这就必得对应 +1 了；

而右下角点也取极端，就按照原图中右下点来算，padding 是 same 的情况下，一次卷积之后的尺寸就是 $\lceil\frac {l}{s}\rceil$ ，就看是 w 方向还是 h 方向了，那你这个点映射到 feature map 既不能跑到图外面去，也不能去别的地儿呆了，就得蹲在 feature map 右下角啊，还能去哪儿，所以就是 $\lceil\frac {x}{S}\rceil - 1$ （下标从 0 开始啊）。

写到这里，我又想精分扮演一下杠精了23333。

R-CNN 不是说 CNN feature map 对应原图对不上吗？咋 SPP-Net 用上了这个映射？不是映射不准吗？

emmm 其实这里是有规模缩放的，从原图映射到 feature map 取特征的误差是相对较小的，因为 SPP-Net 这里也只是按照感受野中心点映射而已，重点在于取特征，只要能取到表征原图 region 部分的特征就行；而根据 feature map 根据感受野的整个规模映射回去原图误差可大了去了，而且你这么做的目的是为了定位区域的位置边界等蛮细节的信息，这么大误差是容忍不了的。

再说回来，SPP-Net 和 RCNN 的整体大的 pipeline 是完全一致的，四大块：区域推荐 + 特征提取 + 分类器 + 回归器，其中只有特征提取有变化而已，也就是 SPP-Net 只用了映射关系从比较确切的 region proposal 拿其 feature map 上的对应特征，别无其他。它仍然使用 Selective Search 做区域推荐，仍然单独训练二分类 SVM 做分类，仍然训练回归器微调 BoundingBox。

你可能感兴趣的:(#,多阶段物体检测,计算机视觉,卷积神经网络)

百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
【深度学习】卷积神经网络(CNN)原理 chaser&upper 深度学习神经网络卷积计算机视觉
【深度学习】卷积神经网络原理1.卷积神经网络的组成2.卷积层2.1卷积运算过程3.padding-零填充3.1ValidandSame卷积3.2奇数维度的过滤器4.stride-步长5.多通道卷积5.1多卷积核（多个Filter）6.卷积总结7.池化层(Pooling)8.全连接层9.总结1.卷积神经网络的组成定义卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷
深度学习学习经验——卷积神经网络（CNN） Linductor 深度学习学习经验深度学习学习 cnn
卷积神经网络卷积神经网络（CNN）1.卷积神经网络的基本组成2.卷积操作3.激活函数（ReLU）4.池化操作5.全连接层6.卷积神经网络的完整实现项目示例项目目标1.加载数据2.卷积层：图像的特征探测器2.1第一个卷积层3.激活函数：增加非线性4.池化层：信息压缩器5.多层卷积和池化：逐层提取更高层次的特征6.全连接层：分类器7.模型训练和测试完整的项目示例代码总结卷积神经网络（CNN）卷积神经网
【V5.0 - 视觉篇】AI的“火眼金睛”：用OpenCV量化“第一眼缘”，并用SHAP验证它的“审美” 爱分享的飘哥 AI 人工智能 opencv 计算机视觉
系列回顾：在上一篇《给AI装上“写轮眼”：用SHAP看穿模型决策的每一个细节》中，我们成功地为AI装上了“透视眼镜”，看穿了它基于数字决策的内心世界。但一个巨大的问题暴露了：它的世界里，还只有数字。它能理解“时长60秒”，却无法感受画面的震撼。它是一个强大的“盲人数学家”。计算机视觉我们没有必要为每个视频进行切帧，可以针对开头的视频或者中间关键点视频进行切帧，让计算机识别。承上启下：“现在，我们来
计算机视觉 OpenCV Android | Mat像素操作（图像像素的读写、均值方差、算术、逻辑等运算、权重叠加、归一化等操作）... 凌川江雪
本文目录1.像素读写2.图像通道与均值方差计算3.算术操作与调整图像的亮度和对比度4.基于权重的图像叠加5.Mat的其他各种像素操作1.像素读写Mat作为图像容器，其数据部分存储了图像的像素数据，我们可以通过相关的API来获取图像数据部分；在获取图像数据的时候，知道Mat的类型与通道数目关重要，根据Mat的类型与通道数目，开辟适当大小的内存空间，然后通过get方法就可以循环实现每个像素点值的读取、
PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines
PL-SLAM文章目录PL-SLAM摘要系统介绍综述方法综述LINE-BASEDSLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD直线检测算法**一、核心原理**⚙️**二、实现方法****三、应用场景**⚖️**四、优缺点与优化****优缺点对比****总结**End摘要译文——众所周知，低纹理场景是依赖点对应的几何计算机视觉算法的主
D-FINE使用pth权重批量推理可视化图片悠悠海风代码调试深度学习人工智能 python 目标检测计算机视觉
关于D-FINE相关的内容可参考下面这篇博客：论文解读：ICLR2025|D-FINE_d-fine:redefineregressiontaskindetrsasfine--CSDN博客文章浏览阅读949次，点赞18次，收藏28次。D-FINE是一款功能强大的实时物体检测器，它将DETRs中的边界框回归任务重新定义为细粒度分布细化（FDR），并引入了全局最优定位自蒸馏（GO-LSD），在不引入额
KANN 是一个独立的轻量级 C 语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括 LSTM 和 GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归等
一、软件介绍文末提供程序和源码下载KANN是一个独立的轻量级C语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括LSTM和GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归、共享权重和多个输入/输出/成本的拓扑复杂神经网络。与TensorFlow等主流深度学习框架相比，KANN的可扩展性较低，但它的灵活性接近，代码库要小得多，并且仅依赖于标准C库。与
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
机器视觉：ransac算法详解无水先生数字图形和图像处理算法计算机视觉
目录一、说明：二、算法步骤三、算法代码四、其它补充一、说明：RANSAC是一种常用的参数估计方法，全称为RandomSampleConsensus（随机抽样一致性）。它通过随机选择数据中的一部分，然后根据这些数据拟合模型，统计模型与其他数据的偏差，最终筛选出符合一定阈值的数据，用于估计参数。RANSAC可以应用于很多领域，如计算机视觉、机器人和地理信息系统等。其优点在于对噪声数据和异常值有很强的鲁
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
贝叶斯网络与深度学习的结合：图像识别和分类 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战自然语言处理人工智能语言模型编程实践开发语言架构设计
本文我将为您撰写一篇关于"贝叶斯网络与深度学习的结合：图像识别和分类"的技术博客文章。这篇文章将深入探讨贝叶斯网络和深度学习在图像识别和分类领域的结合应用。我会遵循您提供的要求和结构模板,确保文章内容全面、深入且易于理解。让我们开始吧。贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：
前端计算机视觉：使用 OpenCV.js 在浏览器中实现图像处理亿只小灿灿前端 OpenCV 前端计算机视觉 opencv
一、OpenCV.js简介与环境搭建OpenCV（OpenSourceComputerVisionLibrary）是一个强大的计算机视觉库，广泛应用于图像和视频处理领域。传统上，OpenCV主要在后端使用Python或C++等语言。但随着WebAssembly(Wasm)技术的发展，OpenCV也有了JavaScript版本——OpenCV.js，它可以直接在浏览器中高效运行，为前端开发者提供了前
Keras环境复现代码（三） yanyiche_ keras 深度学习人工智能
DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。清楚实验原理：1、深度Q学习（DeepQ-Network）将卷积神经网络与Q学习结合，解决高维视觉输入的强化学习问题：2、经验回放：将状态转换存储到缓冲区，打破数据相关性，稳定训练。3、目标网络：定期更新目标Q值计算网络，减少训练中的目
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
基于OpenCv的运动物体检测算法 Liu_LongPo 计算机视觉 OpenCv 运动物体检测
基于一个实现的基于OpenCv的运动物体检测算法，可以用于检测行人或者其他运动物体。#include#include#include#includeintmain(intargc,char**argv){//声明IplImage指针IplImage*pFrame=NULL;IplImage*pFrImg=NULL;IplImage*pBkImg=NULL;CvMat*pFrameMat=NULL;
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
【AI】AI大模型发展史：从理论探索到技术爆发不想当程序汪的第N天 AI 人工智能
一、早期探索阶段—理论与技术奠基1.1符号主义与连接主义的博弈20世纪50-70年代，符号主义AI主导研究方向，通过专家系统模拟人类逻辑推理，但受限于计算能力和数据规模。80年代连接主义AI兴起，以神经网络为核心，反向传播算法的提出为深度学习奠定基础。1.2神经网络初步实践1980年：卷积神经网络（CNN）雏形诞生1998年：LeNet-5模型成功应用于手写数字识别，成为首个商用深度学习模型关键局
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
使用 C++ 和 OpenCV 构建驾驶员疲劳检测软件 whoarethenext c++opencv 开发语言
使用C++和OpenCV构建驾驶员疲劳检测软件重要声明：本文所描述的软件是一个概念验证的原型，绝对不能用作现实世界中的安全系统。真正的车载安全系统需要经过大量的测试、具备冗余设计并通过专业认证，以确保其绝对可靠。驾驶疲劳是全球范围内引发交通事故的主要原因之一。当驾驶员感到困倦时，他们的反应时间会变慢，决策能力会下降，而在方向盘后睡着的风险则会急剧增加。为了解决这一关键问题，计算机视觉技术提供了一个
C#图像处理-OpenCVSharp教程(三十五) OpenCVSharp运动物体检测(一) Color Space OpenCVSharp C#OpenCV C#图像处理
本文作者ColorSpace，文章未经作者允许禁止转载！本文将介绍OpenCVSharp运动物体检测(一)代码演示：///图片背景差法检测运动物体MatbgImg=Cv2.ImRead("1.bmp");MatfgImg=Cv2.ImRead("55.bmp");Cv2.ImShow("bg",bgImg);Cv2.ImShow("fg",fgImg);Matgray=newMat();Matgr
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解1.背景介绍1.1大模型开发的意义1.2卷积神经网络在大模型中的应用1.3PyTorch框架简介2.核心概念与联系2.1卷积的数学定义2.2卷积神经网络的组成2.2.1卷积层2.2.2池化层2.2.3全连接层2.3卷积与大模型的关系3.核心算法原理具体操作步骤3.1卷积的前向传播3.2卷积的反向传播3.3卷积的优化策略3.3.1卷积核大小
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
【EI会议征稿】2025年第四届计算机视觉与模式分析国际学术大会（ICCPA 2025）
重要信息2025年5月16-18日|中国·鞍山大会官网：www.iccpa.org会议主页：2025年第五届计算机视觉与模式分析国际学术大会（ICCPA2025）_艾思科蓝_学术一站式服务平台接收/拒稿通知：投稿后1周内收录检索：EICompendex，Scopus主办单位辽宁科技大学往届历史ICCPA前四届均已成功举办，并完成EI、Scopus检索（高录用，稳定检索）
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
使用Ultralytics YOLO进行数据增强 alpszero YOLO计算机视觉应用 YOLO 人工智能机器学习
概述数据增强是计算机视觉领域的一项重要技术，它通过对现有图像进行各种转换，人为地扩展训练数据集。在训练深度学习模型时，数据增强有助于提高模型的鲁棒性，减少过拟合，并增强对真实世界场景的泛化。在训练计算机视觉模型的过程中，数据增强具有多种重要作用：扩展数据集：通过创建现有图像的变体，可以有效增加训练数据集的规模，而无需收集新数据。提高泛化能力：模型学会在各种条件下识别物体，使其在实际应用中更加稳健。
鸿蒙应用AR开发：增强现实技术实现方案操作系统内核探秘操作系统内核揭秘 OS harmonyos ar 华为 ai
鸿蒙应用AR开发：增强现实技术实现方案关键词：鸿蒙系统、AR开发、增强现实、ARKit、ARCore、3D渲染、计算机视觉摘要：本文将深入探讨如何在鸿蒙操作系统上开发增强现实(AR)应用。我们将从AR技术的基本原理讲起，逐步深入到鸿蒙AR开发框架的具体实现，包括3D模型渲染、空间定位、手势识别等核心技术。文章将提供完整的代码示例和实战项目，帮助开发者快速掌握鸿蒙AR应用开发的核心技能。背景介绍目的
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他