Harry嗷

[paper reading] SSD

GitHub：Notes of Classic Detection Papers

本来想放到GitHub的，结果GitHub不支持公式。
没办法只能放到CSDN，但是格式也有些乱
强烈建议去GitHub上下载源文件，来阅读学习！！！这样阅读体验才是最好的
当然，如果有用，希望能给个star！

topic	motivation	technique	key element	use yourself	math
SSD	Problem to Solve Contributions	SSD Architecture Pros & Cons	Higher Speed What Is Resample Low & High Level Feature Small Object Difficulties Data Flow Anchor & GtBox Matching Foreground & Background Hard Negative Mining NMS Data Augmentation Testing (Inferencing) Step Performance Analysis Model Analysis	Convolution For Speed Feature Pyramids Fashion Positive & Negative Imbalance Zoom In & Zoom Out	Loss Function Multi-Level & Anchor Layer Output & Filters Model Output

文章目录

[paper reading] SSD
- Motivation
- - Problem to Solve
  - Contributions
- Technique
- - SSD Architecture
  - - Framework Architecture
    - Modifications of Backbone
  - Pros & Cons
  - - Pros
    - Cons
    - - 小目标检测困难
      - default box 严重依赖手工设计
- Key Element
- - Higher Speed
  - - Structure
    - Input Image
  - What Is Resample
  - Low & High Level Feature
  - - low-level feature map
    - high-level feature map
  - Small Object Difficulties
  - Data Flow
  - Anchor & GtBox Matching
  - Foreground & Background
  - Hard Negative Mining
  - NMS
  - Data Augmentation
  - - 随机裁剪 random crop
    - 水平翻转 horizontal flip
    - 颜色扭曲 color distortion
    - Zoom In & Zoom Out
  - Testing (Inferencing) Step
  - Performance Analysis
  - - Recall & Error Type
    - Bbox Size & Ratios
  - Model Analysis
- Use Yourself
- - Convolution For Speed
  - Feature Pyramids Fashion
  - Positive & Negative Imbalance
  - Zoom In & Zoom Out
- Math
- - Loss Function
  - Multi-Level & Anchor
  - - Feature Map
    - Anchor Scale
    - Anchor Ratios
  - Layer Output & Filters
  - Model Output
- Blogs

Motivation

Problem to Solve

one-stage方法具有较高的测试速度，但准确率低

SSD在使用one-stage的框架下，提高了其准确率

one-stage方法准确率低的原因（YOLO）：

对小目标检测乏力

feature pyramid第一层是backbone的输出，已经是低分辨率+强语义的feature map了，后续基于此再产生的feature pyramid分辨率会进一步下跌

导致没有高分辨率的feature map用于检测小目标（暂且不说语义的强弱）

为解决这个问题，后续的 [RetinaNet](./[paper reading] RetinaNet.md) 从low-level（high-resolution）的feature map上构建feature pyramid，从而产生了高分辨率+强语义的feature pyramid
会出现更多的Localization错误 ==> 重新使用anchor

Contributions

SSD的表现

速度快于YOLO，精度逼平Faster-RCNN
SSD的核心

使用卷积核 (层) 输出预测

通过在feature map上使用small convolutional filter，去预测anchor的category score、box offset
multi-scale和multi-ratio
- multi-scale：不同scale的feature map ==> Feature Pyramids Fashion
- multi-ratios：不同ratio的anchor ==> 手工设计anchor的尺寸

Technique

SSD Architecture

Framework Architecture

关于数据流，详见 [Data Flow](#Data Flow)

Modifications of Backbone

使用VGG16作为Backbone（属于隐性的grid划分）

之后的backbone多为ResNet了

其对于Backbone进行了以下的修改（主要分为2部分：全连接层变为卷积层、dilation卷积）

FC 6 ==> 3×3 Conv 6，dilation rate = 6
FC 7 ==> 1×1 Conv7
conv4_3 加 L2 Normalization 层

该层特征图大小是 $38 \times 38$ ，但是该层比较靠前，norm较大，所以在其后面增加了一个 L2 Normalization 层，以保证和后面的检测层差异不是很大

L2 Normalization 仅仅是对每个像素点在channle维度做归一化
移除 dropout 层和 FC 8
Pool 5 ： $2 \times 2 - s 2$ ==> $3 \times 3 - s 1$

Pros & Cons

Pros

详见 [Performance Analysis](#Performance Analysis)

高正确率 + 高召回率
- confidence高的检测结果都是大部分都是正确的
- recall 达到了85~90%
  
  recall表示有多少目标被检测到，一般以IOU阈值来判断（上图中实线为IOU>0.5，虚线为IOU>0.1）
更少的 localization error
- 相比于two-stage：
  
  直接回归object的shape和category（而不是使用两个步骤）
- 相比于one-stage：
  
  使用了精细设计的anchor / default box，为bounding box的scale和ratios提供了基准（相比于YOLOv1）
在大目标上表现良好

Cons

小目标检测困难

对于不同的类别共享空间位置（convolutional fashion）
小目标对于bounding box的size十分敏感（而小目标bbox对误差敏感）
location和semantic难以兼顾

SSD 直接在backbone的low-resolution+strong semantic的feature map上构建Feature Pyramid，导致整个Feature Pyramid都是low-resolution（缺少位置信息）

default box 严重依赖手工设计

需要人工设置prior box的min_size，max_size和aspect_ratio值。

网络中prior box的基础大小和形状不能直接通过学习获得，而是需要手工设置。

而网络中每一层feature使用的prior box大小和形状恰好都不一样，导致调试过程非常依赖经验。

Key Element

Higher Speed

Structure

相比于 Two-Stage
- 不使用proposal（RPN）
- 不使用resample（ROI Pooling）
相比于 One-Stage

==> 全卷积网络 ==> 参数量大大减少（而且GPU支持较好）
- Backbone
  
  VGG的FC层都被换成了Conv层
- Output
  
  YOLO使用FC层计算输出，SSD使用Conv层计算输出

Input Image

==> 输入小图片 ==> 运算量大幅减少

YOLO是448×448，而SSD是300×300 ==> 图片小了所需的运算就少了

What Is Resample

resample其实是根据proposal进行feature的重采样，首先见于 Faster-RCNN

是在RPN获得proposal之后，返回去从feature map获取相应特征

这种方法同时顾及了location和semantic，在小目标上检测良好，但模型复杂且费时间

Low & High Level Feature

SSD的整个的Feature Pyramid都是high-level的feature map（Feature Pyramid中并不存在low-level的feature map）

这一点需要额外注意

low-level feature map

优点：

保留有空间信息
细节信息丰富

缺点：

语义信息较少，不适合直接用于后续操作（比如分类）

==> 这导致SSD在检测小目标上依旧乏力（虽然保留的位置信息，但是语义信息不够丰富）

high-level feature map

优点：

语义信息丰富，一般可直接用于后续操作（比如分类）

缺点：

大幅度丢失了位置信息和细节信息

丢失位置信息 ==> 定位不准

丢失细节信息 ==> 小目标不易检测

Feature Pyramid Network 的架构可以产生高分辨率、强语义的feature map

详见 [RetinaNet](./[paper reading] RetinaNet.md)

Small Object Difficulties

小目标检测是一个老大难的问题

Faster-RCNN 使用的resample的策略，同时保证了location和semantic，但是模型复杂且时间消耗大

SSD 作为one-stage方法，放弃了resample的策略，而是采用多个level的feature map，但是由于feature map的选取问题，导致整个Feature Pyramid并没有包含low-level的feature map（详见 [Low & High Level Feature](#Low & High Level Feature)）

Data Flow

其多level信息的聚合是发生在输出阶段（不是像DenseNet发生在feature map阶段）

Anchor & GtBox Matching

ground-truth box 和 anchor 的匹配关系是一对多的关系，即：一个ground-truth至少会匹配到一个anchor

相比于ground-truth & anchor 1对1的匹配，一对多这样的目的有两个：

尽可能提高recall

一定程度上增加正样本数量，缓解正负样本的不平衡

其匹配准则有两个：

Max IOU ：

ground-truth box会与最大IOU的anchor匹配 ==> 保证1对1匹配
Threshold IOU：

ground-truth box会与 IOU超过Threshold（0.5）的anchor匹配

Foreground & Background

Background作为Foreground类别之一

这会导致分类任务中极端的正负样本不平衡，SSD 使用 [Hard Negative Mining](#Hard Negative Mining) 缓解这个问题

Faster-RCNN 先区分Background和Foreground（region proposal），之后再foreground分类

YOLOv1通过confidence区分background和foreground（ $\text{confidence} = \text{Pr}(\text{object})*\text{IOU}_{pred}^{truth}$ ），同时对才foreground进行分类。最后使用confidence矫正foreground的分类结果（滤除 False Negative）

Hard Negative Mining

目的：维持正/负样本（foreground/background）正常的比例

对负样本的 confidence loss 降序排列，取 confidence loss 最高的负样本（即 Hard Negative）

换句话说，是抛弃了容易分类的background，以避免其overwhelming分类的loss

后续的 Focal Loss 以一种更优雅、更灵活的方法解决了这个问题

NMS

NMS 作为得到bounding box和score之后的 post-processing

详见 [YOLO v1](./[paper reading] YOLO v1.md)

Data Augmentation

detection中常用的有以下几种：

水平翻转（horizontal flip）

随机裁剪（random crop）

颜色扭曲（color distortion）

随机采集块域（Randomly sample a patch）==> 获取小目标训练样本

随机裁剪 random crop

整个的原始输入图像
与object的IOU为 $[0.1, 0.3, 0.5, 0.7, 0.9]$ 的patch
随机采样patch

采样patch的尺寸为原图的 $[0.1, 1]$ ，aspect ratios 为 $\frac12, 2$

水平翻转 horizontal flip

对每个采样到的patch：

首先resize到固定尺寸
以0.5的概率水平翻转

颜色扭曲 color distortion

Some Improvements on Deep Convolutional Neural Network Based Image Classification

Zoom In & Zoom Out

Zoom in (Random Crop) ==> large object

The random crops generated by the strategy can be thought of as a ”zoom in” operation and can generate many larger training examples.
Zoom out ==> small object
1. 将原图像放在 $16 \times$ 的画布的随机位置
2. 其他位置使用均值填充
3. random crop
Zoom Out 产生大量小目标，对提高小目标检测性能有显著提升：

其原因是小目标数量少，导致小目标对应的anchor难以训练（类似于分类时正负样本不平衡对正样本训练的影响）

而 Zoom Out 的方法产生了大量的小样本，提升了小样本在数据集中的比重，从而提高了小样本的检测性能：

Data augmentation，翻来覆去的randomly crop，保证每一个prior box都获得充分训练而已

Testing (Inferencing) Step

对于每个预测框，首先根据类别置信度确定其类别（置信度最大者）与置信度值
过滤掉属于背景的预测框
然后根据置信度阈值（如0.5）过滤掉阈值较低的预测框
对于留下的预测框进行解码，根据先验框得到其真实的位置参数（解码后一般还需要做clip，防止预测框位置超出图片）
根据置信度进行降序排列，然后仅保留top-k（如400）个预测框
NMS算法，过滤掉那些重叠度较大的预测框

最后剩余的预测框就是检测结果了。

Performance Analysis

Recall & Error Type

Bbox Size & Ratios

Model Analysis

数据增强可以大幅度提高mAP
box的形状越多越好
多个不同空间分辨率的输出显著提高性能

Use Yourself

Convolution For Speed

理论上卷积层的输出结果可以替代全连接层，但卷积层的运算量和参数量相比于全连接层少很多

小改动有大收益

实际上网络中可以不再出现全连接层

Feature Pyramids Fashion

检测任务天然会面对multi-scale和multi-ratios的困难

使用多个level的feature map是解决multi-scale方法的直觉思路

但单独使用每个level的feature map都会有不足

如何整合多了level的feature map是一个重要的问题

Positive & Negative Imbalance

正负样本不平衡的产生原因是：将background作为foreground的一个类

这会导致分类的损失函数被负样本主导（因为缺少了two-stage方法在stage-1对负样本的过滤）

其解决方法大概有3个：

Hard Negative Mining
Focal Loss
Online Hard Example Mining

Zoom In & Zoom Out

zoom in / zoom out 可扩增大目标 / 小目标的数量

尤其是 zoom out，可以获得大量的小样本，在一定程度上结局了小目标的anchor的训练难题

这对于小目标的增益十分明显

Math

Loss Function

$g)=\frac{1}{N}\left(L_{\operatorname{conf}}(x, c)+\alpha L_{\operatorname{loc}}(x, l, g)\right)$

$N$ ：匹配到ground-truth box的anchor数目
$x_{ij}^p={1,0}$ ：表示第 $i$ 个anchor是否匹配到类别为 $p$ 的第 $j$ 个ground-truth box

当 $x_{ij}^p=1$ 时，表示第 $i$ 个anchor匹配到第 $j$ 个ground-truth box，ground-truth类别为 $p$

这依旧是一个 Multi-Task 的损失函数：

Confidence Loss：
$\frac{1}{N} L_{\operatorname{conf}}(x, c)$
$L_{\operatorname{conf}}(x, c)$ ：
$L_{\text {conf}}(x, c)=-\sum_{i \in \text {Pos}}^{N} x_{i j}^{p} \log \left(\hat{c}_{i}^{p}\right)-\sum_{i \in \text {Neg}} \log \left(\hat{c}_{i}^{0}\right) \quad \text { where } \quad \hat{c}_{i}^{p}=\frac{\exp \left(c_{i}^{p}\right)}{\sum_{p} \exp \left(c_{i}^{p}\right)}$
Location Loss：
$\frac{1}{N} L_{\operatorname{loc}}(x, l, g)$
$L_{\operatorname{loc}}(x, l, g)$ ：

predicted box ( $l$ ) 和 ground-truth box (g) 的 Smooth L1 损失：
$L_{l o c}(x, l, g)=\sum_{i \in P o s}^{N} \sum_{m \in\{c x, c y, w, h\}} x_{i j}^{k} \operatorname{smooth}_{\mathrm{Ll}}\left(l_{i}^{m}-\hat{g}_{j}^{m}\right)$

$\operatorname{smooth}_{L_{1}}(x)=\left\{\begin{array}{ll} 0.5 x^{2} & \text { if }|x|<1 \\ |x|-0.5 & \text { otherwise } \end{array}\right.$

注意：Location Loss 仅仅对 positive anchor（匹配到ground-truth box的anchor）进行计算

回归公式为：
- 中心点坐标 $c x, c y$ ==> 平移
  $\begin{aligned} \hat{g}_{j}^{c x}=\left(g_{j}^{c x}-d_{i}^{c x}\right) / d_{i}^{w} \\ \hat{g}_{j}^{c y}=\left(g_{j}^{c y}-d_{i}^{c y}\right) / d_{i}^{h} \\ \end{aligned}$
宽和高 $w, h$ ==> 缩放
$\begin{aligned} \hat{g}_{j}^{w}=\log \left(\frac{g_{j}^{w}}{d_{i}^{w}}\right) &\\ \hat{g}_{j}^{h}=\log \left(\frac{g_{j}^{h}}{d_{i}^{h}}\right) \end{aligned}$

Multi-Level & Anchor

Feature Map

注意：

即：在多个scale的feature map，使用多个ratios的anchor进行detection

卷积层index和feature map的size如下：

index	Conv4_3	Conv7	Conv8_2	Conv9_2	Conv10_2	Conv11_2
feature map size	38×38×512	19×19×1024	10×10×512	5×5×256	3×3×256	1×1×256

Anchor Scale

anchor的相对于每层feature map size的尺度 $s_k$ 由下式计算：
$s_{k}=s_{\min }+\frac{s_{\max }-s_{\min }}{m-1}(k-1), \quad k \in[1,m]$

$s_k$ ：anchor的相对于feature map的size的比例
$s_{\min }$ ：0.2
$s_{\max }$ ：0.9
$m$ ：所使用feature map的个数，此处为6

经计算，anchor占对应feature map的scale以0.17递增，即：

index	Conv4_3	Conv7	Conv8_2	Conv9_2	Conv10_2	Conv11_2
scale	单独设定为0.10	0.20	0.37	0.54	0.71	0.88

反映在原图上的true size为（输入图片为300×300）：

index	Conv4_3	Conv7	Conv8_2	Conv9_2	Conv10_2	Conv11_2
true size	30	60	111	162	213	264

Anchor Ratios

对每层feature map的ratios有4个或者6个

6 ratios

$a_r = [1,1',2,\frac12, 3,\frac13]$
4 ratios

$a_r = [1,1',2,\frac12]$

其长宽 $w, h$ 为：
$w_k^a = s_k \sqrt {a_r}$

$h_k^a = \frac{s_k}{\sqrt {a_r}}$

Layer Output & Filters

相比于YOLO使用 FC层输出结果，SSD使用了convolutional filter来输出结果，从而获得更少的参数、更快的速度

SSD是一个全卷积网络，用于detection的feature map通过convolutional filter来输出结果

每个filter只输出一个值，这个值是category score，或是box offset

对于feature map的每个location，输出维度为：
$(c + 4) * k$

$c$ ：目标的类别数+1（background与foreground一起做分类）

没有了YOLO的confidence区分正负样本，这会导致正负样本极端的不平衡，SSD使用了[Hard Negative Mining](#Hard Negative Mining)来维持正负样本的比例
$4$ ：bounding box的4个offset
$k$ ：feature map每个location的anchor数，为6或4

对于一个 $m \times n$ 的feature map，其输出维度为：
$(c + 4) * k * m * n$
所需filter的个数也是：
$(c + 4) * k * m * n$
以 $5 \times 5$ 的feature map为例，其输出为：

Model Output

index	Conv4_3	Conv7	Conv8_2	Conv9_2	Conv10_2	Conv11_2
feature map size	38×38×512	19×19×1024	10×10×512	5×5×256	3×3×256	1×1×256
scale	单独设定为0.10	0.20	0.37	0.54	0.71	0.88
true size	30	60	111	162	213	264
ratios	$[1,1',2,\frac12]$	$[1,1',2,\frac12, 3,\frac13]$	$[1,1',2,\frac12, 3,\frac13]$	$[1,1',2,\frac12, 3,\frac13]$	$[1,1',2,\frac12]$	$[1,1',2,\frac12]$
output	(1, 4×4, 38, 38) (1, 4×21, 38, 38)	(1, 6×4, 19, 19) (1, 6×21, 19, 19)	(1, 6×4, 10, 10) (1, 6×21, 10, 10)	(1, 6×4, 5, 5) (1, 6×21, 5, 5)	(1, 6×4, 3, 3) (1, 6×21, 3, 3)	(1, 4×4, 1, 1) (1, 4×21, 1, 1)

anchor的中心点坐标为：
$\big( \frac{i+0.5}{|f_k|} ,\frac{j+0.5}{|f_k|}\big)$

$f_k|$ 为第 $k$ 层feature map的size

最终输出为：

location：(1, 8732, 4)
confidence：(1, 8732, 4)

其中 8732 为输出总的bounding box数目，为 $(4 \times 38 \times 38) + (6 \times 19 \times 19) + (6 \times 10 \times 10) + (6 \times 5 \times 5) + (4 \times 3 \times 3) + (4 \times 1 \times 1)$

所以说SSD本质上是密集采样

关于数据流，详见 [Data FLow](# Data FLow)

Blogs

目标检测|SSD原理与实现：细节信息比较丰富，网络魔改的结构，有TensorFlow代码
一文理解SSD到底是如何检测目标的：对比试验和损失函数
目标检测——SSD简介及代码注释（附github代码——已跑通）：网络的输出维度
目标检测算法之SSD代码解析(万字长文超详细)：PyTorch代码讲解

【目标检测实战】Pytorch—SSD模型训练（VOC数据集）：配置教程
SSD目标检测：数据流、优缺点分析、一些trick及其作用
为什么SSD(Single Shot MultiBox Detector)对小目标的检测效果不好？
目标检测算法之SSD的数据增强策略：数据增强代码

探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
今日行情明日机会——20250321 人大博士的交易之路人工智能区块链数学建模数据挖掘分类涨停回马枪大数据
后续投资机会分析结合2025年3月21日盘面数据（涨停56家，跌停31家），市场呈现结构性分化行情，海洋经济成为绝对主线，机器人概念局部活跃，人工智能表现较弱。以下是具体方向与策略建议：1.海洋经济（核心主线，政策+事件驱动）核心逻辑：板块23家涨停，梯队完整（七板至一板），神开股份（七板）打开高度，叠加海洋资源开发、碳中和政策（如海上风电、深海装备）催化，资金深度介入。大连重工（三板，海洋工程装
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

[paper reading] SSD

[paper reading] SSD

文章目录

Motivation

Problem to Solve

Contributions

Technique

SSD Architecture

Framework Architecture

Modifications of Backbone

Pros & Cons

Pros

Cons

小目标检测困难

default box 严重依赖手工设计

Key Element

Higher Speed

Structure

Input Image

What Is Resample

Low & High Level Feature

low-level feature map

high-level feature map

Small Object Difficulties

Data Flow

Anchor & GtBox Matching

Foreground & Background

Hard Negative Mining

NMS

Data Augmentation

随机裁剪 random crop

水平翻转 horizontal flip

颜色扭曲 color distortion

Zoom In & Zoom Out

Testing (Inferencing) Step

Performance Analysis

Recall & Error Type

Bbox Size & Ratios

Model Analysis

Use Yourself

Convolution For Speed

Feature Pyramids Fashion

Positive & Negative Imbalance

Zoom In & Zoom Out

Math

Loss Function

Multi-Level & Anchor

Feature Map

Anchor Scale

Anchor Ratios

Layer Output & Filters

Model Output

Blogs

你可能感兴趣的:(Detection,paper,reading,计算机视觉,机器学习,人工智能,深度学习,论文笔记)