DrogoZhang

【论文笔记】RetinaNet论文最全解析！一文读懂！

Focal Loss for Dense Object Detection

文章目录

Focal Loss for Dense Object Detection

依赖知识
简介
相关工作

典型对象检测器
Two-stage检测器
One-stage检测器
类不均衡
鲁棒性估计

Focal Loss

平衡交叉熵
Focal Loss定义
类别不均衡和模型初始化
类别不均衡和Two-stage检测器

RetinaNet 检测器

特征金字塔主干网
Anchors
分类子网络
边框回归子网络
训练

Focal Loss
初始化
优化过程

预测

实验

平衡交叉熵
Focal Loss
Focal Loss分析
在线困难样本挖掘(OHEM)
Hinge Loss
Anchor密度
速度VS准确率

总结

我们知道object detection的算法主要可以分为两大类：two-stage detector和one-stage detector。前者是指类似Faster RCNN，RFCN这样需要region proposal的检测算法，这类算法可以达到很高的准确率，但是速度较慢。虽然可以通过减少proposal的数量或降低输入图像的分辨率等方式达到提速，但是速度并没有质的提升。后者是指类似YOLO，SSD这样不需要region proposal，直接回归的检测算法，这类算法速度很快，但是准确率不如前者。研究发现 正负样本极不均衡是主要原因。

因此针对类别不均衡问题，作者提出一种新的损失函数：focal foss，这个损失函数是在标准交叉熵损失基础上修改得到的。这个函数可以通过减少易分类样本的权重，使得模型在训练时更专注于稀疏的难分类的样本；防止大量易分类负样本在训练中压垮检测器。为了证明focal loss的有效性，作者设计了一个dense detector：RetinaNet，并且在训练时采用focal loss训练。实验证明RetinaNet不仅可以达到one-stage detector的速度，也能超过现有two-stage detector的准确率。

论文地址

依赖知识

a) 熟悉典型目标检测技术R-CNN系列，SSD，YOLO V1/V2等

b) 熟悉困难样本挖掘技术OHEM

简介

目前最先进的目标检测是基于two-stage和提议框驱动机制。最广为人知的R-CNN框架，first stage是生成稀疏的候选对象位置；second stage使用卷积神经网络对候选对象位置分类。two-stage框架一直在COCO数据集上由最高的准确率。

一个自然的想法one-stage检测器是否能达到类似的准确率。one-stage检测器通常在位置、尺寸、长宽比上有规律的密集采样。one-stage检测器如YOLO,SSD，也有比较令人期待的结果，相对于最先进的two-stage方法，其检测精度在10-40％之间，检测速度更快。

本文更进一步：使用one-stage检测器，第一次在COCO AP上媲美了更复杂的two-stage技术(如：FPN，Mask-RCNN)。并证明了类别不均衡是阻碍one-stage检测器达到two-stage检测器最好的精确率的主要障碍；并提出一个新的损失函数消除这个障碍。

R-CNN系列检测器通过two-stage级联和启发式采样解决这个问题。在候选框产生阶段(如：Selective Search, EdgeBoxes, DeepMask，RPN)将候选的对象迅速的减少到1~2k个，过滤的大部分背景样本。在第二个阶段分类中，启发式采样(如：正负样本比1：3)或者OHEM；来保持正负样本的平衡。

作为比较，one-stage检测器需要在图片上有规律的采样来产生一个大得多的候选对象集。实际上通常约~100k个，密集的空间位置、尺寸和长宽比。类似的启发式采用也会使用，但是没有效果，训练过程还是被易分类的背景样本主导了。这种无效在对象检测中是一个典型问题，可以通过booststrapping或者困难样本挖掘来解决。

本文提出一个新的损失函数，在解决类别不均衡问题上比之前的方法更有效。损失函数是动态缩放的交叉熵损失，其中缩放因子随着对正确类别的置信度增加而衰减到零(如图Figure 1)。直观地说，这个缩放因子可以自动降低训练过程中简单样本的贡献，并快速将模型集中在困难样本上。实验发现，Focal Loss在one-stage检测器上的精确度胜过之前的state-of-art的启发式采样和困难样本挖掘。最后，focal loss的具体公式形式不是关键的，其它的示例可以达到类似的结果。

我们设计了一个名叫RetinaNet的one-stage对象检测器来说明focalloss的有效性，RetinaNet命名来源于在输入图像上的密集采样。它基于ResNet-101- FPN主干网，以 5fps 的运行速度下，在 COCO test-dev 上取得了 39.1 AP 的成绩，Figure 2 所示，超过目前公开的单一模型在 one-stage 和 two-stage 检测器上取得的最好成绩。

Focal Loss

a) 对于二分类标准的交叉熵损失函数如下
$\begin{cases} -log(p) \ \ \ if\ y=1 \\ -log(1-p) \ \ \ otherwise. \end{cases} \ \ \ \ \ \ (1)$
$y \in { \pm1} $
代表正负样本(即前景/背景)
$\in [0, 1]$ 是模型预测y = 1 概率值

b) 如果定义如下的 $p_t$
$p_t = \begin{cases} p \ \ \ \ \ if \ y=1 \\1-p \ \ \ otherwise, \end{cases} \ \ \ (2)$

则公式可以简写为：

$CE(p, y) = CE(p_t) = -log(p_t)$

c) 需要提一点：如图Figure 1最上面的曲线，易分类的样本会导致损失函数增大很多。通过对大量易分类损失值求和，发现它们远远大于稀有样本(rare class)的值。

平衡交叉熵

一般解决类不平衡的方法是增加一个权重因子α ∈ [0, 1]，对于类别1为α，对于类别-1为1-α；实际使用中α可以设置为逆类别频次或者作为交叉熵的一个超参数。为了书写方便，使用 $p_t$ 类似的方式定义 $\alpha_t$

$CE(p_t) = -\alpha_t log(p_t)$

这种损失是交叉熵的一个简单的扩展，可以认为这是我们提出的focal loss的实验性基线。

Focal Loss定义

实验证明，大的类别不均衡在密集型检测器训练中会压垮交叉熵损失函数。易分类负样本占了损失函数大部分，支配了梯度。α平衡正负样本的重要性，但是没有区分难易样本。我们提出改进损失函数降低易分类样本权重，聚焦于困难负样本的训练。

正式的提出了增加一个调节因子 $(1-p_t)^\gamma$

到交叉熵中，γ ≥ 0是可调节的聚焦参数；focal loss定义如下：

$FL(p_t) = -(1 - p_t)^\gamma log(p_t). \ \ \ \ \ (4)$

在图Figure 1中展示了γ ∈ [0, 5]不同值时focal loss曲线。注意focal loss的两个属性。(1) 当样本误分类且 $p_t$ 很小时，调节因子解决1，损失函数没有影响。当 $p_t$ 接近1，调节因子趋于0，损失函数的权重对易分类样本降低。(2) 聚焦参数γ平滑的调节易分类样本权重降低的比率。当γ = 0，FL等价于CE; 调节因子的影响随着γ增大而增加(实验中γ = 2效果最好)。

直观的，调节因子降低易分类样本的权重，并扩展的样本低损失值的区间。例如：γ =
2，易分类样本 $p_t$ =0.9，比CE的损失函数值小100倍；如果 $p_t$ ≈0.968，则小1000倍。也增加了纠正错分类样本的重要性。

实际上，我们使用一个α-平衡变量。因为这种形式可以轻微的提升精确性。最终，在损失函数层组合sigmoid操作计算p,获取更好的数值稳定性。

$FL(p_t) = -\alpha_t(1 - p_t)^\gamma log(p_t). \ \ \ \ \ (5)$

实验结果表明focal loss的具体形式不是关键，其它示例的形式也同样有效

类别不均衡和模型初始化

二分类模型默认对y = −1 或 1有相同的概率。在类别不均衡的情况下如此初始化会导致训练的初始阶段时候不稳定。我们通过稀有类别的估算p值,并提出一个概念：先验prior。我们用π来表示先验，并将其设置为使得模型对于稀有类别样例的p值估计很小(如：0.01)。这只是模型初始化的改变，不是损失函数本身。我们发现这个改变在类别不均衡时对于模型训练的稳定性有提升，不管是使用交叉熵还是focal loss损失函数。

类别不均衡和Two-stage检测器

Two-stage检测器一般使用交叉熵损失函数，并没有α-平衡参数或者我们提出的focal loss。它们通过通过两个机制来解决类别不均衡：(1) two-stage级联，(2)倾斜的微批采样。第一个级联阶段时对象提议框机制，将几乎无限的对象定位迅速减少到1~2k。重要的是不是随机减少，保留的都是跟真实对象位置相关很高的，大量的易分类负样排除了。第二阶段使用倾斜采样，例如正负样本1:3。这个比例就像通过采样隐式的实现α-平衡参数。我们提出的focal loss通过损失函数的方式在one-stage中实现了这些机制。

RetinaNet 检测器

RetinaNet是由一个主干网和两个任务子网络组成的简单同一网络。主干网使用卷积神经网络负责从整个图片提取特征，是一个现成的网络。第一个子网络使用卷积分类，第二个子网络使用卷积来边框回归。两个子网络是我们为one-stage密集型检测而提出的简单设计(如图Figure 3)。虽然这些组件的细节有许多可能的选择，但大多数设计参数对实验中所示的具体值并不特别敏感。

特征金字塔主干网

使用特征金字塔(FPN)作为RetinaNet的主干网。FPN给标准的卷积神经网络增加一个自顶向下的路径和侧向连接，来从图片的单一分辨率构建一个丰富的、多尺度的特征金字塔。金字塔的每一层以不同尺寸检测对象。FPN 改善了全卷积网络的多尺寸预测。

我们在ResNet结构上构建FPN，在P3~P7层上构建金字塔，l代表金字塔层级，金字塔每层都有256个通道。金字塔的具体实现与原本的FPN有小的差异。这些都不是关键的，需要强调的是使用FPN作为主干网的原因是，实验发现只使用ResNet层，最终AP值较低。

Anchors

使用类似RPN中具有平移不变性的anchor boxes。从P3到P7层的anchors的面积从32*32依次增加到512*512。每一层的anchors有三种长宽比{1:2,
1:1, 2:1}.为了更加密集的覆盖在每层的三种长宽比增加如果尺寸 ${2^0, 2^{1/3}, 2^{2/3}\}$ ；这样每层有9个anchors，通过不同层覆盖了输入图像 32~813 像素区间。

每个anchor关联一个K维独热向量，K是对象的类别数；和一个4维向量做边框回归。当IOU大于0.5时，anchors和GT关联；IOU在[0, 0.4)作为背景；每个anchor最多关联一个GT；在K维向量中，关联的类别值为1，其它都为0。IOU在[0.4, 0.5)之间的anchorsd丢弃。边框回归就是计算anchor到关联的GT之间的偏移。

分类子网络

分类子网络预测每个anchor上K个类别的概率。子网络是附加在FPN的每一层的一个小的FCN；参数共享。网络设计非常简单(见图Figure 3 ©）：对于给定的金字塔层级输出的C个通道的Feature Map，子网络使用4个3×3的卷积层，每层的通道数任然是C，接着是一个ReLU激活层；然后跟一个通道数位KA(K是类别数，A是anchor数)的3×3的卷积层；最后使用sigmoid激活函数。

与RPN相比，我们的分类子网络更深，并且只使用了3×3卷积；没有和边框回归子网络共享参数。高层的设计比具体的超参数值要重要。

边框回归子网络

与分类子网络并行的，在FPN的每一层附加一个小的FCN用于边框回归。边框回归子网络和分类子网络设计是一样的(见图Figure 3 (d)），唯一不同最后一层通道数是4A个。边框回归的方法与RCNN的边框回归一样。不同于大多数设计，我们使用类别无关的边框归回，参数更少，同样有效。分类子网络和边框回归子网络共享结构，参数独立。

训练

Focal Loss

分类子网络使用focal loss损失函数。实验发现γ = 2效果最好，鲁棒区间是γ ∈ [0.5, 5]。需要强调的是，训练RetinaNet,最终每张图片在损失函数上应用的~100k个anchors。通常启发式采样(RPN)或者困难样本挖掘(OHEM,SSD)在每个minibatch都只选择很少的anchors(如：256)。一张图片上FL损失函数值是所有~100k
anchors的总和，根据关联GT的anchors个数标准化，而不是anchors的总数；因为大部分anchors是易分类负样本,在FL下损失值非常小。

关联稀有类别的权重参数α，也有一个稳定的区间，但是与γ值互相影响；通常α随着γ的增大而轻微减少（γ = 2, α = 0.25效果最好）。

初始化

    a) 实验中使用了ResNet-50-FPN和ResNet-101-FPN主干网。

    b) 基础的ResNet-50和ResNet-101在ImageNet1k数据集上预训练。

    c) FPN增加的层与原FPN论文中一样。

    d) 所有新增的卷积层(除了子网络的最后一层)初始化权重为 σ = 0.01的高斯分布，偏置为0

    e) 分类子网络最后一层偏置为− log((1 − π)/π)；π为前景的置信度估算值，实验中使用π = 0.01。

优化过程

    a) 在8GPU的机器上使用SGD, 每个minibatch 16张图片。

    b) 一共训练90k个迭代；初始学习率0.01；在60k和80k个迭代是学习率减小10倍

    c) 数据增广只使用了水平翻转

    e) 权值衰减0.0001；冲量大小0.9

    f) 边框回归使用L1损失函数 

    g) Table 1e中的模型训练时间在10\~35小时之间(见）

预测

     RetinaNet是一个FCN有ResNet-FPN主干网和两个子网络组成（见图Figure

3）。预测过程就是简单的前向传播。为了提升速度，通过置信度阈值0.05，仅仅对每个FPN层最多top
1k的anchor做边框回归；然后使用阈值0.5做NMS产生最终结果。

实验

平衡交叉熵

Table 1a表明α-平衡交叉熵在α=0.75时可以提升AP值0.9(注意不带平衡参数时α=0.5）。

Focal Loss

 a) Table 1b表明了focal loss的影响。当γ = 2 时FL可以提升AP值2.9个点。

 b) 最佳的α值区间是[0.25,0.75]

 c) 较小的α值与较大的γ搭配

Focal Loss分析

为了弄明白FL为什么更好，我们分析FL的经验分布。在大量随机图片中采用约 $10^7$ 个负样本和 $10^5$ 个正样本；随后计算FL值，并归一化。对归一化的FL值排序并分别画出正负样本的累积分布函数图。

a)20%的困难正样本贡献了约一半的损失值；当γ增加时，20%的贡献度更加明显；但是影响不是很大。

b) γ对于负样本的影响完全不同；γ =0时CDF与正样本类似；当γ增加时，迅速的聚焦于困难负样本，当γ=2时，大量的易分类负样本仅仅贡献了少量损失。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q5jqIhvd-1575810299461)(pic/RetinaNet-fig4.jpg)]

在线困难样本挖掘(OHEM)

OHEM中所有样本经过计算损失值，然后使用NMS过滤，最后在minibatch时选择损失值最大的那些样本。OHEM关注误分类样本，不同于FL,OHEM完全忽略的易分类样本。如Table
1d所示，最好的OHEM与FL有3.2点AP差距。

Hinge Loss

先前使用中尝试对 $p_t$ 使用Hinge Loss；对 $p_t$ 值大于某个阈值的样本，损失函数置为零。但是训练过程不稳定，并且也达不到有价值的效果。

Anchor密度

one-stage检测器的anchor密度到底多少才能覆盖任意图像边框。Two-stage检测器通过Region Pooling(ROI Pooling)可以对边框的任何位置、尺寸、长宽比归类（原文：Two-stage detectors can classify boxes at any position, scale, and aspect ratio using a region pooling operation）。相比之下，one-stage 检测器使用一个固定的采样网格，一个常用的方法是在每个空间位置使用多个anchors来覆盖不同的尺寸和长宽比边框。

我们在FPN每一层的每个空间位置使用不同个数的尺寸和长宽比anchors。在ResNet-50从使用1个方形anchor到12个anchors(尺寸为 $2^{k/4}$ ,

k ≤ 3,长宽比为 [0.5, 1, 2]，见Table 1c）。令人惊讶的是只使用1个anchor情况下AP就有30.3；当使用3中尺寸和3中长宽比时可以到达34.0。

最终，我们发现再增加6~9个anchors也没有更多的提升。虽然two-stage检测器可以识别图片中任意的边框；性能的饱和度w.r.t. 密度意味着较高潜在密度的two-stage系统的可能不具有优势。

速度VS准确率

a) 更大的主干网有更好的准确率，但速度更慢；输入图像的尺寸也是如此;见Table 1e。

b) 图Figure 2 展示RetinaNet和其它方法在速度/精度的比较；RetinaNet
使用FL超过所有的方法，打破低精度的限制。ResNet-101-FPN在600像素尺寸时的精确度超过ResNet101-FPN
Faster R-CNN，同时检测时间为122ms，Faster R-CNN为172ms。

c) 追求速度需要特殊的网络设计如Yolo 9000。

总结

类别不均衡是导致one-stage检测器超越two-stage检测器的主要障碍。我们提出 focal
loss在交叉熵损失函数中使用一个调节项来聚焦于困难负样本。方法简单有效。通过一个one-stage的FCN检测器在速度和精度同时达到stage-of-the-art。

嵌入式单片机开发实战指南：从RISC-V到TinyML全栈技术 CodeMicro 单片机单片机 risc-v 嵌入式硬件
前言：嵌入式单片机的2025年技术浪潮2025年，嵌入式系统正经历开源架构与边缘智能的双重革命。RISC-V指令集打破ARM垄断，国产芯片如兆易创新GD32VF103、先楫HPM6750实现工业级可靠性；TinyML技术让STM32L4系列在1MB内存下运行神经网络；低功耗设计使物联网节点电池寿命突破10年。本文将从架构选型→开发环境→核心技术→实战项目，全方位拆解嵌入式开发的热门技术，带你从入门
探索OpenCV 3.2源码：计算机视觉的架构与实现轩辕姐姐
本文还有配套的精品资源，点击获取简介：OpenCV是一个全面的计算机视觉库，提供广泛的功能如图像处理、对象检测和深度学习支持。OpenCV3.2版本包含了改进的深度学习和GPU加速特性，以及丰富的示例程序。本压缩包文件提供了完整的OpenCV3.2源代码，对于深入学习计算机视觉算法和库实现机制十分宝贵。源码的模块化设计、C++接口、算法实现、多平台支持和性能优化等方面的深入理解，都将有助于开发者的
院级医疗AI管理流程—基于数据共享、算法开发与工具链治理的系统化框架 Allen_Lyb 医疗高效编程研发人工智能算法时序数据库经验分享健康医疗
医疗AI：从“单打独斗”到“协同共进”在科技飞速发展的今天，医疗人工智能（AI）正以前所未有的速度改变着传统医疗模式。从最初在影像诊断、临床决策支持、药物发现等单一领域的“单点突破”，医疗AI如今已迈向“系统级协同”的新阶段。曾经，医疗AI的应用多集中在某一特定环节，比如利用深度学习算法分析医学影像，辅助医生进行疾病诊断。这种单点突破式的应用虽然在一定程度上提高了医疗效率，但随着医疗行业对AI技术
【Python】人脸识别宅男很神经 python 开发语言
第一章：计算机视觉与图像处理的基石在深入人脸识别之前，我们必须首先牢固掌握计算机视觉和图像处理的基本概念。人脸，本质上就是一张复杂的图像，对图像的理解是所有高级视觉任务的起点。1.1图像的本质：像素与数字化表示图像，在我们看来是连续的画面，但在计算机内部，它却是离散的数值矩阵。1.1.1什么是像素？图像的最小单元像素（Pixel），是构成数字图像的最小单位。可以将其想象成一个微小的彩色点。一张数字
大型语言模型的智能本质是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力语言模型人工智能自然语言处理
大型语言模型的智能本质是什么基于海量数据的统计模式识别与生成系统，数据驱动的语言模拟系统，其价值在于高效处理文本任务（如写作、翻译、代码生成），而非真正的理解与创造大型语言模型（如GPT-4、Claude等）的智能本质可概括为基于海量数据的统计模式识别与生成系统，其核心能力源于对语言规律的深度学习，但缺乏真正的理解与意识。以下从本质特征、技术机制、典型案例及争议点展开分析：一、智能本质的核心特征统
计算机视觉算法实战——关键点检测
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言关键点检测（KeypointDetection）是计算机视觉领域中的一个重要研究方向，旨在从图像或视频中检测出具有特定语义信息的关键点。这些关键点通常代表了物体的特定部位或特征，例如人体的关节、面部特征点、车辆的轮子等。关键点检测在姿态估计、动作识别、目标跟踪、三维重建等任务中
复杂场景检测老翻车？陌讯算法实测提升 40% 2501_92453489 算法视觉计算机视觉视觉检测
在工业质检、安防监控等计算机视觉落地场景中，工程师常面临棘手问题：传统算法在光照突变、目标遮挡等复杂环境下，漏检率高达20%以上，泛化能力不足成为项目落地的最大阻碍。而陌讯AI视觉算法通过架构创新，正在重新定义复杂场景下的检测精度标准。技术解析：从单模态到多模态的跨越传统目标检测模型多依赖单一RGB图像输入，在特征提取阶段容易受环境干扰。以经典的FasterR-CNN为例，其区域提议网络（RPN）
深度学习超参数优化（HPO）终极指南：从入门到前沿
摘要：在深度学习的实践中，模型性能的好坏不仅取决于算法和数据，更在一半程度上取决于超参数的精妙设置。本文是一篇关于超参数优化（HyperparameterOptimization,HPO）的综合性指南，旨在带领读者从最基础的概念出发，系统性地梳理从经典到前沿的各类优化方法，并最终落地于实用策略和现代工具。无论您是初学者还是资深从业者，都能从中获得宝贵的见解。第一部分：夯实基础——HPO的核心概念1
天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

【论文笔记】RetinaNet论文最全解析！一文读懂！

Focal Loss for Dense Object Detection

文章目录

依赖知识

简介

相关工作

典型对象检测器

Two-stage检测器

One-stage检测器

类不均衡

鲁棒性估计

Focal Loss

平衡交叉熵

Focal Loss定义

类别不均衡和模型初始化

类别不均衡和Two-stage检测器

RetinaNet 检测器

特征金字塔主干网

Anchors

分类子网络

边框回归子网络

训练

Focal Loss

初始化

优化过程

预测

实验

平衡交叉熵

Focal Loss

Focal Loss分析

在线困难样本挖掘(OHEM)

Hinge Loss

Anchor密度

速度VS准确率

总结

你可能感兴趣的:(深度学习,神经网络,计算机视觉)