calvinpaean

FCOS: Fully Convolutional One-Stage Object Detection 论文学习

FCOS: Fully Convolutional One-Stage Object Detection

Abstract
1. Introduction
2. Related Work

基于 Anchor 的检测器
Anchor-free 检测器

3. 方法

3.1 全卷积单阶段检测器

网络输出
损失函数
前向推理

3.2 Multi-level prediction with FPN for FCOS
3.3 Center-ness

4. Experiments

论文地址：https://arxiv.org/pdf/1904.01355.pdf

代码地址：https://github.com/tianzhi0549/FCOS

Abstract

作者提出了一个全卷积单阶段的目标检测器（FCOS），逐像素点预测的方式来解决目标检测问题，类似于语义分割任务。几乎所有的 state of art 的目标检测器都需要使用 anchor boxes，如 RetinaNet, SSD, YOLOv3, 和 Faster R-CNN。然而，我们提出的目标检测器FCOS不需要 anchors，也不需要 proposals。去掉了anchor boxes，FCOS 就可以完全避免关于 anchor boxes 复杂的计算，比如在训练时我们要计算重叠区域面积，这样就极大地降低了训练内存消耗。更重要的是，我们也排除了所有与 anchor boxes 有关的超参数，这些超参对最终的检测性能影响很大。我们的检测器更简洁，FCOS 只有一个后处理步骤—非最大抑制（NMS），它超过了之前基于anchor的单阶段检测器。这是圈内第一次有一个更简洁更灵活的框架，实现更高的检测准确率。

1. Introduction

目标检测在计算机视觉领域很基础也很具有挑战性，它需要算法对图像中的每个实例物体预测一个边框及其类别。所有主流的检测器如 SSD, Faster R-CNN, YOLO 都需要用到一个预先定义好的 anchor boxes 集合，而且人们也认为 anchor boxes 对检测器的效果至关重要。尽管这些算法很成功，但是我们也应注意到它们有以下问题：

检测效果对 anchor boxes 的大小，宽高比，和个数很敏感。例如，RetinaNet 在 COCO 基准上，anchor boxes 的超参数的改动会造成 AP 值上下 $4\%$ 的浮动。因此这些超参数需要花大力气去调。
哪怕 anchor boxes 是精心设置过的，由于它们的 scales 和宽高比都是固定的，检测器在面对形状变化剧烈的物体时也比较困难，尤其是针对小物体时。
为了获得高召回率，基于 anchor 的检测器需要在输入图像上摆放密集的 anchor boxes（如 FPN 在短边长度为800的图像上需要摆放 18万个 anchor boxes）。绝大多数的 anchor boxes 在训练中都会被标注为负样本。大量的负样本会造成训练过程中正负样本的不均衡。
大量的 anchor boxes 也会造成计算量的激增和内存的消耗，当计算 anchor boxes 和真值边框的IOU时。

最近，全卷积网络 FCN 在密集预测的任务如语义分割，深度估计，关键点检测上取得了不错的效果。在视觉任务中，目标检测可能是唯一一个没有应用全卷积逐像素点预测的框架，主要还是由于 anchor boxes 的使用。那么，我们是否能像语义分割中的 FCN 那样使用逐像素点预测的方式来解决目标检测问题呢？ 这样子，视觉任务中所有的问题都可以用一个框架来解决。这篇论文证明了，这是可以的。而且，这篇论文第一次证明，和基于 anchors 的检测器相比，更简单的基于 FCN 的检测器可以取得更好的效果。

在学术研究中，有一些方法尝试将全卷积框架用于目标检测，如 DenseBox 和 UnitBox。这些基于 FCN 的框架在每层特征图的每个空间位置上，直接预测一个 4D 向量加一个类别。如图1左所示，这个 4D 向量表示像素点到4个边框的距离。这些框架和语义分割中的全卷积网络类似，只是每一个点都需要回归一个4D的连续向量。但是为了应付不同大小的边框，DenseBox 将图像缩放到一个固定尺寸。这样的话，DenseBox 不得不在图像金字塔上进行检测，这和 FCN 的一次处理完所有卷积的方式相悖。而且，这些方法主要只能用于特殊场景下的目标检测，如文字检测和人脸检测，因为有观点认为这些方法应用在通用目标检测任务上效果不会很好，往往它们具有高度重叠的边框。如图1 右所示，高度重叠的边框会造成界限不明确：很难理清重叠部分的像素点应该属于哪一个边框。

FCOS: Fully Convolutional One-Stage Object Detection 论文学习_第1张图片

接下来，我们仔细地研究了这个问题，并且证明 FPN 能有效地解决这种不明确的问题。我们的方法已经可以取得和传统基于 anchors 方法一样的检测准确率。而且，我们发现 FCOS 会在远离目标物体中心的位置上产生一些效果不好的预测边框。为了降低这些不好的检测结果，我们引入了一个 “center-ness” 分支（只有一层），预测像素点到目标边框中心的距离（公式3）。这个分数然后用于降低效果不好的边框的权重，然后用 NMS 将检测结果合并。Center-ness 分支很简单，也很有效。有了它，在同样的训练和测试环境下，我们基于 FCN 的检测器就能超过基于 anchor 的检测器。

这个新的检测框架有以下优势：

检测任务现在可以和其它用 FCN 能解决的任务统一起来，如语义分割。
检测任务无需 proposal 和 anchor，这极大地降低了设计参数的个数，那些参数通常需要各种调参技巧才能获得优异的效果；FCOS 这样就变得很简单。而且，移除了 anchor boxes，我们的检测器就能完全避免复杂的 IOU 计算，降低内存消耗。
FCOS 单阶段检测器取得的成绩是 state of art，FCOS 也可作为 RPN 而用于双阶段检测器，取得的效果也要好于基于 anchor 的 RPN。
FCOS 检测器可被迅速地推广到其它视觉任务上，只需稍微改动，如实例分割和关键点检测。

2. Related Work

基于 Anchor 的检测器

基于 anchor 的检测器继承了传统的滑动窗和基于 proposals 的检测器，如 Fast R-CNN。在基于 anchor 的检测器中，anchor boxes 可以看作一个预先定义好的滑动窗或 proposals，然后被分类为正样本或负样本，再加一个额外的偏移回归来修正边框位置的预测。因此，这些检测器中的 anchor boxes 可以看作为训练样本。与过去的检测器不同，如 Fast RCNN 对每个滑动窗都重复计算图像特征，anchor boxes 利用卷积网络的特征图，避免了重复的特征计算，极大地提高了检测速度。Anchor boxes 在 Faster R-CNN，SSD，YOLOv2 中很常用。

但是 anchor boxes 会带来很多超参数去调。除了需要一些超参数来定义 anchor boxes 的形状和大小，还需要阈值超参数来确定某个 anchor box 是否为正样本，还是负样本。常用方法是通过 anchor box 和 ground truth box 之间的 IOU 来确定。这些超参对最终的准确率影响很大。同时，这些超参也因检测任务而异，使得检测任务没法像语义分割中的全卷积网络那样简洁。

Anchor-free 检测器

最常用的 anchor-free 检测器应该是 YOLOv1。YOLOv1没有使用 anchor boxes，它在目标物体的中心附近预测边框。在物体的中心位置检测，通常效果更好，所以 YOLOv1 只考虑中心附近的点。但是，又因为只考虑了中心附近的点来预测边框，YOLOv1 的召回率就比较低。结果呢，YOLOv2 也不得不用了 anchor boxes。和 YOLOv1 相比，FCOS 利用了 ground truth 边框中所有的点来预测边框，通过 center-ness 分支来抑制那些效果不行的检测边框。这样子，FCOS 就可以获得和基于 anchor 的检测器相同的召回率。

CornerNet 最近也提出了单阶段不需要 anchor 的检测器，它检测边框的两个拐角，将这两个拐角组成一组，形成最终的检测边框。CornerNet 需要复杂的后处理过程，将同一实例的拐角分组。这样为了学习如何分组，就需要学习一个额外的用于分组的距离 metric。

3. 方法

首先，我们将目标检测任务以逐个像素点预测的方式重新表示。然后，我们使用多层级预测的方式来提升召回率，解决了重叠边框引发的歧义。最后，我们提出了 center-ness 分支，抑制那些质量差的检测边框，提升整体性能。

3.1 全卷积单阶段检测器

设 $F_i \in \mathbb{R}^{H\times W\times C}$ 为CNN第 $i$ 层的特征图， $s$ 是该层之前的总共步长。输入图像的 ground truth 边框定义为 $\{B_i\}, B_i = (x_0^{(i)}, y_0^{(i)}, x_1^{(i)} y_1^{(i)}, c^{(i)}) \in \mathbb{R}^4 \times \{1,2,...,C\}.$ 这里 $x_0^{(i)}, y_0^{(i)})$ 和 $x_1^{(i)} y_1^{(i)})$ 分别表示边框左上角和右下角的坐标。 $c^{(i)}$ 表示边框物体的类别。 $C$ 是类别的总数，对于 COCO 数据集而言， $C = 80$ 。

对特征图 $F_i$ 上的每个位置 $(x, y)$ 而言，我们可以将之以 $(\lfloor \frac{s}{2} \rfloor + xs, \lfloor \frac{s}{2} \rfloor + ys)$ 映射回输入图像上，这个位置靠近 $(x, y)$ 感受野的中心。基于 anchor 的检测器将输入图像上的位置作为 anchor boxes 的中心，然后对这些 anchor boxes 回归出目标边框。而我们的方法是直接在每个位置上回归出目标边框。也就是说，我们的检测器直接将每个点看作训练样本，而不是将 anchor boxes 看作训练样本，这和语义分割中的 FCN 一样。

如果 $(x, y)$ 落入一个 ground truth 边框内，它就被标注为正样本，该位置的标签 $c^*$ 就是 $B_i$ 的标签。否则它就是负样本， $c^* = 0$ （背景类）。除了分类的标签，我们也有一个4D的向量 $t^* = (l^*,t^*,r^*,b^*)$ 作为每一个样本回归的目标。 $l^*,t^*,r^*,b^*$ 分别表示该位置到边框四个边的距离。如果一个点落入多个边框之中，它就被视作模糊样本。就目前来说，我们只选取最小面积的边框作为回归的目标。下一节中，我们将展示多层级预测，模糊样本的个数就会减少很多。如果位置 $(x, y)$ 与边框 $B_i$ 相关联，该位置的回归目标可定义如下：
$l^* = x - x_0^{(i)}, t^*=y-y_0^{(i)}, r^*=x_1^{(i)}-x, b^*=y_1^{(i)}-y$

有一点要注意到，FCOS 能利用尽可能多的前景样本来训练回归器。这和基于 anchor boxes 的检测器不同，它们只将那些和 ground truth边框 IOU 足够高的 anchor boxes 当作正样本。我们认为也许这是FCOS 比基于 anchor 的检测器效果好的原因之一。

网络输出

与训练目标对应，最后一层预测一个类别标签的 80 维的向量 $p$ ，以及一个4维的向量 $t = (l, t, r, b)$ 对应着边框坐标。我们训练 $C$ 个二元分类器，而不是一个多类别分类器。我们在主干网络特征图之后增加4个卷积层，分别对应分类和回归分支。而且，由于回归目标通常是正的，我们在回归分支上面用 $e x p (x)$ 将任意实数映射到 $\infty)$ 之内。FCOS 的参数个数要比基于 anchor 的检测器少9倍，因为一般基于 anchor 的方法在每个位置上会有9个 anchor boxes。

损失函数

定义损失函数如下：
$L(\{p_{x,y}\},\{t_{x,y}\}) = \frac{1}{N_{pos}}\sum_{x,y} L_{cls}(p_{x,y}, c^*_{x,y}) + \frac{\lambda}{N_{pos}}\sum_{x,y}\mathbb{1}_{c^*_{x,y} > 0} L_{reg}(t_{x,y}, t^*_{x,y})$

$L_{cls}$ 是 focal loss， $L_{reg}$ 是IOU loss。 $N_{pos}$ 表示正样本的个数，在这篇论文中 $\lambda = 1$ 用于平衡 $L_{reg}$ 的权重。对特征图 $F_i$ 上的各个位置的结果进行求和。 $\mathbb{1}_{c^* > 0}$ 是指标函数，它等于1，当 $c^*_i>0$ 时候，否则为0。

前向推理

FCOS 的前向推理很直接。给定输入图片，前向通过整个网络，获得特征图 $F_i$ 上每个位置的分类得分 $p_{x,y}$ 以及回归预测 $t_{x,y}$ 。如果一个位置的 $p_{x,y}>0.05$ ，则它被列为正样本，然后通过等式1获得预测边框。

3.2 Multi-level prediction with FPN for FCOS

这一节讨论如何解决FCOS 可能遇到的两个问题：

最后一个特征图上较大的步长（比如16 $\times$ ）可能导致 best possible recall(BPR) 较低。对于基于anchor 的检测器，因步长较大而导致召回率低的问题，可以通过降低判断正样本的 IOU 阈值来弥补。对于FCOS，人们可能会认为它的 BPR 会比基于 anchor 的方法低很多，因为步长很大，最终的特征图上不会有位置来编码物体信息。这里呢，我们证明即使步长很大，基于 FCN 的 FCOS 也能产生足够好的 BPR。而且，它甚至要比基于 anchor 的 RetinaNet 要好。因此，BPR 在 FCOS 就不是一个问题。而且，利用多层级 FPN 预测，BPR 能被进一步提升，达到 RetinaNet 的最好成绩。
Ground truth 边框的重叠区域会造成训练中的不明确，到底重叠区域内的位置应该回归到哪个边框里去？这个问题导致基于 FCN 的检测器性能降低。我们证明这种不明确问题可以通过多层级预测解决，和基于 anchor 的检测器相比较，基于 FCN 的检测器能取得更优的成绩。

接着 FPN，我们在特征图的不同层级上检测不同大小的物体，我们使用了特征图的5种层级， ${P_3, P_4, P_5, P_6, P_7\}$ 。 $P_3,P_4,P_5$ 是通过CNN 的特征图 $C_3,C_4,C_5$ 跟着一个 $1\times 1$ 的卷积层而产生，如图2所示。 $P_6, P_7$ 通过在 $P_5, P_6$ 上分别应用一个步长为2的卷积层而得到。特征层 $P_3, P_4, P_5, P_6, P_7$ 的步长分别为 $8, 16, 32, 64, 128$ 。

FCOS: Fully Convolutional One-Stage Object Detection 论文学习_第2张图片

基于 anchor 的检测器在不同特征层上分配不同大小的 anchor boxes，而我们是直接限定边框回归的范围。更具体点，我们首先在所有特征层上的每个位置计算回归目标 $l^*, t^*, r^*, b^*$ 。然后，如果一个位置满足 $max(l^*, t^*, r^*, b^*)>m_i$ 或者 $max(l^*, t^*, r^*, b^*)<m_{i-1}$ ，它就被设为负样本，就不需要回归边框。 $m_i$ 是第 $i$ 个特征层需要回归的最大距离。在论文中， $m_2, m_3, m_4, m_5, m_6, m_7$ 分别被设为 $\infty$ 。因为不同大小的物体被分配到不同的特征层，而绝大多数的重叠物体彼此间的大小很不一样，多层级预测能极大地缓解前面提到的重叠区域模糊问题，因而提升 FCN 检测器的精度。

最后，我们在不同的特征层级间共享 heads，提升了检测器的效率和性能。但是我们发现不同特征层级需要回归不同的大小范围（比如对 $P_3$ 是 $[0, 64]$ ，对 $P_4$ 是 $[64, 128]$ ），因而对不同的特征层级使用一样的 heads 是不合理的。所以，除了使用标准的 $e x p (x)$ ，我们也有用 $exp(s_i x)$ ， $s_i$ 是一个可训练的标量，自动调节特征层 $P_i$ 的指数函数的底数，从而提升性能。

3.3 Center-ness

使用了多层级预测后，在 FCOS 和基于 anchor 的检测器间还有一道鸿沟要跨越。我们发现，在远离物体中心的位置，有许多质量差的预测边框。

我们提出了一个简单却很管用的方法来抑制这些低质量的边框，而无需引入额外的超参。我们仅增加了一层分支预测位置的 center-ness（该位置到对应物体中心的距离），它和分类分支平行，如图2所示。给定某位置的回归目标 $l^*, t^*, r^*, b^*$ ，center-ness 目标函数定义如下：

$centerness^* = \sqrt{\frac{min(l^*, r^*)}{max(l^*, r^*)} \times \frac{min(t^*, b^*)}{max(t^*, b^*)}}$

我们用 $\sqrt{}$ 是为了降低 center-ness 衰减的速度。Center-ness 值的范围从0到1，通过二元交叉熵损失来训练。这个损失然后加到等式2 的损失函数中去。测试时，将预测的 center-ness 和对应的分类得分相乘，得到最终的得分，再用这个得分对检测边框进行排名。这样，这个 center-ness 就可以降低那些远离物体中心边框的得分。在最后的 NMS 过程中，这些低质量的边框就会很大概率上被剔除，提升检测效果。

基于 anchor 的检测器使用2个 IOU 阈值 $T_{low}, T_{high}$ 来将 anchor box 标为负样本，忽略，和正样本。而 center-ness 可以看作为一个 soft 阈值。Center-ness 通过模型训练来学习，而无需手动去调。而且依据此方法，我们的检测器仍可以将任意落入 ground truth 边框的点看作正样本，除了那些在多层级预测中已经被标注为负样本的点，在回归器中就可以使用尽可能多的训练样本。

FCOS: Fully Convolutional One-Stage Object Detection 论文学习_第3张图片

4. Experiments

Pls read paper for more details.

【深度学习】AMP（Automatic Mixed Precision，自动混合精度） shanks66 深度学习人工智能
@[toc]AMP（AutomaticMixedPrecision，自动混合精度）AMP在深度学习中，AMP（AutomaticMixedPrecision，自动混合精度）是一种通过混合使用单精度（FP32）和半精度（FP16）来加速训练并减少显存占用的技术。它能够在不显著损失模型精度的情况下，大幅提升训练速度和效率。1.什么是混合精度训练？混合精度训练是指在训练过程中同时使用两种不同的浮点数精度
智能化植物病害检测：使用深度学习与图像识别技术的应用机器懒得学习深度学习人工智能
植物病害一直是农业生产中亟待解决的问题，它不仅会影响作物的产量和质量，还可能威胁到生态环境的稳定。随着人工智能（AI）技术的快速发展，尤其是深度学习和图像识别技术的应用，智能化植物病害检测已经成为一种趋势，能够大幅提高病害检测的效率与准确性。本文将介绍如何使用深度学习和图像识别技术，通过Python编写的智能化病害检测程序，实现对植物叶片病害的自动识别与分类。1.项目背景与目标在农业领域，及时发现
深度学习-45-大型语言模型LLM之本地化部署运行自己的大模型皮皮冰燃深度学习深度学习人工智能
文章目录1深度学习1.1神经网络和深度学习1.2神经网络的工作原理1.3神经网络的专业术语2LLM概述2.1大模型的"大"是指什么?2.2训练大模型有多烧钱？2.3如何入门大模型？2.4LLM的结构2.4.1Transformer2.4.2Prompts2.4.3FineTuning3本地跑大模型3.1Ollama运行开源LLM3.1.1启动并运行3.1.2使用api访问3.1.3设置外网访问3.
深度学习笔记——前向传播与反向传播、神经网络（前馈神经网络与反馈神经网络）、常见算法概要汇总好评笔记深度学习笔记深度学习笔记神经网络人工智能
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要介绍深度学习的前向传播与反向传播，以及前馈神经网络与反馈神经网络。文章目录前向传播与反向传播前向传播（ForwardPropagation）反向传播（BackPropagation）总结神经网络简介结构类型前馈神经网络（FeedforwardNeuralNetwork,FFNN）特点常见变体反馈神经网络（Feedb
深度学习笔记——生成对抗网络GAN 好评笔记深度学习笔记深度学习生成对抗网络人工智能神经网络 aigc gan 机器学习
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍早期生成式AI的代表性模型：生成对抗网络GAN。文章目录一、基本结构生成器判别器二、损失函数判别器生成器交替优化目标函数三、GAN的训练过程训练流程概述训练流程步骤1.初始化参数和超参数2.定义损失函数3.训练过程的迭代判别器训练步骤生成器训练步骤4.交替优化5.收敛判别GAN训练过程的挑战四、GAN的常见变体
神经网络初始化 (init) 介绍迷路爸爸180 神经网络人工智能深度学习初始化 init
文章目录引言1.初始化的重要性1.1打破对称性1.2控制方差1.3加速收敛与提高泛化能力2.常见的初始化方法及其应用场景2.1Xavier/Glorot初始化2.2He初始化2.3正交初始化2.4其他初始化方法3.如何设置初始化4.基于BERT的文本分类如何进行初始化4.1项目背景4.2模型构建4.3模型训练与评估4.4结果分析结论参考资料引言在深度学习的世界中，构建一个高效且性能优异的神经网络模
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
【YOLOv8杂草作物目标检测】 stsdddd YOLO目标检测目标检测 YOLO 目标检测人工智能
YOLOv8杂草目标检测算法介绍模型和数据集下载算法介绍YOLOv8在禾本科杂草目标检测方面有显著的应用和效果。以下是一些关键信息的总结：农作物幼苗与杂草检测系统：基于YOLOv8深度学习框架，通过2822张图片训练了一个目标检测模型，用于检测田间的农作物幼苗与杂草对象。该系统支持图片、视频以及摄像头进行目标检测，并能保存检测结果。系统界面可实时显示目标位置、目标总数、置信度、用时等信息。YOLO
深度学习(1) 浅忆へ梦微凉深度学习人工智能深度学习学习方法 python
一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码GPU：pipinstalltorch==2.5.0torchvision==0.20.0torchaudio==2.5.0--index-urlhttps://download.pytorc
深度学习常用格式转化脚本xml2yolo/coco2yolo/bdd2yolo/frame2video等 qq1309399183 计算机视觉实战项目集合深度学习人工智能格式转化脚本 voc2yolo格式转化数据集格式转换 xml2yolo coco2yolo
文章目录1.**数据集格式转换脚本**`coco2yolo.py`示例注释：注释说明：`xml2yolo.py`示例注释：注释说明：2.**数据集可视化与统计**`vis_yolo_files.py`示例注释：注释说明：3.**其他工具脚本**`frames2video.py`示例注释：注释说明：该项目提供了一系列用于深度学习的数据处理工具，主要功能包括：数据集格式转换：提供多种脚本，将不同格式的
LLMs，即大型语言模型 maopig AI 语言模型人工智能自然语言处理
LLMs，即大型语言模型，是一类基于深度学习的人工智能模型，它们通过海量的数据和大量的计算资源进行训练，可以理解和生成自然语言。LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。LLMs在众多领域都有广泛的应用，如自然语言理解（NLU），语言生成，以及语音识别和合成等。例如，它们能够理解人类的语言
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
【Python】已解决：ModuleNotFoundError: No module named ‘sklearn‘ 屿小夏 python sklearn 人工智能
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
如何快速在Windows 10 + Anaconda 3 中使用Mxnet及gluon qianchess mxnet使用 mxnet win10 anaconda gluon 人工智能
如何快速在Windows10+Anaconda3中使用Mxnet及gluon网络上Mxnet的安装以及使用方法很多，自从其作者之一李沐推出了基于Mxnet的深度学习课程之后，我也尝试着去使用了一下Mxnet。首先第一步就是在自己的系统中安装Mxnet及其相关组建。现在的Mxnet常常会跟其虚拟环境Gluon结合在一起，所以下文就一起阐述一下，顺便记录一下自己踩的坑。注意本文的大部分内容都可以在官网
3D UNet和Swin-UNETR 学無芷境计算机视觉
3DUNet和Swin-UNETR都是用于医学图像分析的深度学习网络，它们对三维（3D）数据进行特征提取和分割。3DUNet3DUNet是UNet架构的一个变体，专门设计用于处理三维医学图像数据。UNet最初是为二维（2D）图像分割任务设计的，具有典型的编码器-解码器结构。3DUNet扩展了这种架构，以便更好地处理具有深度信息的体积数据，如CT或MRI扫描。主要特点：编码器：逐渐下采样图像，提取并
推荐3D UNet实现：深度学习3D体素数据语义分割的利器！滑辰煦Marc
推荐3DUNet实现：深度学习3D体素数据语义分割的利器！去发现同类优质开源项目:https://gitcode.com/在这个快速发展的深度学习时代，3DUNet已经成为3D图像处理领域中不可或缺的工具，尤其在医疗影像分析和3D物体识别等任务上展现出强大的潜力。这个开源项目为我们提供了一个高效、灵活的3DUNet实现，支持Tensorflow、PyTorch和Chainer三种主流深度学习框架。
锐捷路由器网关RG-NBR6135-E和锐捷交换机 Ruijie Reyee RG-ES224GC 电脑登录web方法 zh7314 硬件工程
2025年1月17日22:29:35最近淘了点东西，准备在家里搞一套深度学习的服务器，先把网关和交换机搞到了锐捷路由器网关RG-NBR6135-E电脑登录web方法在拿到机器的时候，如果不是全新建议拿根牙签，差入reset5-10秒,灯光会全部闪几下，重置机器，因为有些机器会配置的ip和网段无法访问默认的web服务ip，在机器上面的默认配置单配置参考：https://baijiahao.baidu
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
深度学习模块C2f代码详解你是狒狒吗目标检测人工智能计算机视觉 pytorch YOLO 神经网络
C2f是一个用于构建卷积神经网络（CNN）的模块，特别是在YOLOv5和YOLOv8等目标检测模型中。这个模块是一个改进的CSP（CrossStagePartial）Bottleneck结构，旨在提高计算效率和特征提取能力。下面是对C2f类的详细解释：类定义和初始化Python复制classC2f(nn.Module):“”“FasterImplementationofCSPBottleneckw
华为 Ascend 平台 YOLOv5 目标检测推理教程 Lunar* 目标检测华为 YOLO 目标检测
1.背景介绍随着人工智能技术的快速发展，目标检测在智能安防、自动驾驶、工业检测等领域中扮演了重要角色。YOLOv5是一种高效的目标检测模型，凭借其速度和精度的平衡广受欢迎。华为Ascend推理框架（ACL）是AscendCANN软件栈的核心组件，专为AscendAI加速硬件（如Atlas300I）设计，可实现高性能的深度学习推理。在本文中，我们将介绍如何基于华为AscendACL推理框架对YOLO
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
Pytorch实现：LSTM-火灾温度预测骑猪玩狗 pytorch lstm 人工智能
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前期工作语言环境：Python3.9.18编译器：JupyterLab深度学习环境：Pytorch1.12.11.设置GPUimporttorchimporttorch.nnasnnimporttorchvisionfromtorchvisionimporttransforms,datasetsimportos,PIL,pathlibde
深度学习项目--基于LSTM的火灾预测研究(pytorch实现) 羊小猪~~ RNN LSTM神经网络案例机器学习/数据分析案例深度学习 lstm pytorch 人工智能机器学习 rnn gru
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言LSTM模型一直是一个很经典的模型，这个模型当然也很复杂，一般需要先学习RNN、GRU模型之后再学，GRU、LSTM的模型讲解将在这两天发布更新，其中：深度学习基础–一文搞懂RNN深度学习基础–GRU学习笔记(李沐《动手学习深度学习》)这一篇：是基于LSTM模型火灾预测研究，讲述了如何构建时间数据、模型如何构建、pytorch中LST
昇腾NPU推理YOLOV10目标检测（C++） weixin_51923349 c++ffmpeg opencv
1.准备工作基础环境：需要安装NPU固件驱动，CANN的包在昇腾官网下载，安装最新版就可以了。C++环境搭建链接：cplusplus/environment/catenation_environmental_guidance_CN.md·Ascend/samples-Gitee.com按照上面的链接，需要安装：presentagent,opencv,ffmpeg+acllite其中ffmpeg和o
每天五分钟深度学习框架pytorch：基于vgg块搭建VGG卷积神经网络每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch cnn VGG 卷积神经网络
本文重点前面我们使用pytorch搭建了vgg块，本文我们使用vgg块搭建卷积神经网络VGG16，我们先来看一下vgg16的模型结构是什么样的：搭建vgg16importtorchfromtorchimportnndefvgg_block(num_convs,in_channels,out_channels):net=[nn.Conv2d(in_channels,out_channels,kern
深度学习 Pytorch 张量（Tensor）的创建和常用方法白白糖深度学习pytorch python 深度学习 pytorch 人工智能
1张量的基本创建及其类型和Numpy中的array一样，张量的本质也是结构化地组织了大量的数据。并且在实际操作中，张量的创建和基本功能也与其非常类似。1.1张量(Tensor)函数创建方法张量的最基本创建方法和Numpy中创建Array的格式一致。#Numpy创建数组importnumpyasnp#导入numpya=np.array([1,2,3])importtorch#首次使用,导入torch
PyTorch 神经协同过滤 (NCF) 推荐系统教程陌北v1 pytorch python NCF 神经协同过滤
目录教程概述1.神经协同过滤模型概述NCF模型的主要组成部分：2.数据加载与预处理3.定义神经协同过滤模型4.训练模型5.模型评估6.推荐物品7.完整示例8.总结在本教程中，我们将使用PyTorch实现一个神经协同过滤（NeuralCollaborativeFiltering，简称NCF）推荐系统。神经协同过滤是一种基于深度学习的推荐系统模型，通过学习用户和物品的嵌入表示来预测用户对物品的评分，进
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】 FF-Studio 大语言模型开源
本文需要用到的代码已经放在GitHub的仓库啦，别忘了给仓库点个小心心~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调1.1大语言模型发展简史随着深度学习的飞速发展，特别是Transformer架构在自然语言处理（NLP）领域的成功，大语言模型（LLM,LargeLanguageModel）成为近年来
10 个免费的 AI 图片生成工具分享程序员
原文：https://openaigptguide.com/ai-picture-generator/在人工智能（AI）图像生成技术的推动下，各类AI图片生成网站如雨后春笋般涌现，为我们的日常生活提供了丰富多彩的视觉体验。AI图片生成技术原理人工智能（AI）图片生成技术原理是通过计算机程序使用深度学习算法从大量的数据中学习特征，并根据特征创建新的图片。该技术可以模拟人类的绘画过程，学习输入图像的潜
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa