zyw2002

论文精读《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》

BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

文章目录

BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
论文精读
- 摘要（Abstract）
- 1. 简介（Introduction）
- 2. 相关工作（Related Works)
- - 2.1 基于视觉的二维目标感知（Vision-based 2D Perception）
  - 2.2 基于BEV的语义分割（Semantic Segmentation in BEV）
  - 2.3 基于视觉的3D目标检测（Vision-based 3D Object Detection）
- 3. 方法（Methodology）
- - 3.1 网络结构（Network Structure）
  - 3.2 定制化的数据增强策略（The Customized Data Augmentation Strategy）
  - 3.3 尺度NMS （Scale-NMS）
- 4. 实验（Experiment）
- - 4.1 实验设置（Experimental Settings）
  - 4.2 基准测试结果（Benchmark Results）
  - 4.3 消融研究（Ablation Studies）
- 5. 结论（conclusion)
参考

论文精读

摘要（Abstract）

背景介绍：二维的目标检测算法启发我们去寻找一个高效可用的三维目标检测算法
自动驾驶通过感知周围环境来做出决定，这是视觉领域中最复杂的场景之一。范式创新在解决二维目标检测中的成功激励着我们去寻找一个简练的、可行的、可扩展的范例，从根本上推动该领域的性能边界。
主要工作：重用2D目标检测的框架，主要改进点在于 1. 构造一个专属的数据扩充策略 2. 升级NMS方法。
为了这个目的，本文提出了BEVDet范式。BEVDet在鸟瞰图(BEV)中执行三维目标检测算法，在BEV图中大多数目标值的设定和路线规划可以方便地执行。我们只是重用现有的2D目标检测的模块来构建BECDet的框架，但实质上的改进是通过构造一个专属的数据扩充策略和升级非最大抑制。
实验结果：很好的权衡了准确度和时间效率。（BEVDet-Tiny、BEVDet-Base)
在实验中，BEVDet很好的权衡了检测准确度和时间效率。在nuScenes val集上时，作为快速版本的BEVDet-Tiny的得分为31.2% mAP和39.2% NDS。与FCOS3D相比，BEVDet只需要215.3 GFLOPs 的计算开销, 是FCOS3D11%）；运行速度每秒15.6帧，比FCOS3D快9.2倍。另一个高精度版本 BEVDet-Base评分为39.3% mAP和47.2% NDS, 显著地超过所有已发表的结果。在一个相当快的推理速度下，它与FCOS3D相比，mAP 提升了9.8%， NDS 提升了10.0%。

1. 简介（Introduction）

动机：针对目前对于不同的视觉任务，采用基于不同视图的方法的问题（基于图像和基于BEV的方法），作者希望提出一个统一的框架处理多任务学习。
在过去的几年里，二维视觉感知技术得到了迅速的发展, 并出现了一些杰出的范例，如Mask R-CNN，它具有高性能、可扩展和多任务兼容的特性。
然而，对于同时要求精度和时间效率的基于视觉的自动驾驶场景，诸如三维目标检测和地图恢复等主要任务在最新的基准测试中仍由不同的范式来完成。
例如在nuScenes基准测试中，基于图像视图的方法，例如FCOS3D和PGD的检测性能在基于多摄像头的3D目标检测任务中，性能保持领先水平。然而在BEV语义分割领域的算法主要是基于BEV的方法，类似于PON、Lift-Splat-Shoot, VPN。
在自动驾驶中，究竟上述的哪个视图空间对感知更合理，我们能否在统一的框架中处理这些任务?
针对这些问题，本文提出了BEVDet。通过BEVDet，我们探索了在BEV中检测3D对象的优势，期望与最新的基于图像视图的方法相比，具有更好的性能，并与BEV语义分割范式保持一致。这样可以进一步验证多任务学习的可行性，对高效推理有一定的意义。
Framework: 基于模块化的设计思想，BEVDet的网络框架和基于BEV的语义分割算法框架类似，包括四个部分（Image-view Encoder、View Transformer、BEV Encoder、Task-specific Head）。

BEVDet-Tiny图

BEVDet和目前最新的基于BEV的语义分割算法有着相似的框架。
BEVDet的模型包括四个部分：

图像编码器（Image-view Encoder）：用来提取图像特征
视图转换器（View Transformer）：将图像特征映射到鸟瞰图坐标
BEV编码器（BEV Encoder）：进一步对BEV空间的特征进行编码
检测头（Task-specific Head) ：根据所执行任务设计输出头, 预测3D物体的目标值。

得益于这种模块化设计，我们可以重用大量现有的在其他领域已被证明是有效的作品。但要升级这一特定于3D目标检测任务的范式仍有很长的一段路要走。

为了提高模型的鲁棒性，下面提出了两种改进策略

(1) 改进策略1：为了防止模型的过拟合，在BEV的空间中进行额外的数据增强操作。
虽然构建BEVDet的框架很简单，但构建其健壮的性能却并非易事。在验证BEVDet可行性时，为了获得合理的性能，将BEVDet的数据处理策略和参数个数设置得接近于基于图像视图的三维物体检测器，如FCOS3D和PGD。
但是在训练的过程中，出现了严重的过拟合问题，线索显示导致这样的原因是BEVDet在BEV空间中的过度拟合能力。这促使我们在基于图像的视图空间中应用一个复杂的数据增强策略，例如Lift-Splat-Shoot, 以达到正则化的效果。但是这种更改只在BEV 编码器不存在时有用，否则会降低性能。
另一方面，基于图像视图编码器的批处理大小是子序列模块的N倍。训练数据的不足也是导致在基于BEV空间中学习过拟合的一部分原因。此外，我们观察到视图转换器以像素的方式将图像视图空间与BEV空间连接起来，从数据增强的角度对两者进行解耦。这使得在图像视图中的数据增强对数据没有正则化的影响子序列模块（子序列模块包括BEV Encoder 和 3D object Detection Head）。

因此，作为补充，在BEV空间中进行额外的数据增强操作，如翻转、缩放和旋转，以提高模型在这些方面的鲁棒性。这可以很好地防止BEVDet过拟合。

(2) 改进策略2：对NMS进行升级，以提高在三维场景的适应性。

此外，我们对经典的非极大值抑制策略（NMS）进行了升级，以提高其在三维目标检测场景中的适应性。通过删除按顺序执行的操作符，推理过程进一步加快。

效果：很好的权衡的准确性和推理延时，且能够感知更多的3D特征。

通过这些修改，BEVDet在现有范式的准确性和推理延迟之间提供了一个出色的权衡。在nuScenes 验证集上，高速版本BEVDet-Tiny达到了很高的准确度（mAP值为31.2% ，NDS值为39.2%，图像大小是704256），这仅仅是竞争对手FCOS3D的1/8(29.5% mAP和37.2% NDS，图像大小是1600900）缩小图像大小可以减少89%的计算预算，并提供9.2倍的显著加速(例如，BEVDet具有215.3 GFLOPs和15.6 FPS，而FCOS3D具有2,008.2 GFLOPs和1.7 FPS)。通过构造另一个被称为BEVDet-Base的高精度配置，我们突破了39.3% mAP和47.2% NDS的新纪录。

此外，与现有的范例相比，在BEV空间中显式编码特征使BEVDet能够感知目标的平移、尺度、方向和速度。在消融研究中可以发现BEVDet的更多特征。

2. 相关工作（Related Works)

2.1 基于视觉的二维目标感知（Vision-based 2D Perception）

图像分类
目标检测

2.2 基于BEV的语义分割（Semantic Segmentation in BEV）

基于BEV的语义分割也包含了上文所说的4大部分

2.3 基于视觉的3D目标检测（Vision-based 3D Object Detection）

单目摄像机的3D目标检测
基于多摄像机的3D目标检测
- FCOS3D
- DETR3D
- PGD
- DD3D

3. 方法（Methodology）

3.1 网络结构（Network Structure）

如图1所示，模块化设计的BEVDet由四种类型组成一个图像-视图编码器，一个视图转换器，一个BEV编码器和一个任务特定的头。我们通过构建几个模型来研究BEVDet的可行性，具有不同结构的衍生品如表中所列。

图像编码器（Image-view Encoder）
- 作用：将输入图像编码为高级特征
- 结构：为了实现多分辨率特征，包括一个用于高级别特征提取的主干和一个用于多分辨率特征融合的颈部
- 主干选择：ResNet，SwinTransformer，DenseNet，HRNet等
- 颈部选择：FPN、FPN-LSS
视图转换器（View Transformer）
- 作用：将图像特征映射到鸟瞰图坐标
- 方法：利用了LSS中的深度估计算法
  - 把基于图像视图的特征当做输入，先对图像进行升维构造视锥，预测图像的深度
  - 然后基于预测的图像深度和图像特征生成点云
  - 最后在竖直方向上池化得到BEV特征
BEV编码器（BEV Encoder）
- 作用：进一步对BEV空间的特征进行编码。
- 结构：类似于image-view Encoder，但它可以高精度地感知一些关键线索，如比例、方向和速度。
- 主干选择：使用ResNet来构造主干网络。
- 特征融合：使用FPN-LSS来融合不同尺度的特征。
检测头（Task-specific Head)
- 作用：根据所执行任务设计输出头（3D物体检测旨在检测行人、车辆、障碍物等可移动物体的位置、比例、方向和速度）
- 方法：不需要任何修改，可以直接采用3D目标检测的头部在CenterPoint的第一个阶段。在CenterPoint的第二个细化的阶段并没有采用（只是复用了CenterPoint的头部）。

3.2 定制化的数据增强策略（The Customized Data Augmentation Strategy）

问题：

图像域数据增广

证明：图像空间的数据增广与BEV特征空间是解耦的

设图像像素坐标 $P_{image}=[x_i,y_i,1]^T$ 对应的深度是 $d$ , 相机的内参是 $I$ （3*3的矩阵），则相应的3D坐标为 $P_{camera}=I^{-1}(p_{image}*d)$ .

对于图像领域的数据增广，比如翻转、裁剪、旋转都可以表达为3*3的矩阵 $A$ ，即 $P^{'}_{image}=AP_{image}$

注意在视图转换时，为了保证图像 pixel 和 3d 空间中对应点的一致性，需要进行逆变换,即

$\begin{aligned} \mathbf{p}_{\text {camera }}^{\prime} &=I^{-1}\left(A^{-1} \mathbf{p}_{\text {image }}^{\prime} * d\right) \\ &=I^{-1}\left(A^{-1} A\left[x_i, y_i, 1\right]^T * d\right) \\ &=I^{-1}\left(\left[x_i, y_i, 1\right]^T * d\right) \\ &=\mathbf{p}_{\text {camera }} \end{aligned}$

因此对图像进行数据增广操作，不会对BEV特征的空间分布产生影响。

解决方法：

BEV空间数据增广

由于多视图图像在BEV进行了特征融合，BEV编码器的学习数据比图像编码器的学习数据少。翻转、缩放和旋转被应用于BEV特征图的数据增广（同时对视图转换器的输出以及检测目标进行操作以保证空间一致性）。注意该增广方法需要视图转换解耦的条件，因此其余方法可能不适用。

3.3 尺度NMS （Scale-NMS）

问题：

BEV空间中不同类别的空间分布与图像视图空间中的空间分布截然不同。在图像视图空间中，由于相机的透视成像机制，所有类别共享相似的空间分布。因此，对于经典的NMS策略对于不同的类别都采用相同的阈值来来筛选预测结果。（例如在2D目标检测中，任何两个实例的bounding box的IOU值总是低于0.5）

然而，在BEV空间中，各个类的占用面积本质上是不同的，实例之间的重叠应接近于零。因此，预测结果之间的IOU分布因类别而异。

比如行人和锥型交通路标在接地面上占用很小的面积，这总是小于算法的输出分辨率。常见的对象检测范式冗余地生成预测。每个物体的占地面积小，可能使冗余结果与真正结果没有交集。这将使依赖正样本和负样本之间空间关系（IOU）的经典NMS失效。

解决方法：

Scale-NMS在执行经典NMS算法之前，**根据每个对象的类别缩放其大小。**通过这种方式，调整正样例和冗余结果之间的IOU分布，以与经典NMS匹配。缩放因子是特定于类别的。它们是通过对验证集进行超参数搜索生成的。

4. 实验（Experiment）

4.1 实验设置（Experimental Settings）

数据集（dataset）
- ncScenes基准测试，包含从6个摄像头采集的1000个场景
- 训练集：验证集：测试集 = 700：150:150
- 一共标注了10个类别，分别是小汽车，卡车，公共汽车，拖车，建筑车辆，行人，摩托车，自行车，路障和交通锥
评价标准（Evaluation Metrics）

使用官方预先定义的评价指标：
- Mean Average Precision (mAP)
- Average Translation Error (ATE)
- Average Scale Error (ASE)
- Average Orientation Error (AOE)
- Average Velocity Error (AVE)
- Average Attribute Error (AAE)
- NuScenes Detection Score (NDS)
其中此处的map值和在二维目标检测中的通过准确度和查全率计算map值比较类似，但是它的定义是基于2D中心点的距离而不是IOU。

NDS是综合判断检测结果的其他指标的综合能力。其余的指标是用来计算正样本对应的精度
训练参数（Training Parameters）
- 优化器：AdamW
- 学习率：2e-4
- batch size: 64
- GPU: 8 NVIDIA GeForce RTX 3090 GPUs.
数据处理（Data Processing）

介绍了数据扩充的相关指标
推理速度（Inference Speed）

4.2 基准测试结果（Benchmark Results）

在nuScenes验证集上，BEVDet在位置、尺寸、朝向和速度的估计上准确率高，但在属性的估计上相比于基于图像的3D检测准确率较低。这可能是由于属性判断依赖于外观线索，更容易在图像中感知。结合两种视图可能是一个有前途的方法。

在nuScenes测试集上，BEVDet能达到使用激光雷达预训练视觉检测模型的相当性能，且与基于激光雷达的经典3D检测方法PointPillars性能相当。

4.3 消融研究（Ablation Studies）

数据增广：仅使用BEV编码器而不适用任何数据增广的方法（A）性能最差，且很早就开始过拟合。如果仅加上图像数据增广（B），能延缓过拟合出现时间，但未过拟合时的最优性能甚至不如A方法。若仅加上BEV数据增广（C），能更有效地减轻过拟合，且最优性能超过A方法。这说明BEV数据增广比图像数据增广更加有效。同时使用两种数据增广（D）的过拟合时间和性能均最大，且过拟合现象很弱。若上面四种方法（A_{D）均移除BEV编码器（对应方法E}H）：D和H比较可得BEV编码器能提高性能；比较E和F可知，图像数据增广仅在无BEV编码器时有正面效果。这表明BEV编码器有强感知能力，仅在BEV数据增广下才能避免过拟合。
尺度NMS：与普通的NMS以及CenterPoint中提出的环形NMS比较，尺度NMS在小物体的检测精度上有很大提升，其余物体也有一定提升。
分辨率：增大输入图像和BEV特征图的分辨率均能带来性能提升，但会带来额外的推断时间。
加速：该加速是基于Lift-Splat-Shoot用图像产生的点云形状是固定的，因此每个点可以预先分配一个体素索引，用于指示其属于哪一个体素。
本文的改进如下图所示，除了点的体素索引，还建立辅助索引，用于统计每个体素索引的出现次数。然后将点分配到2D矩阵上，沿辅助轴求和。

如果推断时相机的内外参不变，每个点的体素索引和辅助索引均是固定的，在初始化阶段即可预先计算；但此方法会带来额外空间需求，且该空间与体素数量和最大辅助索引值有关。本文设定一个辅助索引最大值，辅助索引值超过的点被丢弃，而几乎不会对性能产生影响。

5. 结论（conclusion)

在本文中，我们提出了一种强大的、可扩展的多摄像机三维目标检测范式BEVDet。BEVDet是参照BEVDet 15在解决BEV中语义分割的成功经验构建的，主要是通过构建一个独特的数据增强策略。在大规模基准测试nuSense中，BEVDet显著地突破了性能边界，特别擅长预测目标的平移、规模、方向和速度。未来的工作将集中在(1) 提高BEVDet的性能，特别是目标属性预测。(2)研究基于BEVDet的多任务学习。

参考

BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View

https://github.com/HuangJunJie2017/BEVDet

自动驾驶感知新范式–BEV感知经典论文总结和对比（上）_苹果姐的博客-CSDN博客_bev视角

BEVDet系列源码解读

Open3D 进阶（31）渐进三角网(PTD)地面滤波点云侠点云进阶线性代数算法计算机视觉 python
目录一、算法原理1、PTD算法2、实现流程二、代码实现三、参数指南四、结果展示。一、算法原理1、PTD算法渐进三角网地面滤波算法（ProgressiveTINDensification,PTD）是一种广泛应用于机载LiDAR点云数据处理的滤波方法，旨在从复杂场景中精确分离地面点，以生成数字高程模型（DEM）。2、实现流程 PTD的核心思想是迭代加密三角网，逐步逼近真实地形：实现流程主要包括以
人工智能中的知识图谱与向量数据库：选择与应用指南 AI Agent首席体验官人工智能知识图谱数据库
1.人工智能领域，知识图谱是什么？知识图谱是人工智能和语义网领域的一个重要概念，它是一种结构化的知识表示方法，用于存储实体之间的语义关系。知识图谱基本上是由节点（实体）和边（关系）组成的图结构：节点：代表现实世界中的实体或概念，如人物、地点、组织等边：代表实体间的语义关系，如"出生于"、“工作于”、"创立了"等知识图谱的主要特点和应用包括：语义网络表示：以三元组形式（主体-关系-客体）存储知识，如
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
基于YOLOv8和Faster R-CNN的输电线路异物目标检测项目检测输电线异物数据集输电线缺陷数据集绝缘子如何使用YOLOv8和Faster R-CNN训练输电线路异物目标检测数据集 QQ67658008 YOLO r语言 cnn 输电线路绝缘子线路异物目标检测
电力篇-输电线路缺陷数据集输电线路异物目标检测数据集16000张5种检测目标：‘burst’-爆裂‘defect’-缺陷‘foreign_obj’-异物‘insulator’-绝缘体‘nest’-窝（巢）带标注-YOLO格式可直接用于YOLO系列目标检测算法模型训练如何使用YOLOv8和FasterR-CNN训练输电线路异物目标检测数据集的详细步骤和代码。假设数据集包含16000张图片和5种检测目
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
【学习】《算法图解》第七章学习笔记：树自学也学好编程程序人生
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
Bagel: 开源协作式AI数据管理平台的使用指南 llzwxh888 人工智能 python
Bagel:开源协作式AI数据管理平台的使用指南引言在人工智能和机器学习领域，高质量的数据集对于模型训练和推理至关重要。Bagel作为一个开源的协作式AI数据管理平台，为开发者和研究人员提供了一个强大的工具，用于创建、共享和管理推理数据集。本文将深入探讨Bagel的特性、安装方法以及如何使用它来处理和管理向量数据。Bagel简介Bagel（OpenInferenceplatformforAI）可以
2013年EI 新目录中新增的期刊 h_liuage 投稿期刊论文投稿
**【转载】2013年EI新目录中新增的期刊**斜体样式3DResearch2092673020926731ACSSustainableChemistryandEngineering21680485ActaInformatica0001590314320525AdvancesinOpticsandPhotonics19438206AdvancesinRadioScience168499651684
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
unity如何让一个物体拥有按钮功能 Lowjin_ unity unity 游戏引擎
在Unity中，要让一个物体（例如一个3D模型、UI元素或其他对象）变成一个按钮，你需要为它添加交互功能。这通常意味着让物体能够响应点击事件，像UI按钮那样触发某些行为。对于3D物体，可以通过射线检测（Raycast）来处理点击交互，而对于UI元素，则直接使用Unity的UIButton组件。这里提供几种常见的方式来让物体变成按钮：方法1：让一个3D物体（例如模型）变成按钮如果你有一个3D物体，并
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
目标跟踪存在问题以及解决方案选与握 #目标跟踪目标跟踪人工智能计算机视觉
3D跟踪一、数据特性引发的跟踪挑战1.点云稀疏性与远距离特征缺失问题表现：激光雷达点云密度随距离平方衰减（如100米外车辆点云数不足近距离的1/10），导致远距离目标几何特征（如车轮、车顶轮廓）不完整，跟踪时易因特征匹配失败导致ID丢失。典型案例：在高速公路场景中，200米外的卡车因点云稀疏（仅约50个点），跟踪算法难以区分其与大型货车的形状差异，导致轨迹跳跃或ID切换。技术方案：稀疏点云增强与特
道路交通标志检测数据集-智能地图与导航交通监控与执法智慧城市交通管理-2,000 张图像 cver123 数据集智慧城市人工智能目标跟踪计算机视觉目标检测
道路交通标志检测数据集已发布目标检测数据集合集（持续更新）道路交通标志检测数据集介绍数据集概览包含类别应用场景数据样本展示YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参数详解常用可选参数典型输出指标4.
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
open3d 点云拟合圆 mesh 扶子 python 点云处理 numpy python open3d 经验分享点云拟合圆 mesh
1、功能介绍：使用numpy和open3d进行二维圆拟合与三维可视化的完整示例。主要功能是对带有噪声的二维点云数据进行最小二乘法圆拟合，并使用open3d创建三角网格来可视化拟合出的圆形区域。2、代码部分：importnumpyasnpimportopen3daso3d#参数设置radius=5.0#圆的半径center=[0,0]#圆心num_points=200#点的数量noise_level
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
杭州西湖断桥不断：3D扫描还原‘残雪‘视觉骗局未来读啥科教资讯 3d
“断桥残雪”是西湖十景之一，所谓“视觉骗局”指的是在特定条件下，从远处看断桥仿佛断开的奇妙视觉效果。利用3D扫描技术还原这一效果可按以下步骤进行：数据采集3D扫描断桥：使用高精度的3D激光扫描仪对断桥及其周边环境进行全面扫描。从多个角度、不同距离对断桥的整体轮廓、桥身细节（如栏杆、石块纹理）进行数据采集，确保获取完整且精确的三维数据。收集周边环境数据：扫描断桥周边的湖水、堤岸、树木等环境元素，因为
腾讯混元3D制作角色模型的教程-2 速易达网络数字媒体专业课程 3d
图生3D，这是一个非常具体的操作指导需求。用户可能是设计师、游戏开发者或3D建模爱好者，希望快速掌握如何利用腾讯混元3D技术通过图片生成3D模型。基础操作：在线平台快速生成步骤1：访问平台登录腾讯混元3D创作引擎官网：https://3d.hunyuan.tencent.com。步骤2：上传图片点击“图生3D”（Imageto3D）功能，上传本地图片。建议：非透明背景图片勾选“RemoveBack
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri