Liiipseoroinis

「3D Object Detection」Lidar Part : First Taste

Lidar Point Clouds

KITTI dataset

KITTI是一个自动驾驶感知模块的作为标准基准的多模态数据集，涉及的感知任务包括基于图像的单眼和立体深度估计，光流（optical flow，详见），语义和实例分割，2d和3d检测。

KITTI是一个带标签的3d场景数据集，这些3d数据由两个相机和一个64线的激光雷达组成。数据集包含7681个训练场景，7581个测试场景。多模态传感器组对3d世界的取样频率是根据雷达每100毫秒（10Hz）360度来取样。因此每一个训练样本是一个100毫秒的点云立体数据和与雷达同步的两个相机图像。两个相机和雷达传感器的同步是一个基础的感知方法，它依赖于图像和点云的融合。

Lidar

雷达传感器提供3d场景的时空离散扫描，其中空间离散表示俯仰和方位分辨率，时间离散表示每100毫秒扫描的时间。俯仰分辨率为0.4度，转换成基于64线激光束的垂直角度（俯仰角）为26.9度；方位分辨率为0.08度。因此，考虑64个通道（64束激光雷达）的俯仰分辨率和0.08度的方位分辨率，由64线激光雷达产生的3d点云图像一共有64行，4500（=360/0.08）列。

Lidar Coordinate Frame

KITTI数据集中，所有返回的点云数据和预测的3d边界框数据都是在激光雷达坐标系下，而激光雷达坐标系是右手坐标系（x, y, z：大拇指，食指，中指：前，左，上）

在激光雷达坐标系中的点，可以使用笛卡尔坐标描述，也可以使用球面坐标（θ, φ, γ）描述。在球面坐标系中，θ表示俯仰角，对应z轴正方向；φ叫做方位角，对应x-y轴之间角度，x轴为起点，y轴为终点；γ表示原点到点的距离。笛卡尔坐标系和球面坐标系存在一个一对一的映射。

Point Clouds Data Format

每坨点云是一组无序的激光雷达点。点云中每个返回的激光雷达点是一个包括激光雷达坐标系坐标（x, y, z）和点云强度（ρ）的4元组。在KITTI中，ρ是一个0到1之间的值，由激光雷达束反射的表面特征决定。每个激光雷达点可以由笛卡尔坐标/球面坐标表示，KITTI使用激光雷达坐标系下的笛卡尔坐标和强度来表示：（x, y, z, ρ）。KITTI中的每坨点云（激光雷达返回一次数据中点的集合）平均有100k个点，这些点的数量由当时的障碍物决定。

3D Object Detection Background

3d Object Detection Task

3d障碍物检测任务可以定义为：在激光雷达坐标系下，给定一个场景的点云，预测当前场景中对应活动物体的障碍物的边界框。这些活动物体包括汽车、自行车、行人等。一个定向的3d边界框是一个带航向角的增强的边界框，该航向角是相对于3d边界框的坐标系。

通常情况，我们会对带6个自由度的定向3d边界框编码，这六个自由度包括边界框维度（width, length, height, l > w）、中心坐标（x, y, z）和偏航角（ϕ）。对偏航角而不是俯仰角和翻滚叫编码的原因是偏航角在逻辑上的跟踪、预测、规划上影响较大，而俯仰角和翻滚角在自动驾驶系统中不如偏航角重要。

当偏航角为0时，代表边界框在长这一维度与边界框坐标系的x轴平行。

Classification Loss and Regression Loss

Classification Loss

通常，默认目标检测网络的分类损失为交叉熵，等于真实类的负对数似然。目标检测的分类损失复杂的地方主要在于对背景（反例）和正例之间的不平衡处理。例如，在一个给定的图像或场景（3d）中，2d或3d的边界框包括非活动物体/对象的背景。因此在训练集中存在背景和对象的不平衡。

处理这种不平衡的两种标准方法是：hard negative mining与focal loss

在硬负挖掘（hard negative mining）中，对每张图像或每个场景（统称为image）中负样本边界框进行子采样，直到负样本的数量是正样本数量的三倍时，选择image中最“负”（或者说是最离谱的）的负样本。量化边界框“负”的程度的测量方法是使用交叉熵，交叉熵越大，“负”得越明显。

而焦点损失（focal loss）没有像硬负挖掘那样对负样本进行挖掘，而是在训练过程中自适应地调整每个样本在分类损失中贡献的权重来处理背景和正例之间的失衡。焦点损失的思想主要基于，在训练早期神经网络很容易识别出背景边界框，以至于它的真实类概率非常接近1.0。因此，通过当前实例的真实类概率与1之间绝对差的正比来自动调整该实例在分类损失中的贡献权重，使得大部分负样本（背景边界框）几乎不对分类损失产生影响，减轻了背景类和正类之间的不平衡。

Regression Targets and Loss

回归损失是根据回归目标边界框对应的6个自由度定义的。通常预测转换后的6个自由度而不是直接预测这6个自由度，这是为了增加模型预测的动态范围，也通过为梯度提供更高的熵来提升训练过程。

Regression Targets with Anchor Boxes

对于依赖anchor boxes的回归目标检测网络。如果网络输入遇到检测对象很小以至于很模糊（比如距离相机太远）、不同尺寸的对象（点云分割网络分割汽车，行人，自行车等），使用anchor boxes是一种基本的做法。在这样的情况下，anchor boxes允许神经网络根据一组预定义好的带不同尺寸和纵横比的anchor boxes来学习它们的回归偏移，这些anchor boxes被设计为模型的超参数，以更好地匹配不同纬度的类对象。设计anchor boxes的目标就是，在最终训练结束时，每个类型的anchor box专门对应一类对象，这类对象与anchor box的尺寸和纵横比都最匹配。

上图中，gt表示ground truth，a表示anchor box；dimension使用gt/a是为了使预测目标的格式是对应匹配的anchor box偏移校正的形式；position中边界框的坐标是一个关于anchor box中心坐标的偏移，并且根据anchor box的dimension进行了标准化；偏航角被编码为gt和anchor box之间差值的三角函数，目的是为了使预测的角度处于0到2π之间。

Regression Targets without Anchor Boxes

不带anchor box的回归目标检测模型如下：

虽然不使用anchor box，但模型仍然预测边界框中心坐标相对于某一点的偏移，该点由feature map索引的空间坐标决定。

3d激光雷达目标检测不需要使用anchor box，

Regression Loss

平滑L1损失已经成为回归目标检测的标准损失函数：

x表示预测值与回归目标之间的差值，因此每个边界框的6个自由度对应6个L1平滑L1损失函数。选择L1而非L2主要原因是在SGD对离群点的处理更平滑。除此之外，L1损失函数对于差值大于1的情况的导数是一个常量，不正比于误差的振幅，这也使得该损失函数对离群点有更好的鲁棒性。

Data Augmentation

Image Data Augmentation

最显著的数据增强例子是AlexNet。AlexNet之后，数据增强方法成为图像分类和检测模型的标准训练步骤。这种数据增强包括随机截取、缩放、旋转、水平翻转、光度变换。

Point Cloud Data Augmentation

点云数据增强必须兼容激光束的传播规则。

通常点云的数据增强（在激光雷达坐标系下）包括：绕z轴旋转，绕x-z平面/y-z平面翻转，稀释点云，增加点云的高斯噪声，视锥丢失（frustum dropout）和带点云对象的场景增强。这些增强方法不仅可以用在场景上，也可以用在对象上。在训练过程中，对于给定的点云场景，随机决策是否对场景使用场景水平或者对对象使用对象水平的数据增强方法。

3d Object Detection Neural Networks

3d目标检测网络被分为两类：输入排列不变和点云有序网格表示

点云排列不变性使得不能直接将CNN 目标检测网络用在点云目标检测上，因此CNN目标检测网络假定了网络输入是以方格形式的有序数据。网格有序数据结构的例子是图像，这意味着改变图像像素顺序会修改图像内容。而点云数据是一组无须的点的集合，而这意味着改变点的顺序并不会改变3d对象在点云中呈现的状态。点云的这一属性就使得，如果神经网络直接对输入的点云数据处理，那么它需要以排列不变的方式去处理。此外，预测出来的3d边界框也不应该因为输入的点云数据顺序不一致而受影响。

目前存在这样两类网络：能够直接接收点云数据而不依赖任何点云中间表示形式，具备处理输入排列不变性的3d目标检测神经网络和将点云转换成类似图像的有序网络表示，运用CNN进行目标检测的网络。

3d Object Detection Neural Networks with Input-wise Permutation Invariance

输入排列不变性的神经网络通过直接处理生的点云数据执行点云3d目标检测任务，不需要将点云数据转换成有序网格表示。

PointNet是一个输入排列不变神经网络，用于点云分类和分割任务（不用于3d目标检测任务）。PointNet网络的中心思想是这样一个通用逼近定理：任何连续输入排列不变函数f能够通过两个函数h和g组合逼近，其中g是一个确保f排列不变性的对称函数。

首先函数h分别对每个点云数据处理，将每个点转换成维度d的一个嵌入点，然后函数g接收该嵌入点，生成对应点云输入的一个维度d的全局特征嵌入。对称函数g的例子是逐元素的max-pooling和average-pooling。如果嵌入维度d是一个大到能够保证函数f能够通过组合函数f和g根据给定近似界限误差逼近，那么通用逼近理论（universal approximation theorem）是成立的。

在下面的PointNet网络架构中，

第一排蓝色部分确定了分类网络，而黄色部分是语义分割网络。在分类网络中，输入层到max-pooling层构成了函数h，而其中的max-pooling被看做对称函数g。嵌入维度d被规定为1024。在PointNet中，函数h对每个点云点处理，它通过全连接层和空间转换网络实现。PointNet网络中有两个空间转换网络：T-Net（上图中的两个白色网络）。空间转换网络对输入点执行数据依赖的仿射变换。数据依赖使得被应用于输入数据的仿射变换作为输入点本身函数固定。空间转换网络的主要目的是确保分类网络对应用于点云的仿射变换的不变性。

最终PointNet分类网络的输出对应输入的点云，是一个单分类结果（共输出k个类分数），语义分割网络依赖（带1024维度的）全局特征和（带64维度的）局部特征点云的级联来对每个点云做出单独的分类决策（共m个输出分数）。

PointNet不能执行3d目标检测任务，因为它的分类网络假定所有输入点云属于一个对象。而Frustum PointNets在PointNet的基础上增加了一个3d区域提案网络，目的是为了将3d输入场景划分

你可能感兴趣的:(3d,目标检测,自动驾驶,点云)

Unity各类资源链接汇总集合逑乐 Unity资源合集 unity 游戏引擎插件模型工具特效环境
这是Unity资源的汇总内容直接Ctrl+F查找需要的资源Unity3DRaycastPro1.0.5Raycast工具包链接：https://pan.baidu.com/s/1gUiHErUpiiZinwvrgRl7Uw?pwd=1234Unity3DBulletHellEngine0.5.5子弹射击弹幕创建工具链接：https://pan.baidu.com/s/1tDPySxP0SNmjfC
Kotlin Bytedeco OpenCV 图像图像49 仿射变换图像裁剪深色風信子 kotlin opencv 仿射变换图像裁剪 bytedeco javacpp
KotlinBytedecoOpenCV图像图像49仿射变换图像裁剪1添加依赖2测试代码3测试结果在OpenCV中，仿射变换（AffineTransformation）和透视变换（PerspectiveTransformation）是两种常用的图像几何变换方法。变换方法适用场景仿射变换简单的几何变换（平移、旋转、缩放、剪切）。透视变换改变图像视角和模拟3D投影效果。变换方法解释特点应用场景实现方法
3D高斯泼溅原理及实践【3DGS】新缸中之脑 3d
人工智能可能是我们这个时代的主要领域之一，它几乎可以用于从驾驶汽车到医疗保健甚至能够预防失明等所有领域，最近提出了一种新的3D重建方法。SNGULAR及其人工智能团队希望了解有关3D重建技术的最新更新的更多信息。目前可用于3D重建的许多SOTA方法需要大量CPU/GPU使用率来处理场景或渲染场景，其中一些甚至需要两者兼而有之。SIGGRAPH2023GaussianSplatting上提出的新方法
3D Gaussian Splatting 部署学术菜鸟小晨最新人工智能技术三维重建
简介：3DGaussianSplatting是一种用一组2d图像创建3d场景的方法，你只需要一个场景的视频或者一组照片就可以获得这个场景的高质量3d表示，使你可以从任何角度渲染它。它们是一类辐射场方法（如NeRF），但同时训练速度更快（同等质量）、渲染速度更快，并达到更好或相似的质量。3DGaussianSplatting可以实现无界且完整的场景1080p分辨率下进行高质量实时（≥100fps）视
OpenCV相机标定与3D重建(64)用于迭代地优化图像点的位置函数undistortImagePoints()的使用 jndingxin OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述计算无畸变图像点的位置。cv::undistortImagePoints这个函数用于迭代地优化图像点的位置，以补偿镜头畸变，并且允许指定终止条件来控制迭代过程。函数原型voidcv::undistortImagePoints(InputArraysrc,Outpu
OpenCV相机标定与3D重建(65)对图像点进行去畸变处理函数undistortPoints()的使用 jndingxin OpenCV opencv
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述从观测到的点坐标计算理想点坐标。该函数类似于undistort和initUndistortRectifyMap，但它操作的是稀疏点集而不是光栅图像。此外，该函数执行与projectPoints相反的变换。对于3D对象，它不会重建其3D坐标；但对于平面对象，如果指定
OpenCV相机标定与3D重建(66)对立体匹配生成的视差图（disparity map）进行验证的函数validateDisparity()的使用 jndingxin OpenCV opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述使用左右检查来验证视差。矩阵“cost”应该由立体对应算法计算。cv::validateDisparity函数是OpenCV库中用于对立体匹配生成的视差图（disparitymap）进行后处理的一个工具。其主要功能是对计算出的视差值进行验证，确保相邻像素间的视差值
OpenCV相机标定与3D重建(2)鱼眼相机模型 jndingxin OpenCV 数码相机 opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述鱼眼相机是一种具有非常宽视野的相机，通常会产生强烈的径向畸变。鱼眼相机模型旨在捕捉这种畸变，以便能够准确地处理和校正图像。鱼眼相机模型通常使用多项式函数来描述径向畸变。定义：设P是世界参考系中的一个3D点，其坐标为X(存储在矩阵X中）。点P在相机参考系中的坐标向量
3DGS.cpp：高性能跨平台高斯泼溅实现张涓曦Sea
3DGS.cpp：高性能跨平台高斯泼溅实现3DGS.cppAcross-platform,highperformancerendererforGaussianSplattingusingVulkanCompute.Supports✅Windows,Linux,macOS,iOS,andvisionOS项目地址:https://gitcode.com/gh_mirrors/3d/3DGS.cpp项目
重建大师倾斜高斯泼溅技术（OPGS）重建出来的模型是什么格式？大势智慧实景三维一问一答重建大师三维模型倾斜影像 OPGS 高斯泼溅
重建大师OPGS重建出来的模型是ply格式，三维高斯球体渲染的3D效果。重建大师是一款专为超大规模实景三维数据生产设计的集群并行处理软件，支持卫星影像、航空影像、倾斜影像和激光点云多源数据输入建模，可完成超大规模数据的空三解算、自动三维建模，输出高精度彩色网格模型。重建大师已更新7.0版本，如需请添加Das小助理获取，欢迎大家下载！
OpenCV相机标定与3D重建(63)校正图像的畸变函数undistort()的使用 jndingxin OpenCV opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述转换图像以补偿镜头畸变。该函数通过变换图像来补偿径向和切向镜头畸变。此函数仅仅是initUndistortRectifyMap（使用单位矩阵R）和remap（使用双线性插值）的组合。有关执行的具体变换详情，请参阅前者函数。对于在源图像中没有对应像素的目的图像中的像
2025年前端发展趋势贵州数擎科技有限公司前端 javascript
开发领域：前端开发|AI应用|Web3D|元宇宙技术栈：JavaScript、React、ThreeJs、WebGL、Go经验经验：6年+前端开发经验，专注于图形渲染和AI技术开源项目：github晓智元宇宙、数字孪生引擎、前端面试题大家好！我是[晓智]，一位热爱探索新技术的前端开发者，在这里分享前端和Web3D、AI技术的干货与实战经验。如果你对技术有热情，欢迎关注我的文章，我们一起成长、进步！
YOLOv11目标检测模型部署到微信小程序上小阿技术 YOLO 目标跟踪人工智能微信小程序目标检测计算机视觉 python
1.效果YOLOv11目标检测模型部署到微信小程序上2.后端主要代码importosimporttimeimportnumpyasnpimporttorchfromflaskimportFlask,request,send_fileimportcv2fromultralyticsimportYOLO#导入YOLOv11模型，需要提前安装ultralytics库#初始化Flask应用app=Flas
Css3 3D转换黄丫丫07 css3 3d css
特点：近大远小物体后面遮挡不可见三维坐标系：三维坐标系其实就是指立体空间，立体空间是由3个轴共同组成的。X轴：水平向右为正Y轴：垂直向下为正Z轴：垂直屏幕向外为正3D位移和3D旋转：主要知识点：3D位移：translate3d（x,y,z）3D旋转：rotate3d(x,y,z)透视：perspective3D呈现transform-style3D位移：translate3d（x,y,z）:Tra
基于C++和ONNX Runtime的YOLOv5目标检测实战浪浪山小白兔 c++YOLO 目标检测
1.前言在计算机视觉领域，目标检测是一项关键任务，其应用广泛，涵盖了安防监控、自动驾驶、工业检测等众多领域。YOLOv5作为一种先进的目标检测算法，以其速度快、精度高的特点备受关注。本文将详细介绍如何使用C++结合ONNXRuntime推理引擎来部署YOLOv5模型，实现高效的目标检测。2.ONNX与YOLOv52.1ONNX简介ONNX（OpenNeuralNetworkExchange）是一种
Multisim的2.8.x的实验报告 weibangwen123 笔记 fpga开发
视频链接:视频太长，分成两个。https://v.youku.com/v_show/id_XNTkxNjQ5NDA5Ng==.html?x&sharefrom=android&sharekey=d65d67ad2de5017146fc3cd3db4585644https://v.youku.com/v_show/id_XNTkxNjQ4NzY4MA==.html?x&sharefrom=andro
应用跳转歌曲播放页转场卡顿性能优化工具使用案例
场景导入目标规则使用性能检测工具检测性能问题使用性能分析工具进一步分析性能问题根因优化方案及优化收益场景导入某应用首页点击最下方播放圆盘跳转到歌曲播放页用肉眼观测有明显的抖动卡顿。如果不通过性能工具集进行分析，开发者需要：1、复现问题；2、抓取trace；3、分析trace找出丢帧问题点。操作步骤多，耗时较长。本场景通过采用静态检查工具进行问题发现、定位及修改。目标规则CodeLinter目标检测
【YashanDB知识库】重装新库及元数据和数据导出导入指导数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7253741.html?templateId=171...开始本文操作之前默认已经部署有3mn3cn3-3dn的yashan分布式数据库，并且已经配置好环境变量，开始操作之前请先停止所有业务。从旧库导出数据创建目录$cd~$mkdir-p/data/yashan/save\_data
无人驾驶公交车落地情况百态老人笔记
无人驾驶公交车的最新进展无人驾驶公交车作为智能交通系统的重要组成部分，近年来在中国多个城市逐步推进示范运营。最近的进展包括：绵阳市无人驾驶公交车示范运营：2024年6月28日，绵阳市启动了首批自动驾驶车辆示范运营测试，包括19辆无人驾驶公交车。这些公交车配备了安全员，并规划了4条试运营线路，覆盖科技城新区直管区全域。试运营期间，市民可以免费乘坐体验无人驾驶公交车。深圳无人驾驶公交车：深圳市在201
汽车和工业用激光雷达行业分析 LPiling 汽车自动驾驶人工智能
行业现状激光雷达（LiDAR）作为自动驾驶和智能驾驶领域的关键技术，近年来经历了显著的技术进步和成本下降。激光雷达通过脉冲激光照射目标并用传感器测量反射脉冲返回时间来测量目标距离，能够生成高分辨率的地图和三维模型。这种技术在汽车领域的应用已经从高端车型快速渗透到中低端市场，成为自动驾驶系统不可或缺的传感器之一。在工业领域，激光雷达支持机器人、工厂自动化和物流等多种应用。随着电子商务的蓬勃发展，消费
腾讯 Hunyuan3D-2：高分辨率3D 资产生成云樱梦海 Github开源项目 3d Hunyuan3D-2
腾讯Hunyuan3D-2：高分辨率3D资产生成的突破前言在当今数字化时代，3D资产生成技术正变得越来越重要。无论是游戏开发、影视制作还是虚拟现实领域，高质量的3D模型和纹理都是创造沉浸式体验的关键。然而，传统的3D资产制作往往需要大量的时间和专业技能。幸运的是，腾讯的Hunyuan3D-2项目为我们带来了新的希望，它通过大规模扩散模型实现了高分辨率3D资产的高效生成。项目简介Hunyuan3D-
第十九周：SSD（Single Shot MultiBox Detector） L-含光承影目标跟踪人工智能计算机视觉
SSD（SingleShotMultiBoxDetector）摘要Abstract1引言2SSD框架2.1设计理念2.2训练2.3预测3创新与不足总结参考摘要本篇博客介绍了SSD（SingleShotMultiBoxDetector），这是一种基于全卷积网络的单阶段目标检测模型。与双阶段检测模型（如FasterR-CNN）相比，SSD在保持较高检测精度的同时，显著提升了检测速度，使其更适用于实时检
实现星海波动粒子特效：基于 Canvas 和 JavaScript 的 3D 波动效果软件工程师文艺前端 javascript 3d 开发语言
1，前言近年来，Web动效和图形呈现技术的不断进步，使得许多动态效果可以通过浏览器轻松呈现。在这篇文章中，我将介绍如何实现一个美丽的“星海波动”3D粒子特效，利用Canvas和JavaScript绘制出一个带有波动效果的粒子阵列。此特效呈现的是一个平面波的运动，粒子沿着波动路径做着动态的上下运动，同时加入了3D旋转效果，营造出一种如同星海波动般的奇妙视觉效果。2，效果展示在特效中，粒子沿着一个波动
一文洞悉AI技术架构：大模型、智能体与应用场景大模型玩家人工智能架构数据库深度学习 pytorch transformer ai
人工智能（AI）的发展，正以前所未有的速度重塑我们的世界。从能与人对话的大语言模型到自动驾驶、精准医疗，AI的背后究竟隐藏着怎样的技术奥秘？本篇文章将为您深度剖析一套先进的AI技术架构，从基础设施到应用层，每一层都充满了惊喜和启发。读完本文，您不仅能看懂AI的底层逻辑，还能掌握其对各行业变革的潜力与方向。一、基础设施层：AI技术的坚实地基基础设施层是AI技术架构的“地基”，为整个系统提供计算能力和
车规芯片SOC简介车载诊断技术车载电子电气架构车载通信架构汽车网络人工智能电子电器架构架构
一、背景信息汽车电动化、智能化引领产业变革，关注“自动驾驶”及“智能座舱”，汽车行业正在经历电动化、智能化革命，电动化主要改变汽车的动力和传动系统，智能化则改变了人与车之间的关系。从PC时代的微软、智能手机时代的苹果，以及到破万亿市值的特斯拉，属于智能电动车的新时代已经拉开帷幕，当下时点为汽车行业新周期起点，电动及智能化革命将颠覆整个汽车产业链，也将孕育新的产业生机。目前汽车行业有如下三大趋势：1
Python入门--个数可变的位置参数和关键字参数愈努力俞幸运 Python入门 python
#函数的参数定义#个数可变的位置参数'''定义函数时，无法事先确定传递的位置实参的个数时，使用可变的位置形参使用过*定义位置可变的位置形参结果为一个元组'''#个数可变的关键字形参'''定义函数时，无法事先确定传递的关键字实参的个数时，使用可变的关键字形参使用过**定义个数可变的关键字形参结果为一个字典'''###################################3deffun(*a
【YOLOv8改进 - 检测头】 RT-DETR检测头，解决传统目标检测器中非极大值抑制（NMS）所带来的速度和准确性之间的平衡问题 YOLO大师 YOLO 人工智能论文阅读目标检测 yolov8
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要YOLO系列因其在速度和准确性之间的合理平衡，已成为实时目标检测中最受欢迎的框架。然而，我们观察到YOLO的速度和准确性受到非极大值抑制（NMS）的负面影响。最近，基于Transformer的端
3d高斯泼溅学习便携与感知组，研ing 3d
椭球集就是一堆3d高斯椭球集之位置与形状：协方差矩阵(包括旋转矩阵和缩放矩阵)，要大多数都能表达实体的位置，实体的位置和形状要落在大概率范围内椭球集之球谐函数：代表球面上不同位置的值基函数，拟合颜色和形状1.球谐函数在形状上的拟合，阶数越高就越能描述原来的真实形状(用多项式(基函数)和傅立叶变换拟合)3d高斯Splatting里面用的是4阶的，参数量有16个拟合的函数r＝f(θ，φ)2.球谐函数在
【机器学习】多模态AI——融合多种数据源的智能系统 2的n次方_ 人工智能
随着人工智能的快速发展，单一模态（如文本、图像或语音）已经不能满足复杂任务的需求。多模态AI（MultimodalAI）通过结合多种数据源（如文本、图像、音频等）来提升模型的智能和表现，适用于多样化的应用场景，如自动驾驶、医疗诊断、跨语言翻译等。一、多模态AI简介多模态AI是一种将不同形式的数据（如文本、图像、音频等）融合在一起的技术，旨在让模型从多个维度感知和理解信息。这种融合使得AI系统能够从
DETRs with Collaborative Hybrid Assignments Training论文阅读与代码分享总结快乐论文阅读
关键词：协作混合分配训练【目标检测】Co-DETR：ATSS+FasterRCNN+DETR协作的先进检测器（ICCV2023）-CSDN博客摘要：在这篇论文中，作者观察到在DETR中将过少的Query分配为正样本，采用一对一的集合匹配，会导致对编码器输出的监督稀疏，严重损害编码器的区分特征学习，反之亦然，也会影响解码器中的注意力学习。为了缓解这个问题，作者提出了一种新颖的协同混合分配训练方案，名
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他