振华OPPO

【视觉SLAM】An Improved ORB-SLAM2 in Dynamic Scene with Instance Segmentation

Cite: H. Qian and P. Ding.An Improved ORB-SLAM2 in Dynamic Scene with Instance Segmentation[C].2019 Workshop on Research, Education and Development of Unmanned Aerial Systems (RED UAS).Cranfield, UK. 2019:185-191.

Keyword: 特征提取，图像运动分析，图像分割，移动机器人，姿势估计，机器人视觉，SLAM （机器人）

论文目录

摘要
一、介绍
二、动态环境下基于实例分割的ORB-SLAM2
- A.Traditional ORB-SLAM2
- B. Mask-RCNN
- C Mask R-CNN Optimizing ORB-SLAM2
三、实验结果
- A. Experiment 1
- B. Experiment 2
四、结论

摘要

为了提高动态环境下ORB-SLAM2位姿估计的精度，针对运动的欺骗性，提出一种实例分割方法去除分布在人体上的运动特征点，提高姿态精度。该方法从输入图像中提取ORB特征点，并对图像进行分割，得到图像中像素的位置。然后去除分布在人体上方的特征点，利用移除后相对稳定的特征点估计位置和姿态。改进的方法用于在TUM数据集上进行测试。结果表明，改进的系统能够显著降低动态环境下姿态估计的绝对误差和相对漂移，证明与传统的ORB-SLAM2系统相比，该方法能显著提高动态环境下姿态估计的精度。

作者在Abstract中高度概况了本文的主旨，讲述了改进的方法点，数据集上的实验结果，方法的有效性。少有的简洁。

一、介绍

位置是移动机器人导航的重要组成部分。在未知环境中，机器人通过传感器获取外部环境信息，获取自己的位置，并将当前的观测结果与地图进行比较。地图应通过观察构建，并且应知道每个观察的位置[1]。通常的方法是交替进行定位和建图，实现姿态估计并逐步构建环境模型，然后建立自己的全局定位过程，称为同步定位和建图（SLAM）[ 2]。

视觉SLAM基于相机采集的序列图像数据。根据图像信息以及环境与摄像机之间的关系，随着摄像机的移动，它逐步确定周围的环境图，并输出摄像机在环境中的位置[3]。根据视觉SLAM的一般处理流程，可分为前端处理、后端处理和闭环检测[4] ，如图1 所示。前端处理负责序列图像数据与环境地标[5] 之间的数据关联和参数初始化。目前主要的方式是通过序列图像的特征提取和匹配，对序列图像上同名的特征点进行跟踪，然后将序列图像上同名的观测结果与环境地标相关联，初始化系统的状态参数[6]。它是构建增量和自主连续定位的必要前提。前端处理算法的适应性直接决定了视觉猛击方法的鲁棒性。后端处理负责对环境图结果和观测数据的定位参数进行优化估计，从而获得高精度的定位和测绘结果[7]。闭环检测是在SLAM系统中判断环境地标是否已被观察到的过程[8]。它是构建闭环约束以消除长距离运动后误差累积的基础。以上三部分，完成了视觉SLAM中的数据关联、环境图和位置参数估计以及闭环优化。

图1 一般视觉SLAM的流程图

视觉里程计（VO）作为SLAM系统中最关键的部分，需要根据相邻帧之间相关像素的位置来估计两帧的相对位移，从而估计相机在相邻图像之间的运动和局部地图的外观，从而还原场景的空间结构[9] .但是，视觉里程计的计算是基于一个严格的条件：用于计算关联像素的三个空间点的位置不变，并且这些点参与位姿计算，那么这些点将继续给系统带来误差，最终导致定位失败[10]。

图像分割是将前景与背景分离并在前景中对对象进行分类的过程[11]。图像实例分割作为深度学习的一个重要分支，近年来在自动驾驶、场景识别和医学图像分析中得到了广泛的应用[12]。室内场景中的实例分割旨在将图像分割为常见的类别，例如人、猫、狗、杯子、椅子、桌子、计算机等，如图 2 所示。

图2 图像实例分割

实例分割和 SLAM 似乎是两个独立的模块，但在许多应用程序中，它们相互补充。一方面，实例分割的信息可以帮助SLAM提高建图和定位的准确性，特别是对于复杂的动态场景。传统的SLAM地图和定位大多基于像素级别的几何匹配。借助实例分割信息，我们可以将数据关联从传统的像素级升级到对象级，提高复杂场景的准确率[13 ， 14]。另一方面，利用SLAM技术计算物体之间的位置约束，可以一致约束同一物体在不同角度时间的识别结果，从而提高场景理解的准确性[15]。该文提出一种通过实例分割优化SLAM系统的方法。首先，通过实例分割获得图像中人和动物像素的位置;然后，将分布在人和动物身体上的像素从将涉及姿势估计的像素中移除，然后使用残差像素计算下一个姿势。基于开源系统ORB-SLAM2，Mask R-CNN嵌入到系统的视觉里程表中，并在TUM数据集中进行测试。

首先介绍了VSLAM的框架，包含传感器输入——>视觉里程计（前端）——>优化（后端），闭环——>建图。然后介绍了实例分割这一深度学习算法，将实例分割与SLAM结合，可以将数据关联从像素级提升到对象级。

二、动态环境下基于实例分割的ORB-SLAM2

A.Traditional ORB-SLAM2

说到视觉SLAM，许多研究人员首先想到的是A.J.戴维森的MonoSLAM工作。戴维森教授是视觉SLAM研究领域的先驱。他在2007年提出的单目SLAM是第一个实时单目视觉SLAM系统[16]。近年来，很多新颖优秀的SLAM开源解决方案也出现在人们的视野中。如表1 所示。

表一常见的开源SLAM解决方案

ORB-SLAM2 是一个实时 SLAM 系统，可以在基于 ORB 特征点的 CPU 上运行。它包含三个主线程：跟踪线程 [17] ，如图 3 所示。跟踪线程提取和匹配 ORB 特征点，然后通过最小化重新投影误差来估计两帧之间的相对姿势。局部建图线程针对 BA（束调整、设置数字调整）优化局部地图中所有帧和路标点的位姿。闭环检测线程通过关键帧检测整个地图是否有闭环，并通过优化位姿图[18] 来纠正累积误差。

图3 ORB-SLAM2系统的螺纹和结构

在SLAM中，姿势是机器人在整个环境地图中的空间位置和姿势。空间位置是机器人的XYZ坐标。视觉姿态是指机器人的前进方向（一般是相机的方向）相对于xyz的三个方向的偏差角。在ORB-SLAM2中，机器人的位置和姿势由平移和旋转四元数组成的七个元素表示[19] ，如下所示：

前三个元素是平移向量，后四个元素是表示旋转的四元数。

跟踪线程的任务是根据图像的变化计算两个相邻帧的位置和姿势。也就是说，后一帧与前一帧相比有多少平移和旋转[20]。然后将计算结果给出后端，后端累积并优化两帧之间的相对姿态，最终得到机器人当前姿态并实现定位。

求解两帧之间相对姿态的原理如图4 所示，两帧图像P1和P2被相机获取。特征提取后，特征点P1在 I 中获得 1 和特征点P2在 I 中获得 2。假设P1和 P2根据特征匹配结果为距离较近的点对，则P1和 P2是同一三维点在两帧图像上的投影。

图4 对极几何约束

K 是相机的内部参数矩阵。当相机处于不同位置时，投影P 1和 P 2是点P通过内部参数矩阵变换得到的不同像素坐标。 T 是 I 的姿势 2相对于 I 1。假设两帧之间可以匹配多组点对，则可以通过从这些点对构造方程来求解相对姿势。它可以通过求解基本矩阵和相应的矩阵来解决[21]。

但是，在空间点P相对于整个环境静止的条件下，T的计算必须有效。如果点在姿态估计过程中移动，公式（2）将不再成立，并且会出现错误。最坏的情况是，姿势估计中的所有像素都将执行与相机相同的运动，并且 SLAM 估计的姿势将始终为 0。

B. Mask-RCNN

Mask R-CNN是He等人在Faster Mask R-CNN的基础上开发的深度神经网络模型。它在物体识别和单个图像分割方面的优异性能使其成为目前最好的技术之一[22]。

整个掩码R-CNN算法非常灵活。它将FCN添加到原始的Fast R-CNN算法中，以生成相应的MASK分支。但最终还是能达到5fps的速度，和原来的Fast R-CNN的速度差不多。提出了相应的ROI对齐策略和FCN精确像素掩码，使得获得高精度成为可能。Mask R-CNN算法可用于完成许多任务，包括目标分类，目标检测，语义分割，实例分割，人类手势识别等许多任务。它具有良好的可扩展性和易用性。

C Mask R-CNN Optimizing ORB-SLAM2

为了提高ORB-SLAM2系统在动态场景中的姿态估计精度，并考虑到室内环境中大多数移动像素来自人和动物，提出了一种利用Mask R-CNN去除分布在人体上的动态像素的方法，并将去除的像素用于估计ORB-SLAM2系统的位置和姿态[23]。 Mask R-CNN 实例分割嵌入在 ORB-SLAM2 的跟踪线程中 [24] 。改进的跟踪线程如图 6 所示。

图6 使用掩码 R-CNN 跟踪线程

本文在ORB-SLAM2系统的跟踪线程中增加了实例分割功能。同时，对原始图像进行分割，得到人和动物像素的坐标。然后，将分布在人或动物身上的一些特征点从原始特征点中移除，然后利用这些特征点进行特征匹配和姿态估计，摆脱了可能移动的像素干扰。ORB-SLAM2在动态场景中表现出更好的抗干扰性能，精度大大提高。

先介绍原始的ORB-SLAM2框架，然后介绍Mask RCNN，最后利用Mask RCNN在关键帧提取ORB特征点的同时进行Instance Segmentation，对照着分割结果，将特征点落在动态对象上的进行剔除。

三、实验结果

本文进行了两个实验：实验1是从单帧图像中去除动态特征点，然后比较传统ORB-SLAM2和改进ORB-SLAM2的特征匹配结果。实验2运行TUM通用数据集的改进系统，并将其与原始系统进行比较。

本文使用的数据集来自 TUM 的rgbd_dataset_freiburg3_walking_xyz数据集。该数据集旨在评估SLAM系统或测程计算方法在具有快速移动动态对象的场景中的鲁棒性。数据集的真实轨迹由八个高速（100Hz）摄像机组成的运动捕捉系统获得。

Evo是Python SLAM系统的评估工具，用于对里程表和SLAM算法的轨迹输出进行处理、评估和比较。
它可以计算绝对姿势误差（APE）和相对姿势误差（RPE）。

绝对姿态误差直接计算相机姿态的真实值与SLAM系统的估计值之差。程序首先根据姿势的时间戳将真实值与估计值对齐，然后计算每对姿势之间的差异值，最后以图表的形式输出。该标准非常适合两次相同的评估和计算。同样，时间戳对齐后，实际姿势和位置估计值计算同一时间间隔的位置和姿态变化，然后做出差值以获得相对姿态误差。该标准适用于估计系统的漂移。

A. Experiment 1

在实验1中，在数据集中随机选择单帧图像。Mask R-CNN和ORB用于去除不匹配和除人体的外部点。如图 7 所示。利用Mask R-CNN算法获取识别后的目标轮廓信息和标签信息，去除图像人类轮廓中的特征点。

图7 通过实例分割消除异常值

图8是传统ORB-SLAM2系统和改进的ORB-SLAM2系统中的特征匹配结果。在改进的系统中，消除了分布在人体上的特征点，在匹配过程中忽略了这些特征点，从而达到了消除它们的目的。

图8 传统ORB-SLAM2系统和改进ORB-SLAM2系统的特征提取和匹配结果

B. Experiment 2

本实验分别在上述数据集上运行传统的ORB-SLAM2和改进的ORB-SLAM2。在精度方面，使用数据集给出的真实位姿情况.txt用于比较ground_truth、ORB-SLAM2和改进的ORB-SLAM2，跟踪比较的结果如图9 所示。图10和表2是绝对姿势误差（APE）的输出结果，图11和表3是相对姿势误差（RPE）的输出结果。

图9 ground_truth、传统 ORB-SLAM2 和 improved_ORB-SLAM2 的轨道对比图

图10 绝对姿势误差

图11 相对姿势误差

与绝对位姿误差（APE）相比，改进后的系统在误差的代表性值上优于传统系统，说明与传统系统相比，改进的系统性能有了很大的提高。同样，与相对位姿误差（RPE）相比，改进的系统在数据方面优于传统系统，即改进的系统在克服漂移方面有了很大的改进。

综上所述，改进的ORB-SLAM2在动态环境中的性能明显高于传统的ORB-SLAM2。

在TUM的rgbd_dataset_freiburg3_walking_xyz数据集进行两组实验。第一组实验是提取和匹配特征点，改进后的，我们叫做Mask ORB-SLAM2能够去除动态物体像素上的特征点，从而去除动态物体的匹配。第二组实验，比较的是最常用的APE和RPE，绝对和相对位姿误差。实验结果画图做表，图中注意y轴的尺度，可以看到小了一个量级。当然表有时候比图还直观，比较数值大小就行。

四、结论

基于传统的ORB-SLAM2，针对动态场景中姿态估计不准确的问题。本文采用实例分割法去除动态特征点，并对常用数据集进行实验验证。结果表明，改进的系统在动态环境下能够显著降低位置姿态估计误差和相对漂移，从而提高整个系统的精度。

本文基于ORB-SLAM2改进了特征提取和匹配的方法，去除了环境中的动态物体。具体而言，在传感器图像传入后，分别提取特征点和实例分割，再根据实例分割结果，将动态物体像素上的特征点去除，只匹配剩下的静态物体特征点。然后进行局部建图，BA优化，检测闭环。在TUM数据集上进行了两组实验，实验结果表明能够有效处理动态物体，在动态环境下显著降低位姿估计误差和累积漂移。方法思路简单，效果好。

《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
机器视觉：ransac算法详解无水先生数字图形和图像处理算法计算机视觉
目录一、说明：二、算法步骤三、算法代码四、其它补充一、说明：RANSAC是一种常用的参数估计方法，全称为RandomSampleConsensus（随机抽样一致性）。它通过随机选择数据中的一部分，然后根据这些数据拟合模型，统计模型与其他数据的偏差，最终筛选出符合一定阈值的数据，用于估计参数。RANSAC可以应用于很多领域，如计算机视觉、机器人和地理信息系统等。其优点在于对噪声数据和异常值有很强的鲁
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
Orangepi Zero2 全志H616开发学习会学嵌入式 ARM Linux全志平台开发学习 linux 开发语言服务器
一.简介1.1为什么学学习目标依然是Linux系统，平台是ARM架构·蜂巢快递柜，配送机器人，这些应用场景用C51,STM32单片机无法实现·第三方介入库的局限性，比如刷脸支付和公交车收费设备需要集成支付宝SDK，提供的libalipay.so是Linux的库，设备必须跑Linux系统·图像识别，音频，视频等领域的技术支撑也无法脱离Linux系统·人工智能型设备通常需要更好的系统和更高的算力，所以
2025 年最强 RPA 软件盘点天竺鼠不该去劝架人工智能
RPA（机器人流程自动化）软件成为了企业提升效率、降低成本的重要工具。以下是2025年一些顶尖的RPA软件盘点。国外RPA软件UiPath地位：全球RPA市场的领军者。功能特性：全能型平台，覆盖流程发现、自动化设计到机器人管理全生命周期。拥有易用的低代码设计器，便于快速上手；强大的AI集成，可实现机器学习和文档理解；能与ERP、CRM等系统无缝集成。适用场景：适用于金融、零售、制造业等需要处理复杂
前端计算机视觉：使用 OpenCV.js 在浏览器中实现图像处理亿只小灿灿前端 OpenCV 前端计算机视觉 opencv
一、OpenCV.js简介与环境搭建OpenCV（OpenSourceComputerVisionLibrary）是一个强大的计算机视觉库，广泛应用于图像和视频处理领域。传统上，OpenCV主要在后端使用Python或C++等语言。但随着WebAssembly(Wasm)技术的发展，OpenCV也有了JavaScript版本——OpenCV.js，它可以直接在浏览器中高效运行，为前端开发者提供了前
基于MATLAB代码DWA算法的移动车路径规划 985计算机硕士路径规划 matlab 算法 android
基于MATLAB代码DWA算法的移动车路径规划，可实现动态避障和静态避障文章目录DWA（DynamicWindowApproach）是一种常用于移动机器人路径规划的局部路径规划算法。它通过在速度空间中采样，结合机器人的运动学约束和环境信息，选择最优的速度组合来实现避障和目标点导航。以下是一个基于DWA算法的MATLAB代码示例，用于实现移动车的路径规划：%DWA(DynamicWindowAppr
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
第九章：LeRobot自定义硬件集成指南贾全实战具身智能机器人算法机器人学习人工智能机器学习
引言在前面的章节中，我们学习了如何使用LeRobot进行模仿学习、仿真实验以及摄像头配置。然而，真正的机器人研究往往需要使用自定义的硬件平台。每个研究团队或开发者可能都有自己独特的机器人设计，如何将这些自定义硬件无缝集成到LeRobot生态系统中，是实现高效机器人学习的关键。本章将详细介绍LeRobot的硬件集成框架，帮助读者掌握如何将自己的机器人硬件接入LeRobot系统。通过学习本章内容，你将
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
第八章：LeRobot摄像头配置与应用指南贾全实战具身智能机器人深度学习人工智能算法机器学习机器人
引言在机器人学习系统中，视觉感知是至关重要的组成部分。摄像头作为机器人的"眼睛"，为系统提供环境信息，使机器人能够理解周围世界并做出相应的决策。LeRobot作为一个完整的机器人学习框架，提供了灵活且强大的摄像头支持系统，能够适配多种类型的摄像头设备。本章将详细介绍LeRobot的摄像头配置和使用方法，帮助读者掌握如何在机器人学习项目中有效地集成和使用视觉系统。8.1LeRobot摄像头系统架构L
LeRobot环境搭建与安装（简洁版）贾全 LeRobot系列教程机器人人工智能机器学习 ai
一、引言在上一篇文章（LeRobot入门：开启AI机器人开发之旅）中，我们全面了解了LeRobot的基本概念、核心优势和应用场景。现在，是时候动手实践了！本文将详细指导你完成LeRobot开发环境的搭建，确保你能够顺利开始LeRobot的学习和开发之旅。为了保证易读性，对文章进行了大幅精简，如果需要更加详细的介绍，可以查看详解篇：《LeRobot开发环境搭建详解》，二、准备工作创建专用虚拟环境虚拟
搬运机器人系列编程：Fanuc M-20iA_5.坐标系设置与管理 zhubeibei168 机器人（二）机器人
5.坐标系设置与管理在汽车制造行业中，FanucM-20iA搬运机器人的高效作业离不开精确的坐标系设置与管理。坐标系是机器人编程中的基础，它决定了机器人在空间中的位置和姿态。本节将详细讲解如何设置和管理机器人的坐标系，包括世界坐标系、基座坐标系、工具坐标系和用户坐标系。5.1世界坐标系（WorldCoordinateSystem）世界坐标系是机器人系统中一个固定的参考坐标系，通常位于机器人底座上。
搬运机器人系列编程：Fanuc M-20iA_19.搬运机器人的安全防护措施 zhubeibei168 机器人（二）机器人安全网络
19.搬运机器人的安全防护措施在汽车制造行业中，搬运机器人（如FanucM-20iA）的安全防护措施至关重要。这些措施不仅能够保护操作人员的生命安全，还能够确保生产过程的顺利进行，避免因意外事故导致的生产中断和经济损失。本节将详细介绍FanucM-0iA搬运机器人在编程和操作过程中应采取的安全防护措施，包括软件和硬件层面的防护措施。19.1软件安全防护措施软件安全防护措施主要通过编程语言和控制逻辑
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
使用 C++ 和 OpenCV 构建驾驶员疲劳检测软件 whoarethenext c++opencv 开发语言
使用C++和OpenCV构建驾驶员疲劳检测软件重要声明：本文所描述的软件是一个概念验证的原型，绝对不能用作现实世界中的安全系统。真正的车载安全系统需要经过大量的测试、具备冗余设计并通过专业认证，以确保其绝对可靠。驾驶疲劳是全球范围内引发交通事故的主要原因之一。当驾驶员感到困倦时，他们的反应时间会变慢，决策能力会下降，而在方向盘后睡着的风险则会急剧增加。为了解决这一关键问题，计算机视觉技术提供了一个
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
SafeMimic：迈向安全自主的人-到-机器人模仿移动操作三谷秋水智能体机器学习人工智能安全机器人人工智能机器学习
25年6月来自德州Austin分校的论文“SafeMimic:TowardsSafeandAutonomousHuman-to-RobotImitationforMobileManipulation”。机器人要想成为高效的家居助手，必须学会仅通过观察人类操作即可完成新的移动操作任务。仅凭人类的单个视频演示进行学习极具挑战性，因为机器人需要首先从演示中提取需要完成的任务及其方法，将策略从第三人称视角
GC3910S：一款高性能双通道直流电机驱动芯片青牛科技-Allen GLOBALCHIP 单片机 stm32 嵌入式硬件机器人水泵医疗器械
在电子设备的广泛应用中，电机驱动芯片是实现运动控制的关键部件。浙江芯麦科技有限公司推出的GC3910S芯片，以其出色的性能和广泛的适用性，成为众多应用的理想选择。芯片概述GC3910S是一款双通道12V直流电机驱动芯片，适用于摄像机、玩具、机器人技术等多种低电压或电池供电的运动控制应用。该芯片能够驱动两个直流电机或一个步进电机，工作电压范围为4~15V，每通道可提供高达1.0A的持续输出电流和2.
学习以任务为中心的潜动作，随地采取行动三谷秋水计算机视觉智能体大模型计算机视觉语言模型机器人人工智能深度学习
25年5月来自香港大学、OpenDriveLab和智元机器人的论文“LearningtoActAnywherewithTask-centricLatentActions”。通用机器人应该在各种环境中高效运行。然而，大多数现有方法严重依赖于扩展动作标注数据来增强其能力。因此，它们通常局限于单一的物理规范，难以学习跨不同具身和环境的可迁移知识。为了突破这些限制，UniVLA，是一个用于学习跨具身视觉-
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
利用视觉-语言模型搭建机器人灵巧操作的支架三谷秋水智能体大模型计算机视觉语言模型机器人人工智能计算机视觉机器学习
25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“ScaffoldingDexterousManipulationwithVision-LanguageModels”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
研究生养成计划5月1日
学习：《机器人操作系统》作者：刘相权，张万杰第一章，第二章笔记ROS虽然被称为操作系统，但是真正底层的任务调度，编译，寻址等任务还是由Linux操作系统完成——ROS是一个运行在Linux上的次级操作系统。双系统建议空间在100G以上，分区如下：如果有条件/:这个分区可以设置的大一些截图：shift+prtsc+Fn截取某个区域的图片内容/微信截图Alt+a命令行使用（1）调出终端程序，命令行上下
【EI会议征稿】2025年第四届计算机视觉与模式分析国际学术大会（ICCPA 2025）
重要信息2025年5月16-18日|中国·鞍山大会官网：www.iccpa.org会议主页：2025年第五届计算机视觉与模式分析国际学术大会（ICCPA2025）_艾思科蓝_学术一站式服务平台接收/拒稿通知：投稿后1周内收录检索：EICompendex，Scopus主办单位辽宁科技大学往届历史ICCPA前四届均已成功举办，并完成EI、Scopus检索（高录用，稳定检索）
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持