奥比中光3D视觉开发者社区

【2022最新】视觉SLAM综述（多传感器/姿态估计/动态环境/视觉里程计）

作者|汽车人编辑|3D视觉开发者社区

摘要

近年来，基于视觉的传感器在SLAM系统中显示出显著的性能、精度和效率提升。在这方面，视觉SLAM（VSLAM）方法是指使用相机进行姿态估计和地图生成的SLAM方法。许多研究工作表明，VSLAM优于传统方法，传统方法仅依赖于特定传感器，例如激光雷达，即使成本较低。VSLAM利用不同的摄像机类型（例如单目、双目和RGB-D），在不同的数据集（例如KITTI、TUM RGB-D和EuRoC）和不同的环境（例如，室内和室外）中进行测试，并采用了多种算法和方法论，以更好地解析环境。上述变化使这一主题受到研究人员的广泛关注，并产出了许多经典VSLAM算法。在这方面，论文调查的主要目的是介绍VSLAM系统的最新进展，并讨论现有的挑战和未来趋势。论文对在VSLAM领域发表的45篇有影响力的论文进行了深入的调查，并根据不同的特点对这些方法进行了分类，包括novelty domain、目标、采用的算法和语义水平。最后论文讨论了当前的趋势和未来的方向，有助于研究人员进行研究。

总结来说，图1显示了标准VSLAM方法的整体架构。系统的输入可以与其他传感器数据集成以提供更多信息，例如惯性测量单元（IMU）和激光雷达，而不是只有视觉数据。此外，对于VSLAM 范式中使用的直接或间接方法，视觉特征处理模块的功能可能会被更改或忽略。例如，“特征处理”阶段仅用于间接方法。另一个因素是利用一些特定模块，如回环检测和光束法平差，以改进执行。

视觉SLAM算法的发展

VSLAM系统在过去的几年中已经成熟，一些框架在这个开发过程中发挥了重要作用。图2展示了视觉SLAM发展过程中的里程碑算法。

首篇实时单目VSLAM于2007年由Davison提出，名为Mono SLAM的框架[17]。他们的间接框架可以使用扩展卡尔曼滤波（EKF）算法估计现实世界中的相机运动和3D元素[18]。尽管缺乏全局优化和回环检测模块，Mono SLAM开始在VSLAM域中发挥主要作用。然而用这种方法重建的地图只包括地标，没有提供关于该区域的进一步详细信息。Klein等人[14]在同一年提出了Parallel Tracking and Mapping（PTAM），他们将整个VSLAM系统分为两个主要线程：tracking和mapping。PTAM为后续很多工作奠定了基石。PTAM方法的主要思想是降低计算成本，并使用并行处理来实现实时性能。当tracking实时估计摄像机运动时，mapping预测特征点的3D位置。PTAM也是第一个利用光束法平差（BA）联合优化相机姿态和3D地图创建的方法。其使用Features from Accelerated Segment Test（FAST）[19]的角点检测器算法进行关键点匹配和跟踪。尽管该算法的性能优于Mono SLAM，但其设计复杂，在第一阶段需要用户输入。Newcombe等人于2011年提出了一种用于测量深度值和运动参数来构建地图的直接方法，即密集跟踪和映射（DTAM）。DTAM是一种密集建图和密集跟踪模块的实时框架，可通过将整个帧与给定深度图对齐来确定相机姿态。为了构建环境地图，上述阶段分别估计场景的深度和运动参数。虽然DTAM可以提供地图的详细信息，但实时执行需要较高的计算成本。作为3D 建图和基于像素的优化领域中的另一种间接方法，Endres等人在2013年提出了一种可用于RGB-D相机的方法。他们的方法是实时的，专注于低成本嵌入式系统和小型机器人，但在无特征或具有挑战性的场景中无法产生准确的结果。同年，Salas Moreno等人[22]提出了SLAM++，是实时SLAM框架中利用语义信息的开山之作。SLAM++采用RGB-D传感器输出，并进行3D相机姿态估计和跟踪以形成姿态图。然后通过合并从场景中的语义目标获得的相对3D姿态来优化预测姿态。

随着VSLAM基线的成熟，研究人员专注于提高这些系统的性能和精度。Forster等人在2014年提出了一种混合VO方法，称为Semi-direct Visual Odometry（SVO）[24]。SVO可以结合基于特征的方法和直接方法来实现传感器的运动估计和建图任务。SVO可以与单目和双目相机一起工作，并配备了一个姿态细化模块，以最小化重投影误差。然而，SVO的主要缺点是采用短期数据关联，并且无法进行回环检测和全局优化。LSD-SLAM[25]是Engel等人于2014年提出的另一种有影响力的VSLAM方法，包含跟踪、深度估计和地图优化。该方法可以使用其姿态图估计模块重建大规模地图，并具有全局优化和回环检测功能。LSD-SLAM的弱点在于其初始化阶段，需要平面中的所有点，这使其成为一种计算密集型方法。Mur Artal等人介绍了两种精确的间接VSLAM方法，迄今为止广受关注：ORB-SLAM[26]和ORBSLAM 2.0[27]。这些方法可以在纹理良好的序列中完成定位和建图，并使用Oriented FAST and Rotated BRIEF（ORB）特征实现高性能的位置识别。ORB-SLAM的第一个版本能够使用从相机位置收集的关键帧来计算相机位置和环境结构。第二个版本是对ORB-SLAM的扩展，有三个并行线程，包括查找特征对应的跟踪、地图管理操作的局部建图，以及用于检测新环路和纠正漂移错误的回环。尽管ORB-SLAM 2.0可以与单目和立体相机一起使用，但由于重建具有未知比例的地图，因此不能用于自主导航。这种方法的另一个缺点是其无法在没有纹理的区域或具有重复模式的环境中工作。该框架的最新版本名为ORB-SLAM 3.0，于2021提出[28]。它适用于各种相机类型，如单目、RGB-D和双目视觉，并提供改进的姿态估计输出。

近年来，随着深度学习的快速发展，基于CNN的方法可以通过提供更高的识别和匹配率来解决许多问题。类似地，用学习特征替换人工设计的特征是许多最近基于深度学习的方法提出的解决方案之一。在这方面，Tateno等人提出了一种基于CNN的方法，该方法处理相机姿态估计的输入帧，并使用关键帧进行深度预测，命名为CNN-SLAM[29]。CNN-SLAM实现并行处理和实时性能的核心思想之一是，将相机帧分割成较小的部分以更好地理解环境。Engel等人还引入了Direct Sparse Odometry（DSO）[30]，其将直接方法和稀疏重建相结合，以提取图像块中的最高强度点。

综上所述，VSLAM系统演进过程中的里程碑表明，最近的方法侧重于多个专用模块的并行执行。这些模块形成了与广泛的传感器和环境兼容的通用技术和框架。上述特性使它们能够实时执行，并且在性能改进方面更加灵活。

VSLAM 设置标准

考虑到各种VSLAM方法，论文将可用的不同设置和配置分为以下类别：传感器和数据采集、目标环境、视觉特征处理、系统评估和语义类别，下面逐一介绍。

传感器和数据采集

Davison等人[17]引入的VSLAM算法的早期阶段配备了用于轨迹恢复的单目摄像机。单目相机是最常见的视觉传感器，用于各种任务，如物体检测和跟踪[39]。另一方面，立体相机包含两个或更多图像传感器，使其能够感知图像中的深度，从而在VSLAM应用中实现更准确的性能。相机设置具有成本效益，并为更高的精度要求提供信息感知。RGB-D相机也是VSLAM中使用的视觉传感器，其可以提供场景中的深度和颜色。上述视觉传感器可以提供丰富的环境信息，例如，适当的照明和运动速度，但它们通常难以应对照明度低或场景动态范围高的情况。

近年来，事件摄像机也被用于各种VSLAM应用中。当检测到运动时，这些低延迟仿生视觉传感器产生像素级亮度变化，而不是标准强度帧，从而实现高动态范围输出，而不会产生运动模糊影响[40]。与标准相机相比，事件传感器在高速运动和大范围动态场景中可以提供可靠的视觉信息，但在运动速度较低时无法提供足够的信息。另一方面，事件相机主要输出关于环境的不同步信息。这使得传统的视觉算法无法处理这些传感器的输出[41]。此外，使用事件的时空窗口以及从其他传感器获得的数据可以提供丰富的姿态估计和跟踪信息。

此外，一些方法使用多目相机设置来解决在真实环境中工作的常见问题，并提高定位精度。利用多目传感器有助于解决复杂问题，例如遮挡、伪装、传感器故障或可跟踪纹理稀疏等，为摄像机提供重叠视角。尽管多目相机可以解决一些数据采集问题，但纯视觉的VSLAM可能会面临各种挑战，例如遇到快速移动目标时的运动模糊、低照度或高照度下的特征不匹配、高速变化场景下的动态目标忽略等。因此，一些VSLAM应用程序可能会在摄像机旁边配备多个传感器。融合事件和标准帧[42]或将其他传感器（如激光雷达[43]和IMU）集成到VSLAM是一些现有的解决方案。

目标环境

作为许多传统VSLAM实践中的一个有力假设，机器人在静态世界中工作，没有突然或意外的变化。因此，尽管许多系统可以在特定环境中成功应用，但环境中的一些意外变化（例如，移动目标的存在）可能会导致系统复杂化，并在很大程度上降低状态估计质量。在动态环境中工作的系统通常使用诸如光流或随机采样一致性（RANSAC）[44]之类的算法来检测场景中的移动，将移动目标分类为异常值，并在重建地图时跳过它们。这样的系统利用几何/语义信息或试图通过组合这两个结果来改进定位方案[45]。

此外作为一般分类法，论文将环境分为室内和室外两类。室外环境可以是具有结构地标和大规模运动变化（如建筑物和道路纹理）的城市区域，或具有弱运动状态（如移动的云和植被、沙子纹理等）的越野区域，这增加了定位和回环检测失败的风险。另一方面，室内环境包含具有完全不同的全局空间属性的场景，例如走廊、墙和房间。论文认为，虽然VSLAM系统可能在上述区域中的一个工作良好，但在其他环境中可能表现不出相同的性能。

视觉特征处理

如前文所述，检测视觉特征并利用特征描述子信息进行姿态估计是间接VSLAM方法的一个必要阶段。这些方法使用各种特征提取算法来更好地理解环境并跟踪连续帧中的特征点。特征提取算法有很多，包括SIFT[46]、SURF[47]、FAST[19]、BRIEF[48]、ORB[49]等。其中，与SIFT和SURF[50]相比，ORB特征具有快速提取和匹配而不大幅损失准确度的优点。

上述一些方法的问题是它们不能有效地适应各种复杂和不可预见的情况。因此，许多研究人员使用CNN来提取图像特征，包括VO、姿态估计和回环检测。根据方法的功能，这些技术可以表示有监督或无监督的框架。

系统评估

虽然一些VSLAM方法，特别是那些能够在动态和挑战性环境中工作的方法，在真实世界中进行测试。但许多研究工作都使用了公开的数据集来证明其适用性。在这方面，Bonarini等人[51]的RAWSEEDS数据集是一个著名的多传感器基准测试工具，包含室内、室外和混合机器人轨迹与真值数据。它是用于机器人和SLAM目的的最古老的公开基准测试工具之一。McCormac等人[52]的Scenenet RGB-D是场景理解问题的另一个受欢迎的数据集，例如语义分割和目标检测，包含500万个大规模渲染的RGB-D图像。最近在VSLAM和VO领域的许多工作已经在TUM RGB-D数据集上测试了它们的方法[53]。此外，Nguyen等人[54]的NTU VIRAL是由配备3D激光雷达、相机、IMU和多个超宽带（UWB）的无人机收集的数据集。该数据集包含室内和室外实例，旨在评估自动驾驶和空中操作性能。其他数据集如EuRoC MAV[55]、OpenLORIS Scene[56]、KITTI[57]、TartanAir[58]、ICL-NUIM[59]和基于事件相机的数据集[60]可以参考相关论文。

根据传感器设置、应用和目标环境，上述数据集用于多种VSLAM方法。这些数据集主要包含摄像机的内外参以及GT。表I和图3分别显示了数据集的总结特征和每个数据集的一些实例。

语义等级

机器人需要语义信息才能理解周围的场景并做出更优决策。在许多最近的VSLAM工作中，将语义级信息添加到基于几何的数据中优于纯几何的方法，使其能够提供环境的概念知识[61]。在这方面，预先训练的目标识别模块可以将语义信息添加到VSLAM模型[62]。最新的方法之一是在VSLAM应用中使用CNN。一般来说，语义VSLAM方法包含以下四个主要组成部分[43]：

跟踪模块：
它使用从连续视频帧中提取的二维特征点来估计相机姿态并构建三维地图点。相机姿态的计算和3D地图点的构建分别建立了定位和建图过程的基线；
局部建图模块：
通过处理两个连续视频帧，创建了一个新的3D地图点，该点与BA模块一起用于改进相机姿态；
回环模块：
通过将关键帧与提取的视觉特征进行比较并评估它们之间的相似性，进一步调整相机姿态并优化构建的地图；
非刚性上下文消隐 (Non-Rigid Context
Culling，NRCC)：
使用NRCC的主要目标是从视频帧中过滤时间目标，以减少它们对定位和建图阶段的不利影响。其主要包含一个分割过程，用于分离帧中的各种不稳定实例，例如人。由于NRCC可以减少待处理的特征点的数量，因此简化了计算部分并获得了更鲁棒的性能。

因此，在VSLAM方法中利用语义信息可以改善姿态估计和地图重建的不确定性。然而，当前的挑战是如何正确使用提取的语义信息，而不影响计算成本。

基于主要目标的VSLAM方法

目标一：多传感器处理

这一类别涵盖了使用各种传感器以更好地了解环境的VSLAM方法的范围。虽然一些技术仅依赖摄像机作为所使用的视觉传感器，但其他技术将各种传感器结合起来以提高算法的准确性。

1）使用多相机

一个相机重建运动物体的3D轨迹可能很困难，一些研究人员建议使用多相机。例如，CoSLAM是Zou和Tan[63]推出的一个VSLAM系统，它使用部署在不同平台上的单摄像机来重建鲁棒地图。CoSLAM结合了在动态环境中独立移动的多个摄像机，并根据它们重叠的视场重建地图。该过程通过混合相机内和相机间姿态估计和建图，使得在3D中重建动态点更容易。CoSLAM使用Kanade-Lucas-Tomasi（KLT）算法跟踪视觉特征，并在静态和动态环境中运行，包括室内和室外，其中相对位置和方向可能会随时间变化。这种方法的主要缺点是需要复杂的硬件来理解大量的摄像机输出，并通过增加更多的摄像机来增加计算成本。

对于具有挑战性的野外场景，Yang等人[64]开发了一种多摄像机协同全景视觉VSLAM方法。[64]赋予每个摄像机独立性，以提高VSLAM系统在挑战场景下的性能，例如遮挡和纹理稀疏。为了确定匹配范围，他们从摄像机的重叠视场中提取ORB特征。此外，[64]还使用了基于CNN的深度学习技术来识别回环检测的类似特征。在实验中，作者使用了由全景相机和集成导航系统生成的数据集。相关工作还有MultiCol-SLAM[65]。

2）使用多传感器

其他一些方法建议融合多传感器，并使用基于视觉和惯性的传感器输出以获得更好的性能。在这方面，Zhu等人[66]提出了一种称为CamVox的低成本间接激光雷达辅助VSLAM，并证明了其可靠的性能和准确性。他们的方法使用ORB-SLAM 2.0，将Livox激光雷达作为高级深度传感器提供的独特功能与RGB-D相机的输出相结合。作者使用IMU来同步和校正非重复扫描位置。CamVox贡献是提出了一种在不受控制的环境中运行的自主激光雷达-相机校准方法。在机器人平台上的实测表明，CamVox在能够实时运行。

[67]提出了一种名为VIRAL（视觉-惯性-测距-激光雷达）SLAM的多模态系统，该系统将相机、激光雷达、IMU和UWB耦合起来。并提出了一种基于激光雷达点云构建的局部地图的视觉特征地图匹配边缘化方案。使用BRIEF算法提取和跟踪视觉分量。该框架还包含用于所使用的传感器的同步方案和触发器。VIRAL在NTU VIRAL[54]数据集上测试了他们的方法，该数据集包含相机、激光雷达、IMU和UWB传感器捕获的数据。然而，由于处理同步、多线程和传感器冲突解决，他们的方法计算量很大。其他相关算法Ultimate SLAM[68]、[69]可以参考相关论文。

目标二：姿态估计

这类方法的重点是如何使用各种算法改进VSLAM方法的姿态估计。

1）使用线/点数据

在这方面，Zhou等人[70]建议使用建筑结构线段作为有用的特征来确定相机姿态。结构线与主导方向相关联，并编码全局方向信息，从而改善预测轨迹。方法名为StructSLAM，是一种6自由度（DoF）VSLAM技术，可在低特征和无特征条件下运行。

Point and Line SLAM（PL-SLAM）是一种基于ORB-SLAM的VSLAM系统，针对非动态低纹理场景进行了优化，由Pumarola等人提出[71]。该系统同时融合线和点特征以改进姿态估计，并帮助在特征点较少的情况下运行。作者在生成的数据集和TUM RGB-D上测试了PL-SLAM。其方法的缺点是计算成本和必须使用其他几何图元（例如平面），以获得更稳健的精度。

Gomez-Ojeda等人[72]介绍了PL-SLAM（不同于Pumarola等人[71]中同名的框架），这是一种间接VSLAM技术，使用立体视觉相机中的点和线来重建看不见的地图。他们将从所有VSLAM模块中的点和线获得的片段与从其方法中的连续帧获取的视觉信息合并。使用ORB和线段检测器（LSD）算法，在PL-SLAM中的后续立体帧中检索和跟踪点和线段。作者在EuRoC和KITTI数据集上测试了PL-SLAM，在性能方面可能优于ORB-SLAM 2.0的立体版本。PL-SLAM的主要缺点之一是特征跟踪模块所需的计算时间以及考虑所有结构线以提取关于环境的信息。其他相关算法[73]可以参考论文。

2）使用额外特征

[74]中提出了Dual Quaternion Visual SLAM（DQV-SLAM），一种用于立体视觉相机的框架，该框架使用广泛的贝叶斯框架进行6-DoF姿态估计。为了防止非线性空间变换组的线性化，他们的方法使用渐进贝叶斯更新。对于地图的点云和光流，DQV-SLAM使用ORB功能在动态环境中实现可靠的数据关联。在KITTI和EuRoC数据集上，该方法可以可靠地得到预测结果。然而，它缺乏姿态随机建模的概率解释，并且对基于采样近似的滤波的计算要求很高。其他相关算法SPM-SLAM[75]可以参考论文。

3）深度学习

Bruno和Colombini[76]提出了LIFT-SLAM，它将基于深度学习的特征描述子与传统的基于几何的系统相结合。并扩展了ORB-SLAM系统的流水线，使用CNN从图像中提取特征，基于学习得到的特征提供更密集和精确的匹配。为了检测、描述和方向估计，LIFT-SLAM微调学习不变特征变换（LIFT）深度神经网络。使用KITTI和EuRoC MAV数据集的室内和室外实例进行的研究表明，LIFT-SLAM在精度方面优于传统的基于特征和基于深度学习的VSLAM系统。然而，该方法的缺点是其计算密集的流水线和未优化的CNN设计。

Naveed等人[77]提出了一种基于深度学习的VSLAM解决方案，该解决方案具有可靠且一致的模块，即使在极端转弯的路线上也是如此。他们的方法优于几种VSLAM，并使用了在真实模拟器上训练的深度强化学习网络。此外，它们还为主动VSLAM评估提供了基线，并可在实际室内和室外环境中适当推广。网络的路径规划器开发了理想的路径数据，由其基础系统ORB-SLAM接收。[77]制作了一个数据集，包含了挑战性和无纹理环境中的实际导航事件，以供评估。其他方法RWT-SLAM[78]可参考相关论文。

目标三：现实世界可行性

这类方法的主要目标是在各种环境中使用，并在多种场景下工作。论文注意到，本节中的引用与从环境中提取的语义信息高度集成，并展示了端到端的VSLAM应用。

1）动态环境

在这方面，Yu等人[61]引入了一个名为DS-SLAM的VSLAM系统，该系统可用于动态上下文，并为地图构建提供语义级信息。该系统基于ORB-SLAM 2.0，包含五个线程：跟踪、语义分割、局部建图、回环和密集语义图构建。为了在姿态估计过程之前排除动态目标并提高定位精度，DS-SLAM使用了实时语义分割网络SegNet的光流算法[80]。DS-SLAM已经在现实世界环境中、RGB-D相机以及TUM RGB-D数据集上进行了测试。然而，尽管它的定位精度很高，但它仍面临语义分割限制和计算密集型特征的问题。

Semantic Optical Flow SLAM（SOF-SLAM）是基于ORB-SLAM 2.0的RGB-D模式构建的间接VSLAM系统[45]。他们的方法使用语义光流动态特征检测模块，该模块提取并跳过ORB特征提取提供的语义和几何信息中隐藏的变化特征。为了提供准确的相机姿态和环境信息，SOF-SLAM使用了SegNet的像素级语义分割模块。在极端动态的情况下，TUM RGB-D数据集和现实环境中的实验结果表明，SOF-SLAM的性能优于ORB-SLAM 2.0。然而，非静态特征识别的无效方法和仅依赖于两个连续帧是SOF-SLAM的缺点。其他相关算法[81]、[82]可以参考相关论文。

2）基于深度学习的解决方案

在Li等人[83]的另一个名为DXSLAM的工作中，深度学习用于找到类似于SuperPoints的关键点，并生成通用描述子和图像的关键点。他们训练先进的CNN HF-NET，通过从每个帧中提取局部和全局信息，生成基于帧和关键点的描述子。此外还使用离线Bag of Words（BoW）方法训练局部特征的视觉词汇表，以实现精确的回环识别。DXSLAM在不使用GPU的情况下实时运行，并且与当代CPU兼容。即使这些品质没有得到特别的处理，它也有很强的抵抗动态环境中动态变化的能力。DXSLAM已经在TUM RGB-D和OpenLORIS场景数据集以及室内和室外图像上进行了测试，可以获得比ORB-SLAM 2.0和DS-SLAM更准确的结果。然而，这种方法的主要缺点是复杂的特征提取架构和将深层特征合并到旧的SLAM框架中。

在另一种方法中，Li等人[84]开发了一种实时VSLAM技术，用于在复杂情况下基于深度学习提取特征点。该方法可以在GPU上运行，支持创建3D密集地图，是一个具有自监督功能的多任务特征提取CNN。CNN输出是固定长度为256的二进制代码串，这使得它可以被更传统的特征点检测器（如ORB）所取代。系统包括三个线程，用于在动态场景中实现可靠和及时的性能：跟踪、局部建图和回环。支持使用ORB-SLAM 2.0作为基线的单目和RGB-D相机的系统。其他相关算法[85]可以参考相关论文。

3）使用人工地标

Medina Carnicer等人提出的一种称为UcoSLAM[86]的技术，通过结合自然和人造地标，并使用基准标记自动计算周围环境的比例，从而优于传统的VSLAM系统。UcoSLAM的主要驱动力是对抗自然地标的不稳定性、重复性和较差的跟踪质量。它可以在没有标签或特征的环境中运行，因为它只能在关键点、地标和混合模式下运行。为了定位地图对应关系，优化重投影误差，并在跟踪失败时重新定位，UcoSLAM具有跟踪模式。此外，它有一个基于地标的回环检测系统，可以使用任何描述子描述特征，包括ORB和FAST。尽管UcoSLAM有很多优点，但系统在多线程中执行，这使得它成为一种耗时的方法。

4）广泛的设置

用于动态室内和室外环境的另一种VSLAM策略是DMS-SLAM[87]，它支持单目、立体和RGB-D视觉传感器。该系统采用滑动窗口和基于网格的运动统计（GMS）[88]特征匹配方法来找到静态特征位置。DMS-SLAM以ORB-SLAM 2.0系统为基础，跟踪ORB算法识别的静态特征。作者在TUM RGB-D和KITTI数据集上测试了他们建议的方法，并优于先进的的VSLAM算法。此外，由于在跟踪步骤中删除了动态目标上的特征点，DMS-SLAM比原始的ORB-SLAM 2.0执行得更快。尽管有上述优点，但DMS-SLAM在纹理少、运动快和高度动态环境的情况下会遇到困难。

目标四：资源限制

在另一类中，与其他标准设备相比，一些VSLAM方法是为计算资源有限的设备构建的。例如，为移动设备和具有嵌入式系统的机器人设计的VSLAM系统就属于这一类别。

1）处理能力有限的设备

在这方面，edgeSLAM是Xu等人提出的用于移动和资源受限设备的实时、边缘辅助语义VSLAM系统[89]。它采用了一系列细粒度模块，由边缘服务器和相关移动设备使用，而不需要多线程。edgeSLAM中还包括基于Mask-RCNN技术的语义分割模块，以改进分割和目标跟踪。作者在一个边缘服务器上安装了一些商用移动设备，如手机和开发板。通过重用目标分割的结果，他们通过使系统参数适应不同的网络带宽和延迟情况来避免重复处理。EdgeSLAM已在TUM RGB-D、KITTI的单目视觉实例和为实验设置创建的数据集上进行了评估。

对于立体相机设置，Grisetti等人[90]提出了一种轻量级的基于特征的VSLAM框架，名为ProSLAM，其结果与先进技术不相上下。四个模块组成了他们的方法：triangulation模块，它创建3D点和相关的特征描述子；增量运动估计模块，其处理两个帧以确定当前位置；创建局部地图的地图管理模块；以及基于局部地图的相似性更新世界地图的重新定位模块。ProSLAM使用单个线程检索点的3D位置，并利用少量已知库来创建简单的系统。根据KITTI和EuRoC数据集的实验，他们的方法可以获得稳健的结果。然而，它在旋转估计方面表现出不足，并且不包含任何光束法平差模块。其他相关算法VPS-SLAM[91]、[94]可以参考相关论文。

2）计算迁移

Ben Ali等人[96]建议使用边缘计算将资源密集型操作迁移到云上，并减少机器人的计算负担。他们在其间接框架Edge-SLAM中修改了ORB-SLAM 2.0的架构，在机器人上维护了跟踪模块，并将剩余部分委派给边缘。通过在机器人和边缘设备之间拆分VSLAM流水线，系统可以维护局部和全局地图。在可用资源较少的情况下，它们仍然可以在不牺牲准确性的情况下正确运行。[96]使用TUM RGB-D数据集和两个不同的移动设备，基于RGB-D相机生成定制的室内环境数据集进行评估。然而，该方法的缺点之一是由于各种SLAM模块的解耦而导致架构的复杂性。另一个问题是，系统仅在短期设置下工作，在长期场景（例如，多天）中使用Edge SLAM将面临性能下降。

目标五：弹性化（Versatility）

VSLAM在这一类中的工作侧重于直接的开发、利用、适应和扩展。

在这方面，Sumikura等人[95]引入了OpenVSLAM，这是一个高度适应性的开源VSLAM框架，旨在快速开发并被其他第三方程序调用。他们基于特征的方法与多种相机类型兼容，包括单目、立体和RGB-D，并且可以存储或重用重建的地图以供以后使用。由于其强大的ORB特征提取模块，OpenVSLAM在跟踪精度和效率方面优于ORB-SLAM和ORB-SLAM2.0。然而，由于担心代码相似性侵犯了ORB-SLAM 2.0的权利，该系统的开源代码已经停止。

为了弥合实时能力、准确性和弹性之间的差距，Ferrera等人[97]开发了OV2SLAM，可用于单目和立体视觉相机。通过将特征提取限制在关键帧中，并通过消除测光误差在后续帧中对其进行监控，他们的方法减少了计算量。从这个意义上讲，OV2SLAM是一种混合策略，它结合了VSLAM直接和间接方法的优点。在室内和室外实验中，使用包括EuRoC、KITTI和TartanAir在内的著名基准数据集，证明OV2SLAM在性能和准确性方面优于几种流行技术。其他相关算法DROID-SLAM[98]、iRotate[99]可以参考相关论文。

目标六：视觉里程计（Visual Odometry）

此类方法旨在以尽可能高的精度确定机器人的位置和方向。

1）深度神经网络

在这方面，[100]中提出了Dynamic-SLAM框架，该框架利用深度学习进行准确的姿态预测和适当的环境理解。作为优化VO的语义级模块的一部分，作者使用CNN来识别环境中的运动目标，这有助于他们降低由不正确的特征匹配带来的姿态估计误差。此外，Dynamic-SLAM使用选择性跟踪模块来忽略场景中的动态位置，并使用缺失特征校正算法来实现相邻帧中的速度不变性。尽管结果很好，但由于定义的语义类数量有限，该系统需要巨大的计算成本，并面临动态/静态目标误分类的风险。

Bloesch等人[101]提出了Code-SLAM，它提供了场景几何体的浓缩和密集表示。他们的VSLAM系统是PTAM的增强版[14]，该系统仅与单目摄像机一起工作。其将强度图像划分为卷积特征，并使用根据SceneNet RGB-D数据集的强度图像训练的CNN将其馈送到深度自编码器。EuRoC数据集的实验结果表明，其结果在准确性和性能方面很有希望。其他相关算法DeepVO[102]、[103]、DeepFactors[104]可以参考相关论文。

2）深度相邻帧处理

在另一项工作中，[106]的作者通过减少用于摄像机运动检测的两幅图像之间的光度和几何误差，为RGB-D摄像机开发了一种实时密集SLAM方法，改进了他们先前的方法[107]。他们基于关键帧的解决方案扩展了Pose SLAM[108]，它只保留非冗余姿态，以生成紧凑的地图，增加了密集的视觉里程计特征，并有效地利用来自相机帧的信息进行可靠的相机运动估计。作者还采用了一种基于熵的技术来度量关键帧的相似性，用于回环检测和漂移避免。然而，他们的方法仍然需要在回环检测和关键帧选择质量方面进行工作。

在Li等人[109]介绍的另一项工作中，使用称为DP-SLAM的基于特征的VSLAM方法实现实时动态目标移除。该方法使用基于从运动目标导出的关键点的似然性的贝叶斯概率传播模型。使用移动概率传播算法和迭代概率更新，DP-SLAM可以克服几何约束和语义数据的变化。它与ORB-SLAM 2.0集成，并在TUM RGB-D数据集上进行了测试。尽管结果准确，但由于迭代概率更新模块，该系统仅在稀疏VSLAM中工作，并且面临较高的计算成本。其他相关算法[110]可以参考相关论文。

3）各种特征处理

此类别中的另一种方法是Li等人[111]提出的基于文本的VSLAM系统，称为TextSLAM。它将使用FAST角点检测技术从场景中检索的文本项合并到SLAM管道中。文本包括各种纹理、图案和语义，这使得使用它们创建高质量3D文本地图的方法更加有效。TextSLAM使用文本作为可靠的视觉基准标记，在找到文本的第一帧之后对其进行参数化，然后将3D文本目标投影到目标图像上以再次定位。他们还提出了一种新的三变量参数化技术，用于初始化瞬时文本特征。使用单目相机和作者创建的数据集，在室内和室外环境中进行了实验，结果非常准确。在无文本环境中操作、解释短字母以及需要存储大量文本词典是TextSLAM的三大基本挑战。其他相关算法[43]、[112]可以参考相关论文。

确定当前趋势

统计数字

关于上述各方面调查论文的分类，论文将图4中的处理数据可视化，以找出VSLAM的当前趋势。在子图“a”中，可以看到，大多数拟议的VSLAM系统都是独立的应用程序，它们使用视觉传感器从头开始执行定位和建图的整个过程。虽然ORB-SLAM2.0和ORB-SLAM是用于构建新框架的其他基础平台，但只有很少的方法基于其他VSLAM系统，如PTAM和PoseSLAM。此外，就VSLAM应用程序的目标而言，子图“b”中最重要的是改进视觉里程计模块。因此，大多数最近的VSLAM都试图解决当前算法在确定机器人位置和方向方面的问题。姿态估计和真实世界生存能力是提出新的VSLAM论文的进一步基本目标。关于调查论文中用于评估的数据集，子图“c”说明了大多数工作都在TUM RGB-D数据集上进行了测试。此外，许多研究人员倾向于对他们生成的数据集进行实验。我们可以假设生成数据集的主要动机是展示VSLAM方法在真实场景中的工作方式，以及它是否可以作为端到端应用程序使用。EuRoC MAV和KITTI分别是VSLAM工作中下一个流行的评估数据集。从子图“d”中提取的另一个有趣信息涉及使用VSLAM系统时使用语义数据的影响。我们可以看到，大多数论文在处理环境时不包括语义数据。论文假设不使用语义数据的原因是：

在许多情况下，训练识别目标并将其用于语义分割的模型的计算成本相当大，这可能会增加处理时间；
大多数基于几何的VSLAM算法被设计在即插即用的设备上工作，因此它们可以用最少的努力使用相机数据进行定位和建图；
从场景中提取的不正确信息也会导致过程中增加更多的噪声。

当考虑环境时，我们可以在子图“e”中看到，一半以上的方法也可以在具有挑战性的动态环境中工作，而其余的系统只关注没有动态变化的环境。此外，在子图“f”中，大多数方法都适用于“室内环境”或“室内和室外环境”，而其余的论文仅在室外条件下进行了测试。应当指出的是，如果在其他情况下采用的方法只能在具有限制性假设的特定情况下工作，则可能不会产生相同的准确性。这是一些方法只集中于特定情况的主要原因之一。

分析当前趋势

本文回顾了最先进的视觉SLAM方法，这些方法吸引了大量关注，并展示了它们在该领域的主要贡献。尽管在过去几年中，VSLAM系统的各个模块都有了广泛的可靠解决方案和改进，但仍有许多高潜力领域和未解决的问题需要在这些领域进行研究，从而在SLAM的未来发展中采用更稳健的方法。鉴于视觉SLAM方法的广泛性，论文介绍以下开放的研究方向：

深度学习： 深度神经网络在各种应用中显示出令人鼓舞的结果，包括VSLAM[15]，使其成为多个研究领域的一个重要趋势。由于其学习能力，这些体系结构已显示出相当大的潜力，可以用作可靠的特征提取器，以解决VO和回环检测中的不同问题。CNN可以帮助VSLAM进行精确的目标检测和语义分割，并且在正确识别人工设计的特征方面可以优于传统的特征提取和匹配算法。必须指出的是，由于基于深度学习的方法是在具有大量多样数据和有限目标类的数据集上进行训练的，因此总是存在对动态点进行错误分类并导致错误分割的风险。因此，它可能导致较低的分割精度和姿态估计误差。

信息检索和计算成本权衡： 通常情况下，处理成本和场景中的信息量应始终保持平衡。从这个角度来看，密集地图允许VSLAM应用程序记录高维完整场景信息，但实时这样做将需要计算量。另一方面，稀疏表示由于其较低的计算成本，将无法捕获所有需要的信息。还应注意的是，实时性能与摄像机的帧速率直接相关，峰值处理时间的帧丢失会对VSLAM系统的性能产生负面影响，而与算法性能无关。此外，VSLAM通常利用紧耦合的模块，修改一个模块可能会对其他模块产生不利影响，这使得平衡任务更具挑战性。

语义分割： 在创建环境地图的同时提供语义信息可以为机器人带来非常有用的信息。识别摄像机视场中的目标（例如门、窗、人等）是当前和未来VSLAM工作中的一个热门话题，因为语义信息可用于姿态估计、轨迹规划和回环检测模块。随着目标检测和跟踪算法的广泛使用，语义VSLAM无疑将成为该领域未来的解决方案之一。回环算法：任何SLAM系统中的关键问题之一是漂移问题，以及由于累积的定位误差而导致的特征轨迹丢失。在VSLAM系统中，检测漂移和回环以识别先前访问过的位置会导致计算延迟和高成本[89]。主要原因是回环检测的复杂度随着重建地图的大小而增加。此外，组合从不同地点收集的地图数据并细化估计姿态是非常复杂的任务。因此，回环检测模块的优化和平衡具有巨大的改进空间。检测回环的常见方法之一是通过基于局部特征训练视觉词汇表，然后将其聚合来改进图像检索。

在具有挑战性的场景中工作： 在没有纹理的环境中工作，很少有显著特征点，这通常会导致机器人的位置和方向出现漂移误差。作为VSLAM的主要挑战之一，此错误可能导致系统故障。因此，在基于特征的方法中考虑互补的场景理解方法，例如目标检测或线条特征，将是一个热门话题。

结论

本文介绍了一系列SLAM算法，其中从摄像机采集的视觉数据起着重要作用。论文根据VSLAM系统方法的各种特点，如实验环境、新颖领域、目标检测和跟踪算法、语义级生存能力、性能等，对其最近的工作进行了分类。论文还根据作者的主张、未来版本的改进以及其他相关方法中解决的问题，回顾了相关算法的关键贡献以及现有的缺陷和挑战。本文的另一个贡献是讨论了VSLAM系统的当前趋势以及研究人员将更多研究的现有开放问题。

版权声明：本文为奥比中光3D视觉开发者社区特约作者授权原创发布，未经授权不得转载，本文仅做学术分享，版权归原作者所有，若涉及侵权内容请联系删文。

3D视觉开发者社区是由奥比中光给所有开发者打造的分享与交流平台，旨在将3D视觉技术开放给开发者。平台为开发者提供3D视觉领域免费课程、奥比中光独家资源与专业技术支持。点击加入[3D视觉开发者社区]，和开发者们一起讨论分享吧~

你可能感兴趣的:(SLAM,计算机视觉,语义分割)

AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
导致格式错误的 Lambda 代理响应的原因以及如何修复它 zqhdz米时空汇编
当人们尝试使用AWSAPIGateway和AWSLambda构建无服务器应用程序时，经常出现的一个问题是_由于配置错误而执行失败：Lambda代理响应格式错误。_没有什么比通用错误消息更糟糕的了，它们不会告诉您解决问题所需的任何内容，对吧？AWS并不是以其错误消息设计而闻名，如果甚至可以这样称呼它的话，更不用说为您提供解决问题的方法了。那么如何修复这个Lambda错误以及是什么原因造成的呢？花椒壳
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
ROS yaml参数文件的使用 Sun Shiteng ROS
举个例子，若在params.yaml文件中定义如下参数LidarImageFusion:points_src:"/hilbert_h/deskew/cloud_info"image_src:"/usb_cam0/image_raw"camera_info_src:"/home/hdj/fusion_slam/Color_SLAM_ws/src/hilbert_h/config/firefly_8s
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
xwiki html和css,MediaWiki vs. XWiki Ake阿科多语言信息技术编程数据库操作系统
140Afar,Abkhazian,Afrikaans,Amharic,Arabic,Assamese,Aymara,Azerbaijani,Bashkir,Byelorussian,Bulgarian,Bihari,Bislama,Bengali;Bangla,Tibetan,Breton,Catalan,Corsican,Czech,Welsh,Danish,German,Bhutani,Gr
2021-07-07 潇洒二爷
一辆特斯拉“花格子S型”小车，突然起火，电子技术的车门也失灵TeslaModelSPlaidbrokeintofirewithfailureofelctronicdoors一辆“花格子牌”（ModelSPlaid）特斯拉轿车，在6月29日这天，车主正在路上行驶，突然烈焰腾飞，他的代理律师说，他被短时间困在车内，因为几个电动门都打不开。事情在几天前发生于费城外，这名男子拿到这款特斯拉之后，号称是世界
景联文科技：专业数据标注公司，推动AI技术革新景联文科技人工智能
数据标注作为AI技术发展的重要支撑，对于训练高质量的机器学习模型以及推动应用领域的创新具有不可替代的作用。景联文科技作为专业的数据标注公司，致力于提供专业的数据标注服务，帮助客户解决AI链条中的数据处理难题，共同推动人工智能技术的进步与发展。一站式数据标注服务景联文科技提供一站式的数据标注服务，涵盖从图像、视频、音频到文本等多种数据类型。•图像标注：对象检测、语义分割、关键点标注、多边形标注等。•
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_