理工CV

Visual SLAM：What are the Current Trends and What to Expect？

近年来，基于视觉的传感器在同步定位与测绘(SLAM)系统中表现出了显著的性能、准确性和效率提升。视觉同步定位与映射(VSLAM)方法是指使用相机进行姿态估计和地图生成的SLAM方法。我们可以看到许多研究成果证明VSLAM的性能优于传统方法，传统方法只依赖于一个特定的传感器，如激光雷达，即使成本较低。VSLAM方法利用不同类型的相机(如单目、立体和RGB-D)，在不同的数据集(如KITTI、TUM RGB-D和EuRoC)和不同的环境(如室内和室外)上进行了测试，并采用多种算法和方法来更好地理解环境。前面提到的变化使这个话题受到研究人员的欢迎，并产生了广泛的VSLAM方法。在这方面，本调查的主要目的是介绍VSLAM系统的最新进展，以及讨论现有的挑战和趋势。我们对VSLAM领域发表的45篇有影响力的论文进行了深入的文献调查。我们根据不同的特征对这些稿件进行了分类，包括新颖性领域、目的、采用的算法和语义层次。我们还讨论了当前的趋势和未来的方向，可能有助于研究人员研究它们。

Introduction

同步定位与映射(Simultaneous Localization and Mapping, SLAM)是指估算未知环境的映射，同时监视代理的位置[1]的过程。在这里，代理可以是家庭机器人[2]、自动驾驶车辆[3]、行星漫游者[4]，甚至是无人机 (UA V)[5]、[6]或无人车 (UGV)[7]。在环境的先验地图不可用或机器人的位置未知的情况下，SLAM可以用于覆盖广泛的应用。在这方面，并考虑到机器人技术日益增长的应用，SLAM近年来得到了工业界和研究界成员的极大关注[8]，[9]

SLAM系统可以使用各种传感器从环境中收集数据，包括基于激光的传感器、声学和视觉传感器[10]。视觉传感器类别涵盖各种视觉数据探测器，包括单目、立体、基于事件、全方位和RGB-D相机。装有视觉传感器的机器人利用摄像机提供的视觉数据来估计机器人相对于周围环境[11]的位置和方向。使用视觉传感器执行SLAM的过程被称为视觉同步定位与映射(VSLAM)。在SLAM应用程序中使用可视化数据具有较低的硬件需求、更直接的对象检测和跟踪以及提供丰富的可视化和语义信息[12]的能力等优点。捕获的图像(或视频帧)也可以用于基于视觉的应用程序，包括语义分割和对象检测，因为它们存储了大量的数据用于处理。上述特征最近使VSLAM成为机器人领域的一个热门话题，并促使机器人和计算机视觉(CV)专家在过去几十年进行了大量的研究和调查。因此，VSLAM可以在各种类型的应用程序中找到，在这些应用程序中重构环境的3D模型是必不可少的，如自主、增强现实(AR)和服务机器人[13]。

作为[14]为解决高计算成本而引入的通用基准测试，SLAM方法主要包含两个要并行执行的入门线程，称为跟踪和映射。因此，VSLAM中使用的算法的基本分类是研究人员如何在每个线程中使用不同的方法和策略。根据使用的数据类型，上述解决方案对SLAM系统的看法不同，可以将它们分为两类：直接方法和间接(基于特征的)方法[15]。间接方法通过处理场景来提取从纹理中获得的特征点（即关键点），并通过匹配连续帧中的描述符来跟踪它们。尽管特征提取和匹配阶段的计算成本很高，但这些方法对帧强度的光测量变化具有精确和鲁棒性。另一方面，直接算法直接从像素级数据估计相机运动，并建立一个优化问题，以最小化光测量误差。这些方法依靠摄影测量，利用相机输出的所有像素，并在连续帧中跟踪它们的替换，针对它们的约束方面，如亮度和颜色。这些特性使得直接方法比间接方法能够从图像中建模更多的信息，并实现更高精度的三维重建。然而，直接方法虽然在无纹理环境下工作效果更好，且不需要更多的计算量进行特征提取，但往往面临大规模优化问题[16]。每种方法的优点和缺点鼓励研究人员考虑开发混合解决方案，其中考虑两种方法的组合。混合方法通常集成间接和直接检测阶段，其中一个初始化和纠正另一个。

由于VSLAM主要包括一个视觉里程计(VO)前端，用于局部估计相机的路径，以及一个SLAM后端，以优化创建的地图，在每个类别中使用的模块的多样性导致实现的变化。VO根据局部一致性提供机器人位置和姿态的初步估计，并发送到后端进行优化。因此，VSLAM和VO的主要区别在于是否考虑映射和预测轨迹的全局一致性。一些最先进的VSLAM应用程序还包括两个附加模块:环路关闭检测和映射[15]。它们负责识别之前访问过的位置，以便根据相机姿势进行更精确的跟踪和地图重建。

总的来说，图1显示了一个标准VSLAM方法的总体架构。因此，系统的输入也可以与其他传感器数据集成，如惯性测量单元(IMU)和激光雷达，提供更多的信息而不是视觉数据。此外，对于VSLAM管道中使用的直接或间接方法，可视特征处理模块的功能可能会被更改或忽略。例如，“特征处理”阶段只在间接方法中使用。另一个因素是利用一些特定的模块，如闭环检测和束调整，以提高执行力。

图1所示，标准可视化SLAM方法的流程图。关于使用的直接/间接方法，其中一些模块的功能可能会改变或忽略。

EVOLUTION OF VISUAL SLAM ALGORITHMS

VSLAM系统在过去的几年里已经成熟，并且有几个框架在这个开发过程中发挥了至关重要的作用。为了提供一个概貌，图2展示了广泛引用的VSLAM方法的里程碑，这些方法影响了社区，并被用作其他框架的基线

图2所示。具有高度影响力的Visual SLAM方法的里程碑。

因此，文献中第一个实现实时单目VSLAM系统的努力是由Davison等人在2007年开发的，他们介绍了一个名为Mono-SLAM[17]的框架。他们的间接框架可以利用扩展卡尔曼滤波器(EKF)算法[18]来估计世界上的摄像机运动和3D元素。尽管缺乏全局优化和闭环检测模块，Mono-SLAM在VSLAM领域开始起主要作用。然而，用这种方法重建的地图只包括地标，并没有提供关于该地区的进一步详细信息。Klein等人同年在[14]中提出了并行跟踪与映射(Parallel Tracking and Mapping，PTAM)，他们将整个VSLAM系统划分为两个主要线程：跟踪和映射。这个多线程基线在以后的工作中得到了许多后续工作的认可，本文将对此进行讨论。他们方法的主要思想是减少计算成本，并应用并行处理来实现实时性能。跟踪线程实时估计相机运动，映射预测特征点的三维位置。PTAM也是第一个利用束调整(BA)来联合优化相机姿势和创建的3D地图的方法。该算法利用加速分段测试(FAST)[19]角点检测算法的特征进行关键点匹配和跟踪。尽管该算法的性能优于Mono-SLAM，但设计复杂，第一阶段需要用户输入。Newcombe等人[20]在2011年引入了密集跟踪和映射（Dense Tracking and Mapping，DTAM），这是一种直接测量深度值和运动参数的方法。DTAM是一个配备了密集映射和密集跟踪模块的实时框架，可以通过将整个帧与给定的深度图对齐来确定相机姿势。为了构建环境图，上述阶段分别估计场景的深度和运动参数。尽管DTAM可以提供地图的详细表示，但它需要很高的计算成本来实时执行。作为3D映射和基于像素的优化领域的另一种间接方法，Endres等人[21]在2013年提出了一种可用于RGB-D相机的方法。他们的方法实时执行，专注于低成本的嵌入式系统和小型机器人，但它不能在无特征或具有挑战性的场景中产生准确的结果。同年，Salas-Moreno等人[22]提出了在实时SLAM框架中利用语义信息的第一个尝试之一，命名为SLAM++。他们的系统采用RGB-D传感器输出，并执行3D相机姿态估计和跟踪，以形成一个姿态图。位姿图是一种图，其中的节点表示位姿估计，并由表示测量不确定性[23]的节点之间的相对位姿的边连接。然后，通过合并从场景中语义对象获得的相对3D姿势，对预测的姿势进行优化。

随着VSLAM基线的不断成熟，研究人员将注意力集中在提高这些系统的性能和精度上。在这方面，Forster等人在2014年提出了一种混合VO方法，称为半直接视觉里程计(SVO)[24]，作为VSLAM体系结构的一部分。他们的方法可以合并基于特征的方法和直接方法来执行传感器的运动估计和映射任务。SVO可以同时使用单目和立体摄像机，并配备了位姿优化模块，以尽量减少重投影误差。然而，SVO的主要缺点是使用短期数据关联，不能执行闭环检测和全局优化。LSD-SLAM[25]是Engel等人在2014年推出的另一种有影响力的VSLAM方法，包含跟踪、深度地图估计和地图优化线程。该方法可以利用其姿态图估计模块重构大规模地图，并具有全局优化和闭环检测功能。LSD-SLAM的缺点是它具有挑战性的初始化阶段需要在一个平面上的所有点，这使得它成为一种计算密集型的方法。Mur Artal等人介绍了两种精确的间接VSLAM方法，目前已引起许多研究人员的注意：ORB-SLAM[26]和ORBSLAM 2.0[27]。这些方法可以在纹理良好的序列中完成定位和映射，并利用定向FAST和旋转BRIEF (ORB)特征进行高性能的位置识别。ORBSLAM的第一个版本能够使用从相机位置收集的关键帧计算相机位置和环境的结构。第二个版本是对ORB-SLAM的扩展，具有三个并行线程，包括用于查找特征对应的跟踪，用于映射管理操作的局部映射，以及用于检测新循环和纠正漂移错误的闭环。虽然ORB-SLAM 2.0可以在单目和立体相机设置下工作，但由于重构地图的比例未知，它不能用于自主导航。这种方法的另一个缺点是它不能在无纹理的区域或具有重复模式的环境中工作。该框架的最新版本被命名为ORB-SLAM 3.0，于2021年[28]提出。它适用于各种类型的相机，如单目，RGB-D和立体视觉，并提供改进的姿态估计输出。

近年来，随着深度学习在各个领域的显著影响，基于深度神经网络的方法可以通过提供更高的识别和匹配率来解决许多问题。类似地，在VSLAM中用学习到的特征代替手工制作是许多近期基于深度学习的方法提出的解决方案之一。在这方面，Tateno等人提出了一种基于卷积神经网络(CNNs)的方法，该方法处理用于相机姿态估计的输入帧，并使用关键帧进行深度预测，称为CNN-SLAM[29]。将相机帧分割成更小的部分以更好地理解环境是CNN-SLAM提供并行处理和实时性能的想法之一。作为一种不同的方法，Engel等人还在直接VSLAM算法中引入了一种新的趋势，称为直接稀疏里程计法(direct Sparse Odometry, DSO)[30]，该算法将直接方法与稀疏重建相结合，提取图像块中强度最高的点。通过对稀疏像素集的跟踪，考虑图像形成参数，采用间接跟踪方法。需要注意的是，DSO只能在使用光测量校准的相机时提供完美的精度，而不能在使用常规相机时获得高精度的结果。

简而言之，VSLAM系统发展过程中的里程碑表明，最近的方法关注于多个专用模块的并行执行。这些模块形成了与广泛的传感器和环境兼容的通用技术和框架。上述特性使它们能够实时执行，并且在性能改进方面更加灵活。

RELATED SURVEYS

在VSLAM领域有各种调查论文，对不同的现有方法进行了一般性的回顾。这些论文中的每一篇都回顾了使用VSLAM方法的主要优点和缺点。Macario Barros等人[31]将方法分为三个不同的类别：仅视觉(单目)、视觉惯性(立体)和RGB-D。他们还提出了各种简化VSLAM算法分析的标准。然而，它们不包括其他视觉传感器，如基于事件相机的传感器，我们将在后面的IV -A中讨论。

Chen等人回顾了广泛的传统和语义VSLAM出版物。他们将SLAM开发时代划分为经典阶段、算法分析阶段和健壮感知阶段，并介绍了其中的热点问题。他们还总结了使用直接/间接方法的经典框架，并研究了深度学习算法在语义分割中的影响。尽管他们的工作为该领域的高级解决方案提供了全面的研究，但方法的分类仅局限于基于特征的VSLAM中使用的特征类型。

Jia等人[33]调查了大量的手稿，并简要比较了基于图优化的方法和配置深度学习的方法。尽管提出了适当的比较，但由于审查的论文数量有限，他们的讨论不能一般化。

在另一项工作中，Abaspur Kazerouni等人[34]涵盖了各种VSLAM方法，利用感官设备、数据集和模块，模拟了几种间接方法进行比较和分析。它们只对基于特征的算法做出贡献，例如HOG、尺度不变特征变换(SIFT)、加速鲁棒特征(SURF)和基于深度学习的解决方案。

Bavle等人[35]分析了各种SLAM和VSLAM应用中的情景感知方面，并讨论了它们的缺失点。他们可以得出结论，操作缺乏的态势感知特征可以提高当前研究工作的绩效。

其他一些调查研究了VSLAM的最新方法，主要针对一个特定的主题或趋势。例如，Duan等人[15]调查了运输机器人视觉SLAM系统中深度学习的进展。作者在论文中总结了在VO和闭环检测任务中使用各种基于深度学习的方法的优缺点。在VSLAM中使用深度学习方法的显著优势是在姿态估计和整体性能计算中精确的特征提取。在同一领域的另一项工作中，Arshad和Kim[36]关注深度学习算法在使用可视化数据的闭环检测中的影响。他们查阅了VSLAM的各种论文，并分析了机器人在不同条件下的长期自主性。Singandhupe和La[37]回顾了VO和VSLAM对无人驾驶汽车的影响。他们收集了在KITTI数据集上评估过的方法，使他们能够对每个系统的优缺点有一个简要的描述。Cheng等[32]在类似的文章中回顾了基于VSLAM的自动驾驶系统，并提出了该系统未来的发展趋势。其他一些研究人员调查了在现实条件下工作的VSLAM工作能力。例如，Saputra等人[38]针对在动态和粗糙环境中运行的VSLAM技术的变化，讨论了线程问题的重构、分割、跟踪和并行执行。

关于上述调查，目前的调查有其特殊性，使其有别于迄今为止的其他调查，并对在不同地点进行的VSLAM系统进行了全面审查。在这方面，这项调查的主要贡献是：

1、根据研究人员在提出新解决方案方面的主要贡献、标准和目标，对最近VSLAM的各种出版物进行分类。

2、通过深入研究不同方面的不同方法，分析VSLAM系统的当前趋势。

3、介绍VSLAM对研究人员的潜在贡献。

VSLAM SETUP CRITERIA

考虑到各种VSLAM方法，我们可以将不同的设置和配置分为以下类别：

Sensors and Data Acquisition

Davison等人介绍的VSLAM算法的早期实现配备了单目摄像机，用于轨迹恢复。单目摄像机是最常见的视觉传感器，用于广泛的任务，如物体检测和跟踪。另一方面，立体相机包含两个或两个以上的图像传感器，使它们能够感知捕获图像的深度，从而在VSLAM应用中获得更精确的性能。这些相机的设置是成本效益和提供信息的感知更高的精度要求。RGB-D相机是VSLAM中使用的视觉传感器的其他变体，提供场景的深度和颜色。上述视觉传感器可以在简单的情况下提供丰富的环境信息，例如，适当的照明和运动速度，但它们往往难以应对照明低或场景动态范围高的情况。

近年来，事件摄像机也被用于各种VSLAM应用中。当检测到运动时，这些低延迟生物视觉传感器产生像素级亮度变化，而不是标准强度帧，导致高动态范围输出，没有运动模糊影响[40]。与标准相机相比，基于事件的传感器在高速运动和宽范围动态场景下提供可靠的视觉信息，但在运动速率较低时无法提供足够的信息。尽管事件相机在恶劣的光照和动态范围条件下可以优于标准视觉传感器，但它们主要产生关于环境的不同步信息。这使得传统视觉算法无法处理这些传感器的输出[41]。此外，利用事件的时空窗口以及从其他传感器获得的数据可以提供丰富的姿态估计和跟踪信息。

此外，一些方法使用多摄像头设置来解决在现实环境中工作的常见问题，并提高定位精度。利用多个视觉传感器在复杂的情况下，如遮挡，伪装，传感器故障，或可跟踪纹理稀疏发生的情况下，通过提供摄像机的重叠视野。虽然多摄像头设置可以解决一些数据采集问题，但只有摄像头的VSLAM可能面临各种挑战，如遇到快速移动的物体时的运动模糊，低或强照明下的特征不匹配，高节奏变化场景下的动态对象忽略等。因此，一些VSLAM应用程序可能会在摄像头旁边配备多个传感器。融合事件和标准帧[42]或集成其他传感器，如激光雷达[43]和IMU到VSLAM是一些现有的解决方案。

Target Environments

在许多传统的VSLAM实践中，机器人工作在一个静态的世界中，不会有突然或意想不到的变化，这是一个强有力的假设。因此，尽管许多系统可以在特定的设置中证明成功的应用，但环境中一些意想不到的变化(例如，移动对象的存在)可能会给系统造成复杂性，并在很大程度上降低状态估计质量。在动态环境中工作的系统通常使用诸如光流(Optical Flow)或随机样本共识(Random Sample Consensus，RANSAC)[44]等算法来检测场景中的运动，将运动对象分类为异常值，并在重构地图时跳过它们。这类系统或利用几何/语义信息，或试图通过结合这两个[45]的结果来改进定位方案。

此外，我们还可以将不同的环境分为室内和室外，作为一种一般分类法。户外环境可以是具有建筑和道路纹理等结构地标和大规模运动变化的城市区域，也可以是具有弱运动状态的越野区域，如移动的云和植被、沙子的纹理等。因此，在越野环境中可跟踪点的数量少于城市区域，这增加了定位和闭环检测失败的风险。另一方面，室内环境包含具有完全不同的全局空间属性的场景，如走廊、墙壁和房间。我们可以预见，虽然VSLAM系统可能在上述的一个区域中工作得很好，但在其他环境中可能不能显示相同的性能。

Visual Features Processing

如第一节所述，检测视觉特征并利用特征描述符信息进行姿态估计是间接VSLAM方法的一个必然阶段。这些方法采用各种特征提取算法来更好地理解环境，跟踪连续帧中的特征点。特征提取阶段包含了广泛的算法，包括SIFT[46]、SURF[47]、FAST[19]、二进制鲁棒独立基本特征(Binary Robust Independent Elementary Features，BRIEF)[48]、ORB[49]等。其中，与SIFT和SURF[50]相比，ORB特征具有快速提取和匹配的优点，且不损失巨大的精度。

上面提到的一些方法的问题是，它们不能有效地适应各种复杂和不可预见的情况。因此，许多研究人员使用CNN来提取图像的各个阶段的深层特征，包括VO、位姿估计和闭环检测。根据方法的功能，这些技术可以表示有监督或无监督框架。

System Evaluation

虽然一些VSLAM方法，特别是那些能够在动态和具有挑战性的环境中工作的方法在现实条件下的机器人上进行了测试，但许多研究工作已经使用公开的数据集来证明它们的适用性。在这方面，Bonarini等人[51]的RAWSEEDS数据集是一个著名的多传感器基准测试工具，包含室内、室外和混合机器人轨迹与地面真实数据。它是用于机器人和SLAM目的的最古老的公开基准测试工具之一。McCormac等人的Scenenet RGB-D是另一个用于场景理解问题的数据集，如语义分割和目标检测，包含500万张大规模渲染的RGB-D图像。该数据集还包含像素完美的地面真实标签和精确的相机位姿和深度数据，使其成为VSLAM应用程序的有力工具。最近VSLAM和VO领域的许多工作都在TUM RGB-D数据集[53]上测试了他们的方法。上述数据集和基准测试工具包含由Microsoft Kinect传感器和相应的地面传感器轨迹捕获的彩色和深度图像。此外，Nguyen等人[54]的NTU VIRAL是一个由配备3D激光雷达、相机、IMU和多个超宽带(UWB)的UAV收集的数据集。该数据集包含室内和室外实例，用于评估自动驾驶和空中操作性能。

此外，Burri等人[55]的EuRoC MAV是另一个流行的数据集，包含由立体相机捕获的图像，以及同步IMU测量和运动地面实况。在EuRoC MAV中收集的数据根据周围条件分为易、中、难三类。由Shi等人设计的OpenLORIS-Scene[56]是VSLAM作品的另一个公开数据集，包含了由配备各种传感器的轮式机器人收集的广泛数据。它为单目和RGB-D算法提供了适当的数据，以及车轮编码器(wheel encoders)的里程计数据。作为VSLAM应用程序中使用的更通用的数据集，KITTI[57]是受欢迎的数据集合，由移动车辆上的两个高分辨率RGB和灰度视频摄像机捕获。KITTI使用GPS和激光传感器提供精确的地面真实数据，使其成为移动机器人和自动驾驶领域非常受欢迎的数据集。TartanAir[58]是另一个用于在具有挑战性的场景下评估SLAM算法的基准数据集。此外，伦敦帝国理工学院和爱尔兰国立大学Maynooth (ICL-NUIM)[59]数据集是另一个包含手持RGB-D相机序列的VO数据集，它已被用作许多SLAM工作的基准。

与以前的数据集相比，其他一些数据集包含使用特定相机而不是常规相机获得的数据。例如，Mueggler等人[60]介绍的事件相机数据集是一个使用基于事件的相机进行高速机器人评估收集样本的数据集。数据集实例包含惯性测量和运动捕获系统捕获的强度图像，使其成为配备事件相机的VSLAM的合适基准。

根据传感器设置、应用程序和目标环境，上述数据集可用于多种VSLAM方法。这些数据集主要包含摄像机的外部和内部标定参数以及地面真相数据。表1和图3分别总结了数据集的特征和每个数据集的一些实例。

Semantic Level

机器人需要语义信息来理解周围的场景，并做出更有利的决策。在最近的许多VSLAM工作中，在基于几何的数据中添加语义级信息优于纯基于几何的方法，使其能够传递周围环境的概念性知识[61]。在这方面，预先训练的对象识别模块可以向VSLAM模型添加语义信息[62]。最近的一种方法是在VSLAM应用程序中使用CNN。一般来说，语义VSLAM方法包含以下四个主要组件：

Tracking module：

它利用从连续视频帧中提取的二维特征点来估计摄像机的姿态，并构建三维地图点。通过相机位姿的计算和三维地图点的构建，分别建立了定位和映射过程的基线。

Local mapping module：

通过处理两个连续的视频帧，创建一个新的3D地图点，它与BA模块一起用于改进相机姿势。

Loop closing module：

通过将关键帧与提取的视觉特征进行比较，并评估它们之间的相似性，调整摄像机姿态，优化构建的地图。

Non-Rigid Context Culling (NRCC)：

使用NRCC的主要目的是过滤视频帧中的时间对象，以减少它们对定位和映射阶段的不利影响。它主要包含一个屏蔽/分割过程，用于分离帧中的各种不稳定实例，如人。由于NRCC减少了要处理的特征点的数量，因此它简化了计算部分，并产生了更健壮的性能。

因此，在VSLAM方法中利用语义层次可以改善姿态估计和映射重构的不确定性。然而，目前的挑战是如何正确使用提取的语义信息，而不会对计算成本产生巨大影响。

VSLAM APPROACHES BASED ON THE MAIN OBJECTIVES

为了找到能够获得丰富成果并呈现健壮架构的VSLAM方法，我们从谷歌Scholar1和著名的计算机科学书目数据库Scopus2和DBLP3中收集并筛选了近年来在顶级场所发表的被引用率很高的出版物。我们还研究了上述出版物中提到的手稿，并对与VSLAM领域最相关的手稿进行了提纯。在对论文进行了研究之后，我们可以根据收集到的出版物解决某一特定问题的主要目的，将它们分为以下几个小节：

Objective I: Multi-sensor Processing

这个类别涵盖了VSLAM方法的范围，这些方法使用各种传感器来更好地理解环境。有些技术只使用摄像机作为视觉传感器，有些技术则结合各种传感器来提高算法的准确性。

Employing Multiple Cameras：

由于单台摄像机很难重现运动物体的3D轨迹，一些研究人员建议使用多台摄像机来代替。例如，CoSLAM4是由Zou和Tan[63]介绍的VSLAM系统，它使用部署在不同平台上的独立摄像机来重建鲁棒地图。他们的系统结合了在动态环境中独立移动的多个相机，并根据它们的重叠视野重建地图。该过程通过混合相机内部和相机间的姿态估计和映射，使得在3D中重建动态点更容易。CoSLAM使用KanadeLucas-Tomasi (KLT)算法跟踪视觉特征，并在静态和动态环境中运行，包括室内和室外，其中相对位置和方向可能随着时间的推移而变化。这种方法的主要缺点是需要复杂的硬件来解释大量的相机输出，增加更多的相机增加了计算成本。

针对具有挑战性的越野环境，Yang等人[64]开发了一种多摄像机协同全景视觉VSLAM方法。他们的方法使每个相机独立，以增加VSLAM系统在具有挑战性的条件下的性能，如遮挡和纹理稀疏。为了确定匹配范围，他们从摄像机的重叠视场中提取ORB特征。此外，他们采用了基于CNN的深度学习技术来识别类似的特征，用于闭环检测。在实验中，作者使用全景相机和组合导航系统生成的数据集。

MultiCol-SLAM是另一个由Urban和Hinz开发的具有多摄像头配置的开源VSLAM框架[65]。他们使用先前创建的模型MultiCol，利用基于关键帧的过程来增强ORB-SLAM，该过程支持多个鱼眼摄像机。他们在ORB-SLAM中添加了一个多关键帧(MKFs)处理模块，该模块将图像转换为关键帧。作者还提出了多摄像机闭环的思想，从MKFs中检测闭环。尽管他们的方法是实时运行的，但它需要大量的计算机能力，因为必须同时运行多个线程。

Employing Multiple Sensors：

其他一些方法提出融合各种传感器，并使用基于视觉和惯性的传感器输出，以获得更好的性能。在这方面，Zhu等人[66]提出了一种低成本的间接激光雷达辅助VSLAM，称为CamV ox5，并证明了可靠的性能和准确性。他们的方法使用ORB-SLAM 2.0，并将Livox激光雷达作为高级深度传感器的独特功能与RGB-D相机的输出相结合。作者使用一个IMU来同步和校正非重复的扫描位置。他们的贡献是提出了一种在不受控环境下工作的自主激光雷达相机标定方法。在机器人平台上的实际测试表明，CamV ox在处理环境时可以实时执行。

作者在[67]中提出了一个名为VIRAL(视觉-惯性-测距-激光雷达)SLAM的多模态系统，该系统将摄像机、激光雷达、IMU和UWB耦合在一起。他们还提出了一种基于激光雷达点云构建的局部地图的视觉特征地图匹配边缘化方案。利用BRIEF算法对视觉成分进行提取和跟踪。该框架还包含了所使用传感器的同步方案和触发器。他们在模拟环境中测试了他们的方法，并生成了名为NTU VIRAL[54]的数据集，其中包含了由相机、激光雷达、IMU和超宽带传感器捕获的数据。然而，由于要处理同步、多线程和传感器冲突解决，他们的方法计算量很大。

Vidal等人[42]提出在并行配置中集成事件、相机帧和IMU，以实现高速设置下的可靠位置估计。他们的Ultimate SLAM6系统是基于事件摄像机和基于关键帧的非线性优化管道[68]。他们分别使用FAST角点检测器和Lucas-Kanade跟踪算法进行特征检测和跟踪。终极SLAM避免了高速活动带来的运动模糊问题，并在不同光照条件下的动态情况下运行。该技术在“事件相机数据集”上的效率明显高于其他事件相机配置和传统相机配置。作者还在一架配备了事件摄像头的自主四旋翼飞行器上测试了Ultimate SLAM，以展示他们的系统如何管理传统VO平台无法处理的飞行条件。终极SLAM的主要挑战是与标准帧输出的事件同步。

Nguyen等人[69]为VSLAM提出了一种紧密耦合的单眼相机和超宽带(UWB)距离传感器。他们结合使用基于特征(可见)和无特征(UWB)的地标来创建地图。当超宽带在拥挤的环境中暴露于多径效应时，它能有效地工作。他们在ORB- SLAM的基础上建立了间接方法，并利用ORB的特征进行姿态估计。他们在一个生成的数据集上测试了他们的系统，该数据集模拟了一个使用的空中机器人的手部运动。摄像机和超宽带传感器的同步是这种情况下的难点之一，但它已经通过使用一个新的相机姿势和每个新图像的相关时间戳克服了。

Objective II：Pose Estimation

这类方法主要关注如何使用各种算法改进VSLAM方法的姿态估计。

Employing Lines/Points Data：

在这方面，Zhou等人[70]建议将建筑结构线作为确定相机姿态的有用特征。结构线与主要方向相关联，并编码全局方向信息，从而改善预测轨迹。上面提到的StructSLAM方法是一种6自由度(DoF) VSLAM技术，可以在低特征和无特征条件下工作。使用EKF根据场景中当前的方向来估计变量。为了进行评价，使用了来自RAWSEEDS 2009的室内场景数据集和一组生成的序列图像数据集。

点线SLAM (PL-SLAM)7是一种基于ORB-SLAM的针对非动态低纹理设置优化的VSLAM系统，由Pumarola等人[71]提出。该系统同时融合了线和点特征，以改进姿态估计，并有助于在特征点很少的情况下运行。作者在他们生成的数据集和TUM RGB-D上测试了PL-SLAM。他们的方法的缺点是计算成本和使用其他几何图元的本质，如平面，以获得更鲁棒的精度。

Gomez-Ojeda等人[72]提出了PL-SLAM8(不同于Pumarola等人[71]中的同名框架)，这是一种间接的VSLAM技术，利用立体视觉摄像机中的点和线来重建不可见的地图。他们将从所有VSLAM模块中的点和线中获得的片段与从他们的方法中的连续帧中获得的视觉信息合并在一起。利用ORB和线段检测器(LSD)算法，在PL-SLAM的后续立体帧中检索和跟踪点和线段。作者在EuRoC和KITTI数据集上测试了PL-SLAM，在性能方面可以优于ORB-SLAM 2.0的立体版本。PL-SLAM的主要缺点之一是特征跟踪模块所需的计算时间，并考虑所有结构线来提取环境信息。

Lim等人[73]提出了一种用于单目点线VSLAM系统的degeneracy avoidance技术。基于光流的线路跟踪模块提取线路特征，过滤掉每帧中的短线路，并匹配之前识别的线路，这是他们方法的另一个贡献。为了证明他们的技术的有效性，并表明它优于现有的基于点的方法，他们在EuRoC MAV数据集上测试了他们的系统。尽管有很强的发现，但该系统缺乏识别正确优化参数的自适应方法。

Using Extra Features：

Dual Quaternion Visual SLAM (DQV-SLAM)是在[74]中提出的一种用于立体视觉相机的框架，它使用广泛的贝叶斯框架进行六自由度姿态估计。为了防止非线性空间变换群的线性化，他们的方法采用了渐进式贝叶斯更新。对于地图和光流的点云，DQVSLAM使用ORB特征在动态环境中实现可靠的数据关联。在KITTI和EuRoC数据集上，该方法能可靠地估计实验结果。然而，该方法缺乏对姿态随机建模的概率解释，且对基于采样近似的滤波有较高的计算要求。

Munoz-Salinas等人[75]开发了一种使用人工正方形平面标记来重建大规模室内环境地图的技术。如果每个视频帧中至少有两个标记可见，他们的实时SPM-SLAM系统可以使用标记解决姿态估计的模糊性问题。他们创建了一个数据集，将标记的视频序列放置在两个由一扇门连接的房间中进行检查。虽然SPM-SLAM具有成本效益，但它只有在大量平面标记分散在区域周围，且至少有两个可见标记连接识别时才能工作。此外，他们的框架处理场景动态变化的能力没有被衡量。

Deep Learning：

Bruno和Colombini[76]提出了LIFT-SLAM方法，将基于深度学习的特征描述符与传统的基于几何的系统相结合。他们扩展了ORB-SLAM系统的管道，并使用CNN从图像中提取特征，使用学习到的特征提供更密集和更精确的匹配。为了实现检测、描述和方向估计的目的，LIFT- SLAM对学习不变特征变换(LIFT)深度神经网络进行了优化。使用KITTI和EuRoC MAV数据集的室内和室外实例的研究表明，LIFT-SLAM在准确性方面优于传统的基于特征和基于深度学习的VSLAM系统。然而，该方法的缺点是其计算密集的管道和未优化的CNN设计，导致接近实时性能。

Naveed等人[77]提出了一种基于深度学习的VSLAM解决方案，该方案具有可靠且一致的模块，即使在极端转弯的路线上也是如此。他们的方法优于一些VSLAM，并使用了在现实模拟器上训练的深度强化学习网络。此外，它们为主动VSLAM评估提供了一个基线，可以在实际的室内和室外环境中恰当地推广。该网络的路径规划器开发了理想的路径数据，这些数据由其基础系统ORB-SLAM接收。他们制作了一个数据集，其中包含在具有挑战性和无纹理环境下的实际导航片段，用于评估。

作为另一种方法，RWT-SLAM是作者在[78]中针对弱纹理情况提出的基于深度特征匹配的VSLAM框架。他们的方法基于ORB-SLAM，采用增强型LoFTR[79]算法的特征掩码进行局部图像特征匹配。采用CNN架构和LoFTR算法分别提取场景中的粗级描述符和细级描述符。RWT-SLAM在TUM RGB-D和OpenLORIS-Scene数据集以及作者收集的真实世界数据集上进行了检验。然而，尽管他们的系统具有健壮的特征匹配结果和性能，但计算量很大。

Objective III：Real-world Viability

这类方法的主要目标是在各种环境中使用，并在几种场景下工作。我们注意到，本节中的引用与从环境中提取的语义信息高度集成，并呈现了一个端到端VSLAM应用程序。

Dynamic Environments：

在这方面，Y u等人[61]提出了一种名为DS-SLAM9的VSLAM系统，该系统可用于动态上下文，并为地图构建提供语义级信息。该系统基于ORB-SLAM 2.0构建，包含五个线程：跟踪、语义分割、局部映射、闭环和密集语义映射构建。为了在位姿估计过程之前排除动态项目并提高定位精度，DS-SLAM采用了光流算法和一个称为SegNet的实时语义分割网络[80]。DS-SLAM已经在现实环境和RGB-D相机以及TUM RGB-D数据集上进行了测试。然而，尽管其定位精度较高，但存在语义分割的局限性和计算量大的特点。

Semantic Optical Flow SLAM (SOF-SLAM)是建立在ORBSLAM 2.0 RGB-D模式基础上的间接VSLAM系统，是Cui和Ma[45]在高动态环境下提出的另一种方法。他们的方法使用语义光流动态特征检测模块，提取并跳过ORB特征提取提供的语义和几何信息中隐藏的变化特征。为了提供准确的相机姿势和环境报告，SOF-SLAM利用了SegNet的像素级语义分割模块。在动态程度极高的情况下，在TUM RGB-D数据集和现实环境中的实验结果表明，SOF-SLAM的性能优于ORB-SLAM 2.0。然而，SOF-SLAM的弱点是非静态特征识别的无效方法和为此仅依赖两个连续帧。

Cheng等人[81]利用光流方法分离和消除动态特征点，提出了一种用于动态环境的VSLAM系统。他们利用ORB-SLAM管道的结构，为其提供由典型单目相机输出生成的固定特征点，用于精确的姿态估计。该系统通过对光流值进行排序并将其用于特征识别，从而在无特征环境下工作。在TUM RGB-D数据集上的实验结果表明，该系统在动态室内环境下运行良好。然而，该系统的配置使用离线阈值进行运动分析，使其难以在各种动态环境情况下使用。

另一个VSLAM策略由Yang等人发布[82]，该算法使用语义分割网络数据、一种运动一致性检测技术和几何约束重建环境地图。他们的方法基于ORB-SLAM 2.0的RGB-D变体，在动态和室内环境中表现良好。采用改进的ORB特征提取技术，只保留场景中的稳定特征，而忽略动态特征。然后将这些特征和语义数据结合起来创建静态语义映射。对Oxford和TUM RGB-D数据集的评估结果表明，他们的方法在提高定位精度和使用大量数据创建语义地图方面是有效的。然而，他们的系统在走廊或信息较少的地方可能会遇到问题。

Deep Learning-based Solutions：

在Li等人[83]的另一项名为DXSLAM10的工作中，深度学习被用于寻找类似于SuperPoints的关键点，并生成通用描述符和图像关键点。他们训练尖端的深度CNN HF-NET，通过从每一帧提取局部和全局信息，生成基于帧和关键点的描述。他们还使用离线词袋(BoW)方法来训练具有局部特征的视觉词汇，以进行精确的闭环识别。DXSLAM在不使用图形处理器(GPU)的情况下实时运行，并且与现代CPU兼容。即使没有特别处理这些特性，它也具有在动态上下文中抵抗动态变化的强大能力。DXSLAM已经在TUM RGB-D和OpenLORIS-Scene数据集以及室内和室外图像上进行了测试，可以获得比ORBSLAM 2.0和DS-SLAM更精确的结果。然而，这种方法的主要缺点是特征提取的体系结构复杂，并将深层特征合并到旧的SLAM框架中。

在另一种方法中，Li等人[84]开发了一种基于深度学习的实时VSLAM技术，用于在复杂情况下提取特征点。该方法可以运行在GPU上，支持创建3D密集地图，是一个具有自监督功能的多任务CNN特征提取。CNN输出是固定长度为256的二进制码字符串，这使得它可以被更传统的特征点检测器(如ORB)所取代。它包含三个线程，用于在动态场景中实现可靠和及时的性能：跟踪、局部映射和闭环检测。该系统支持单目和RGB-D相机，使用ORBSLAM 2.0作为基线。作者在TUM数据集上测试了他们的方法，并使用Kinect摄像头在走廊和办公室收集了两个数据集进行实验。

Steenbeek和Nex在[85]中提出了一种使用CNN进行精确场景解释和地图重建的实时VSLAM技术。他们的解决方案利用飞行过程中来自UA V的单目摄像机流，并使用深度估计神经网络以获得可靠的性能。该方法基于ORB-SLAM 2.0，利用从室内环境中收集到的视觉线索。此外，CNN还接受了超过48000个室内样本的训练，并操作姿势、空间深度和RGB输入来估计规模和深度。TUM RGB-D数据集和使用无人机进行的真实测试用于评估该系统，表明该系统增强了姿态估计精度。然而，系统在没有纹理的情况下挣扎，需要CPU和GPU资源的实时性能。

Using Artificial Landmarks：

Munoz-Salinas和Medina-Car更好的一种称为UcoSLAM11[86]的技术通过结合自然和人造地标并使用基准标记自动计算周围环境的规模，优于传统的VSLAM系统。UcoSLAM的主要驱动力是对抗自然地标的不稳定性、重复性和糟糕的跟踪质量。它可以在没有标签或特征的环境中操作，因为它可以在仅关键点、仅标记和混合模式下操作。为了定位地图对应关系，优化重投影误差，并在跟踪失败的情况下重新定位，UcoSLAM有一个跟踪模式。此外，它有一个基于标记的闭环检测系统，可以使用任何描述符描述功能，包括ORB和FAST。尽管UcoSLAM有很多优点，但系统在多线程中执行，这是一种耗时的方法。

Wide-range of Setups：

另一种用于动态室内外情况的VSLAM策略是DMS-SLAM[87]，它支持单目、立体和RGB-D视觉传感器。该系统采用滑动窗口和基于网格的运动统计(Grid-based Motion Statistics，GMS)[88]特征匹配方法来查找静态特征位置。DMS-SLAM以ORB-SLAM2.0系统为基础，跟踪ORB算法识别的静态特征。作者在TUM RGB-D和KITTI数据集上测试了他们提出的方法，并优于前沿的VSLAM算法。此外，由于动态对象上的特征点在跟踪步骤中被删除，DMS-SLAM比原始的ORB-SLAM 2.0执行得更快。尽管所描述的好处，建议的解决方案在纹理少、快速运动和高动态环境的情况下遇到困难。

Objective IV：Resource Constraint

在另一个类别中，与其他标准设备相比，一些VSLAM方法是为计算资源有限的设备构建的。例如，为移动设备和带有嵌入式系统的机器人设计的VSLAM系统就包括在这个类别中。

Devices with Limited Processing Capabilities：

在这方面，edgeSLAM是Xu等人[89]提出的一种针对移动和资源受限设备的实时、边缘辅助语义VSLAM系统。它采用一系列细粒度模块供边缘服务器和相关移动设备使用，而不需要重载线程。edgeSLAM还包含了基于Mask-RCNN技术的语义分割模块，以改进分割和对象跟踪。作者将他们的策略付诸实践，在一个边缘服务器上使用几种商业移动设备，如手机和开发板。通过重用对象分割的结果，他们通过调整系统参数以适应不同的网络带宽和延迟情况，避免了重复处理。EdgeSLAM已经在TUM RGB-D、KITTI和创建的实验设置数据集的单目视觉实例上进行了评估。

对于立体相机设置，Schlegel, Colosi和Grisetti[90]建议使用名为ProSLAM12的轻量级基于功能的VSLAM框架，该框架可以达到与尖端技术相当的效果。四个模块组成了他们的方法：三角测量模块，创建3D点和相关的特征描述符；增量运动估计模块，处理两帧以确定当前位置；地图管理模块，用于创建局部地图;以及重新定位模块，它根据局部地图的相似性更新世界地图。ProSLAM使用单个线程检索点的3D位置，并利用少量已知库创建一个简单的系统。在KITTI和EuRoC数据集上的实验表明，该方法能取得较好的鲁棒性。然而，它在旋转估计方面显示出弱点，并且不包含任何束调整模块。

Bavle等人[91]提出了VPS-SLAM 13，一种基于图的轻型空中机器人VSLAM框架。他们的实时系统集成了几何数据、几种目标检测技术和视觉/视觉惯性里程计，用于姿态估计和构建环境的语义地图。VPS-SLAM利用底层特征、IMU测量和高层平面信息重构稀疏语义映射并预测机器人状态。该系统利用在COCO数据集[93]上训练的You Only Look Once v2.0 (YOLO2)[92]的轻量级版本进行对象检测，因为其实时和计算有效的性能。他们使用了一个手持相机设置和一个装有RGB-D相机的空中机器人平台进行测试。TUM RGB-D数据集的室内实例被用于测试他们的方法，他们能够提供与著名的VSLAM方法相同的结果。然而，他们的VSLAM系统只能使用少量的对象(如椅子、书籍和笔记本电脑)来构建周围区域的语义地图。

Tseng等人[94]提出了另一种实时室内VSLAM方法，该方法需要低成本的设置。作者还提出了一种估计帧数和视觉元素所需的合理程度的定位精度的技术。他们的解决方案基于OpenVSLAM[95]框架，并将其用于现实世界中出现的紧急情况，例如获得对特定目标的访问。该系统采用高效透视点(Efficient Perspectiven-Point，EPnP)和RANSAC算法获取场景的特征图，用于精确的姿态估计。根据在一栋建筑中进行的测试，他们的设备可以在恶劣的照明条件下提供准确的结果。

Computation Offloading：

Ben Ali等[96]建议使用边缘计算，将资源密集型操作卸载到云端，减少机器人的计算负担。他们在他们的间接框架Edge- SLAM 14中修改了ORB-SLAM 2.0的架构，通过维护机器人上的跟踪模块，并将剩余的任务委派给边缘。通过分割机器人和边缘设备之间的VSLAM管道，系统可以同时维护局部和全局映射。在可用资源较少的情况下，它们仍然可以在不牺牲准确性的情况下正确执行。他们使用TUM的RGB-D数据集和两个不同的移动设备，使用RGB-D相机生成一个定制的室内环境数据集进行评估。然而，他们的方法的缺点之一是由于各种SLAM模块的解耦而导致的体系结构的复杂性。另一个缺点是他们的系统只能在短期内工作，而在长期情况下(例如，多日)使用Edge-SLAM将面临性能下降。

Objective V：Versatility

VSLAM在这个类别中主要关注直接的开发、利用、改编和扩展。

在这方面，Sumikura等人[95]引入了OpenVSLAM15，这是一个适应性很强的开源VSLAM框架，旨在被其他第三方程序快速开发和调用。他们基于特征的方法与多种相机类型兼容，包括单目、立体和RGB-D，并可以存储或重用重构的地图以供以后使用。由于其强大的ORB特征提取模块，OpenVSLAM在跟踪精度和效率方面优于ORB- SLAM和ORB- SLAM 2.0。但是，由于担心类似的代码侵犯了ORB-SLAM 2.0的权利，该系统的开源代码已经停止。

为了弥补实时能力、准确性和弹性之间的差距，Ferrera等人[97]开发了OV2SLAM16，可与单目和立体视觉相机一起工作。通过限制关键帧的特征提取，并通过消除光测量误差在后续帧中监控它们，他们的方法减少了计算负载。在这个意义上，OV2SLAM是一种混合策略，它结合了VSLAM算法的直接和间接类别的优点。在室内和室外实验中，使用包括EuRoC、KITTI和TartanAir在内的知名基准测试数据集，证明了OV2SLAM在性能和准确性方面超过了几种流行的技术。

Teed和Deng[98]提出了这方面的另一种方法，名为DROID-SLAM17，是一种基于深度学习的视觉SLAM，适用于单目、立体和RGB-D相机。与已知的单目和立体跟踪方法相比，该方法具有更高的精度和鲁棒性。他们的解决方案是实时运行的，由后端(用于束调整)和前端(用于关键帧收集和图形优化)线程组成。DROID-SLAM已经用单目摄像机的例子进行了教学，因此它不需要再次训练来使用立体和RGB-D输入。该方法与间接方法一样，将投影误差最小化，同时不需要对特征识别和匹配进行任何预处理。由下采样层和残差块组成的特征提取网络对每个输入图像进行处理，生成密集的特征。DROID-SLAM已经在TartanAir、EuRoC和TUM RGB-D等知名数据集上进行了测试，可以获得可接受的结果。

Bonetto等人在[99]中提出了iRotate18，一种用于配备RGB-D摄像头的全向机器人的主动技术。此外，在他们的方法中使用了一个模块，用于在摄像机的视野区域内发现障碍物。通过提供对以前未探索过的地方和以前去过的地方的观察范围，iRotate的主要目标是缩短机器人在绘制环境地图时必须走的距离。该方法使用一个VSLAM框架，后端是图形特征。通过在仿真和真实三轮全向机器人上的比较，作者可以获得与前沿VSLAM方法相同的结果。然而，他们的方法的主要缺点是，机器人可能会面临起停情况下，局部路径被重新规划。

Objective VI：Visual Odometry

这类方法旨在以尽可能高的精度确定机器人的位置和方向。

Deep Neural Networks：

在这方面，文献[100]提出了Dynamic-SLAM框架，该框架利用深度学习实现精确的姿态预测和合适的环境理解。作为优化VO的语义级模块的一部分，作者使用CNN来识别环境中的运动目标，这有助于降低由于不恰当的特征匹配带来的姿态估计误差。此外，Dynamic-SLAM使用一个选择性跟踪模块来忽略场景中的动态位置，并在相邻帧中使用一个缺失特征校正算法来实现速度不变性。尽管取得了良好的结果，但该系统需要巨大的计算成本，并且由于定义的语义类数量有限，面临着对动态/静态对象进行错误分类的风险。

Bloesch等人[101]提出了Code-SLAM19直接技术，该技术提供了场景几何图形的浓缩和密集表示。他们的VSLAM系统只与单目相机一起工作，是PTAM[14]的增强版本。他们将强度图像划分为卷积特征，并将它们输入深度自动编码器，使用的是经过SceneNet RGB-D数据集强度图像训练的CNN。EuRoC数据集的室内示例已用于测试Code-SLAM，结果在准确性和性能方面很有希望。

由Wang等人[102]提出的DeepVO20是一种端到端VO框架，使用深度循环卷积神经网络(Deep Recursive Convolutional Neural Network, RCNN)架构进行单目设置。他们的方法使用深度学习自动学习适当的特征，建模顺序动态和关系，并直接从颜色帧推断姿势。DeepVO架构包括一个名为FlowNet的CNN，用于计算连续帧的光流，以及两个Long Short-Term Memory (LSTM)层，用于根据CNN提供的提要估计时间变化。该框架结合CNN和RNN (Recurrent Neural Network，RNN)，可以同时提取视觉特征并进行顺序建模。DeepVO可以将几何图形与学习到的知识模型结合起来，实现增强的VO。然而，它不能取代传统的基于几何的VO方法。

Parisotto等人[103]提出了一种类似DeepVO的端到端系统，使用神经图优化(Neural Graph Optimization，NGO)步骤代替LSTMs。他们的方法是基于时间上不同的姿态操作闭环检测和校正机制。NGO采用两种注意优化方法，联合优化局部位姿估计模块的卷积层聚合预测，实现全局位姿估计。他们在2D和3D迷宫中试验了他们的技术，并超越了DeepVO的性能和准确性水平。上述方法需要连接到SLAM框架以提供重新定位信号。

在另一项工作中，Czarnowski等人[104]介绍了最广泛的VSLAM框架之一DeepFactors21，用于用单目摄像机密集重建环境地图。为了更可靠的地图重建，他们的实时解决方案执行姿态和深度的联合优化，利用概率数据，并结合学习和基于模型的方法。作者修改了CodeSLAM框架，并添加了缺失的组件，如局部/全局循环检测。在对大约140万张ScanNet[105]图像进行训练后，该系统在ICL-NUIM和TUM RGB-D数据集上进行评估。DeepFactors改进了CodeSLAM框架的思想，并专注于传统SLAM管道中的代码优化。但是，由于模块的计算成本，这种方法需要使用GPU来保证实时性。

In-depth Adjacent Frame Processing：

在另一项工作中，通过减少用于相机运动检测的两张照片之间的光度和几何误差，[106]22的作者为RGB-D相机开发了一种实时密集SLAM方法，改进了他们的先验方法[107]。他们基于关键帧的解决方案扩展了Pose SLAM[108]，该方案仅保留非冗余的姿势以生成紧凑的地图，增加了密集的视觉测程特征，并有效利用来自相机帧的信息进行可靠的相机运动估计。作者还使用基于熵的技术来测量关键帧的相似性，用于闭环检测和漂移避免。然而，他们的方法仍然需要在闭环检测和关键帧选择质量方面的工作。

在Li等人[109]介绍的另一项工作中，实时动态对象删除使用基于特征的VSLAM方法，即DP-SLAM。该方法使用贝叶斯概率传播模型，基于从运动物体中得到的关键点的似然性。DP-SLAM利用移动概率传播算法和迭代概率更新，可以克服几何限制和语义数据的变化。它集成了ORB-SLAM 2.0，并已在TUM RGB-D数据集上进行了测试。尽管得到了准确的结果，但由于迭代概率更新模块的存在，该系统只能在稀疏的VSLAM环境下工作，计算成本较高。

Pair Navi是Dong等人[110]提出的一种室内导航系统，其重用一个代理先前跟踪的路径，供其他代理在未来使用。因此，被称为leader的前一个旅行者捕获跟踪信息，如转弯和特定的环境质量，并将其提供给需要前往相同目的地的后一个跟随者。跟随器使用一个重新定位模块来确定它与参考轨迹相关的位置，而引导器集成了视觉里程计和轨迹创建模块。为了从视频特征集中识别和删除动态项，该系统采用了基于掩码区域的CNN (Mask R-CNN)。他们在一组生成的数据集和几部智能手机上测试了Pair-Navi。

Various Feature Processing：

这方面的另一种方法是Li等人[111]提出的基于文本的VSLAM系统TextSLAM。它将使用FAST角检测技术从场景中检索的文本项目合并到SLAM管道中。文本包含各种纹理、模式和语义，使得该方法更有效地使用它们创建高质量的3D文本地图。TextSLAM使用文本作为可靠的视觉基准标记，在找到文本的第一帧之后对其进行参数化，然后将3D文本对象投射到目标图像上再次定位。他们还提出了一种新的三变量参数化技术，用于初始化瞬时文本特征。使用单目相机和作者创建的数据集，在室内和室外环境中进行了实验，结果非常准确。在没有文本的环境中操作、解释短信件和需要大量文本字典的存储是TextSLAM的三个基本挑战。

Xu等人[43]提出了一种间接的VSLAM系统，建立在改进的ORB-SLAM基础上，该系统使用占用网格映射(Occupancy Grid Mapping，OGM)方法和新的2D映射模块实现高精度定位和用户交互。他们的系统可以利用OGM重构环境地图，将障碍物的存在显示为等间距的变量场，使得在规划路线时连续实时导航成为可能。对生成数据集的实验检验显示了它们在GPS拒绝条件下的逼近函数。然而，他们的技术难以在动态和复杂的环境中很好地发挥作用，在走廊和无特征的条件下难以适当地匹配特征。

CPA-SLAM是Ma等人[112]提出的一种RGB-D相机的直接VSLAM方法，利用平面进行跟踪和图形优化。帧到关键帧和帧到平面的对齐规律地集成在他们的技术中。他们还介绍了一种针对参考关键帧跟踪摄像机并将图像与平面对齐的图像对齐算法。CPA-SLAM使用关键帧数据，寻找最近的短时间和地理距离进行跟踪。他们的跟踪系统的实时性能在有平面和无平面设置下进行了测试，并对TUM RGB-D和ICL-NUIM数据集进行了室内和室外场景分析。然而，它只支持少量的几何形状，即平面。

PINPOINTING THE CURRENT TRENDS

Statistics

针对上述调查论文在各个方面的分类，我们将处理后的数据在图4中可视化，以发现VSLAM的当前趋势。在子图“a”中，我们可以看到大多数被提议的VSLAM系统都是独立的应用程序，它们从头开始使用视觉传感器实现定位和映射的整个过程。虽然ORB-SLAM 2.0和ORB-SLAM是用于创建新框架的其他基础平台，但最小的方法是基于其他VSLAM系统，如PTAM和PoseSLAM。此外，就VSLAM应用的目标而言，子图“b”中排名第一的是改进Visual Odometry模块。因此，目前大多数VSLAM都试图解决现有算法在确定机器人位置和方向方面的问题。姿态估计和现实世界可行性是提出新的VSLAM论文的进一步基本目标。关于被调查论文中用于评价的数据集，子图“c”表明，大多数工作都在TUM RGB-D数据集上进行了测试。该数据集在审稿中被用作评价的主要基线或多个基线之一。此外，许多研究人员倾向于在它们生成的数据集上进行实验。我们可以假设生成数据集的主要动机是展示VSLAM方法如何在现实场景中工作，以及它是否可以用作端到端应用程序。EuRoC MAV和KITTI分别是VSLAM工作中比较受欢迎的评价数据集。从子图“d”中提取的另一个有趣的信息是关于使用VSLAM系统时使用语义数据的影响。我们可以看到，大多数评论的论文在处理环境时不包括语义数据。我们假设没有使用语义数据的原因是：

1、训练一个识别对象的模型并利用它进行语义分割的计算成本在许多情况下是相当可观的，这可能会增加处理时间。

2、大多数基于几何的VSLAM作品被设计成即插即用设备，因此它们可以使用相机数据进行定位和测绘，以尽可能少的努力。

3、从场景中提取的不正确的信息也会给过程带来更多的附加噪声。

当考虑到环境时，我们可以在子图“e”中看到，超过一半的方法也可以在具有挑战性条件的动态环境中工作，而其余的系统只关注没有动态变化的环境。此外，在子图“f”中，大多数方法都适用于“室内环境”或“室内和室外环境都适用”，而其余的论文只在室外条件下进行了测试。应该提到的是，只有在限制假设的特定情况下才能起作用的方法，如果在其他情况下使用，可能不会产生同样的准确性。这就是为什么有些方法只专注于某一特定情况的主要原因之一。

Analyzing the Current Trends

当前的调查回顾了最先进的视觉SLAM方法，这些方法吸引了大量的关注，并展示了它们在该领域的主要贡献。尽管在过去的几年里，VSLAM系统的各个模块有了广泛的可靠解决方案和改进，但仍有许多高潜力领域和未解决的问题，这些问题的研究将导致未来SLAM系统的发展有更强大的方法。鉴于视觉SLAM方法的广泛，我们在此提出目前的投资趋势，并介绍以下开放的研究方向：

Deep Learning：

深度神经网络在包括VSLAM[15]在内的各种应用中都显示出令人鼓舞的结果，使其成为多个研究领域的重要趋势。由于它们的学习能力，这些体系结构显示出相当大的潜力，可以作为可靠的特征提取器来解决VO和闭环检测中的不同问题。CNN可以帮助VSLAM进行精确的目标检测和语义分割，并在正确识别手工制作的特征方面优于传统的特征提取和匹配算法。必须指出的是，由于基于深度学习的方法是在数据集上训练的，而数据集的数据种类繁多，对象类别有限，因此总是存在动态点分类错误，导致错误分割的风险。因此，它可能导致较低的分割精度和姿态估计误差。

Information Retrieval and Computational Cost Tradeoff：

一般来说，场景中的处理成本和信息的数量应该始终保持平衡。从这个角度来看，密集的地图允许VSLAM应用程序记录高维的完整场景信息，但实时这样做将需要大量的计算。另一方面，稀疏表示由于其较低的计算成本而无法捕获所有所需的信息。还应该注意的是，实时性能与相机的帧率直接相关，峰值处理时间的帧丢失会对VSLAM系统的性能产生负面影响，而不管算法性能如何。此外，VSLAM通常利用紧密耦合的模块，修改一个模块可能会对其他模块产生不利影响，这使得平衡任务更具挑战性。

Semantic Segmentation：

在创建环境地图的同时提供语义信息可以为机器人带来非常有用的信息。识别相机视野内的物体，如门、窗、人等。语义信息可用于姿态估计、轨迹规划和闭环检测模块，是当前和未来VSLAM工作的一个热门话题。随着对象检测和跟踪算法的广泛使用，语义VSLAM无疑将是该领域未来的解决方案之一。

Loop Closing Algorithms：

任何SLAM系统的关键问题之一是由于累积的定位误差造成的漂移问题和特征轨迹丢失问题。在VSLAM系统中，通过检测漂移和闭环来识别以前访问过的地方会导致较高的计算延迟和成本[89]。主要原因是闭环检测的复杂度随着重构映射的大小而增加。此外，结合从不同地点收集的地图数据并细化估计的姿态是非常复杂的任务。这样，闭环检测模块的优化和平衡就有了巨大的改进潜力。检测环路闭包的常用方法之一是通过训练基于局部特征的视觉词汇表，然后聚合它们来改进图像检索。

Working in Challenging Scenarios：

在无纹理、特征点少的环境中工作，经常导致机器人的位置和方向漂移误差。作为VSLAM的主要挑战之一，这个错误可能会导致系统故障。因此，在基于特征的方法中考虑互补的场景理解方法，如目标检测或线特征，将是一个时髦的话题。

CONCLUSIONS

本文介绍了广泛的SLAM工作，其中从相机收集的视觉数据发挥了重要作用。我们根据VSLAM系统方法的不同特点，如实验环境、新颖性领域、对象检测和跟踪算法、语义级生存能力、性能等，对VSLAM系统的最新工作进行了分类。我们还根据作者的主张、未来的版本改进以及其他相关方法所解决的问题，对作品的重要贡献和存在的不足和挑战进行了回顾。本文的另一个贡献是讨论了VSLAM系统的当前趋势和存在的有待研究的开放问题。

你可能感兴趣的:(SLAM,图像处理)

Python读取红外图像 - 实现红外图像的读取和处理程序员杨弋 Python全栈工程师学习指南 python 计算机视觉 opencv
在许多工业、安防等领域中，红外图像无疑是一种不可或缺的重要资源，因此，能够快速、准确地读取和处理红外图像，对于工程师和科学家来说非常必要。Python作为一种强大的编程语言，提供了丰富的图像处理库，允许我们轻松地读取和处理红外图像，本文将介绍如何使用Python读取红外图像，并对其进行简单的处理。首先需要准备一个目标红外图像文件，这里我们以bmp格式的文件为例：importcv2img=cv2.i
PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines
PL-SLAM文章目录PL-SLAM摘要系统介绍综述方法综述LINE-BASEDSLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD直线检测算法**一、核心原理**⚙️**二、实现方法****三、应用场景**⚖️**四、优缺点与优化****优缺点对比****总结**End摘要译文——众所周知，低纹理场景是依赖点对应的几何计算机视觉算法的主
JAI Core 1.1.3：Java 高级图像处理的利器顾润治
JAICore1.1.3：Java高级图像处理的利器javax.mediajai_core1.1.3如何下载项目地址:https://gitcode.com/Resource-Bundle-Collection/bda8b项目介绍JAICore1.1.3是JavaAdvancedImaging(JAI)库的核心组件，专为处理多媒体数据，特别是图像处理操作而设计。由SunMicrosystems（现
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
前端计算机视觉：使用 OpenCV.js 在浏览器中实现图像处理亿只小灿灿前端 OpenCV 前端计算机视觉 opencv
一、OpenCV.js简介与环境搭建OpenCV（OpenSourceComputerVisionLibrary）是一个强大的计算机视觉库，广泛应用于图像和视频处理领域。传统上，OpenCV主要在后端使用Python或C++等语言。但随着WebAssembly(Wasm)技术的发展，OpenCV也有了JavaScript版本——OpenCV.js，它可以直接在浏览器中高效运行，为前端开发者提供了前
Halcon 初步了解科学的发展-只不过是读大自然写的代码图形编程 c#视觉处理 Halcon
1.Halcon概述Halcon是德国MVTec公司开发的一套完善的机器视觉算法包，也是一款功能强大的视觉处理软件，为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境，提供了一套丰富的图像处理和机器视觉算法，可以在各种工业应用中进行图像分析、目标检测、测量、定位、识别等任务。Halcon的核心功能包括图像处理、特征提取与匹配、3D视觉、深度学习、条码识别、OCR识别以及视觉
Serverless成本优化实战：从资源浪费到精准管控的架构演进知识产权13937636601 计算机 serverless 架构云原生
本文系统解析Serverless架构下的成本构成黑洞，揭示函数计算、存储服务、API网关等模块的资源浪费真相。基于电商、社交、物联网等行业的真实账单数据，深度剖析冷启动损耗、配置冗余、日志存储三大核心成本痛点。结合AWSLambda、阿里云函数计算等平台的最佳实践，给出冷启动优化、智能伸缩策略、存储分层设计等12项关键优化方案，并展望AI预测调度、多云成本博弈等前沿技术方向，为企业节省60%以上的
数字信号处理（DSP）全方位学习指南
本文还有配套的精品资源，点击获取简介：数字信号处理（DSP）是信息技术的关键部分，涉及多种数字信号的分析与处理技术，广泛应用于多个技术领域。本指南深入探索DSP的集成开发环境（IDE），基础概念，以及专业词汇，旨在帮助读者系统掌握DSP原理和实践技能。内容涵盖DSP集成开发环境CCS的使用、基础知识如傅里叶变换与滤波器设计，以及专业术语的学习。此外，还介绍了DSP在音频、图像处理和通信系统中的实际
colour-demosaicing：实现多款CFA去马赛克算法的Python开源包常琚蕙
colour-demosaicing：实现多款CFA去马赛克算法的Python开源包colour-demosaicingCFA(ColourFilterArray)DemosaicingAlgorithmsforPython项目地址:https://gitcode.com/gh_mirrors/co/colour-demosaicing项目介绍在数字图像处理领域，马赛克效应（Mosaicing）是
从摄像头接入到图像处理，TDA4VM带你一次搞定ADAS中控设计空间机器人 ADAS方案精讲图像处理人工智能
一张图全懂TDA4VM汽车感知中枢！从架构到踩坑，干货分析+选型建议写在前面：一块“脑子清醒”的车规芯片，是怎么思考的？别看这张图密密麻麻，其实它就是TI为车载/工业应用打磨多年的“感知-处理-输出”三段式架构，在这块Jacinto7J721ESOM评估板上体现得淋漓尽致：一句话总结：这不是开发板，这是把整个智能汽车的“中控大脑”装进了一个PCB。模块一：中央处理器区域（SOM板核心）=车脑J72
C#图像处理-OpenCVSharp教程(三十五) OpenCVSharp运动物体检测(一) Color Space OpenCVSharp C#OpenCV C#图像处理
本文作者ColorSpace，文章未经作者允许禁止转载！本文将介绍OpenCVSharp运动物体检测(一)代码演示：///图片背景差法检测运动物体MatbgImg=Cv2.ImRead("1.bmp");MatfgImg=Cv2.ImRead("55.bmp");Cv2.ImShow("bg",bgImg);Cv2.ImShow("fg",fgImg);Matgray=newMat();Matgr
AWS Cognito项目实战指南：集成用户管理与自定义电子邮件功能一一MIO一一
本文还有配套的精品资源，点击获取简介：本项目涉及利用AWSCognito服务，创建一个基于云端的用户身份验证和管理应用。通过集成Cognito用户池，项目支持社交登录和自定义用户身份保护，同时涉及通过AWSLambda发送自定义电子邮件通知，增强用户体验。项目采用TypeScript编程语言，提升代码的可维护性和可读性，为开发者提供一个学习AWS无服务器认证解决方案的实践案例。1.AWSCogni
【EI会议征稿】东北大学主办第三届机器视觉、图像处理与影像技术国际会议（MVIPIT 2025）诗远Yolanda 图像处理计算机视觉考研视频机器学习论文阅读
一、会议信息大会官网：www.mvipit.org官方邮箱：[email protected]会议地点：辽宁沈阳主办单位：东北大学会议时间：2025年9月27日-9月29日二、征稿主题集中但不限于“机器视觉、图像处理与影像技术”等其他相关主题。机器视觉：视觉中的统计机器学习；立体视觉标定；几何建模与处理；人脸识别与手势识别；早期视觉和生物学启发的视觉；光流法和运动追踪；图像分割和图像分类；基于模型的视觉
大学专业科普 | 图像处理、智能控制与计算机工程鸭鸭鸭进京赶烤计算机工程
计算机工程专业介绍计算机工程专业是一个非常热门且具有广泛发展前景的领域，它涵盖了计算机硬件、软件以及它们之间的交互等多个方面。以下是对计算机工程专业的详细介绍：专业定义计算机工程专业主要是研究计算机系统的设计、开发、测试和维护。它融合了计算机科学和电子工程的知识，侧重于计算机硬件和软件的协同工作，以及计算机系统在各个领域的应用。课程设置基础课程数学课程物理课程计算机基础课程专业核心课程硬件方向课程
构建私有视觉搜索应用：多模态大模型的应用实例 2301_80727036 自然语言处理
在当今的科技时代，视觉搜索功能已经不再是新鲜事物，许多智能手机用户都可以通过自然语言搜索照片。随着开源多模态大型语言模型（Multi-modalLLMs）的兴起，我们现在可以为自己构建这种视觉搜索应用，用于管理自己的私人照片收藏。本教程将向您展示如何通过代码示例，使用开源多模态LLM构建私有视觉搜索和问答系统。技术背景介绍多模态大模型结合了文本和图像处理能力，使得我们可以开发更智能的应用程序。通过
图像处理100问-中文版(记录) STO检测王学习
https://gitee.com/mengfansheng163/ImageProcessing100Wen
机器人系统导航里程计介绍 Xian-HHappy 机器人机器人人工智能算法里程计
一、引言在移动机器人的研究与应用领域，精准且实时地确定机器人的位置与姿态是实现其自主功能的关键。里程计作为达成这一目标的核心技术之一，在移动机器人的自主导航、路径规划、定位以及地图构建等诸多关键领域扮演着举足轻重的角色。随着机器人技术的持续演进，里程计已蜕变成为移动机器人实现SLAM（同步定位与地图构建）功能的基石。它通过对各类传感器所采集数据的精细计算与处理，运用增量式递推的策略，实时推算出机器
海思Hi3519DV500方案1200万无人机吊舱套板 weixin_Todd_Wong2010 嵌入式硬件 AI 前端边缘计算图像处理
海思Hi3519DV500方案1200万无人机吊舱套板Hi3519DV500是一颗面向行业市场推出的超高清智能网络摄像头SoC。该芯片最高支持四路sensor输入，支持最高4K@30fps的ISP图像处理能力，支持2FWDR、多级降噪、六轴防抖、全景拼接、多光谱融合等多种传统图像增强和处理算法，支持通过AI算法对输入图像进行实时降躁等处理，为用户提供了卓越的图像处理能力，集成了高效的神经网络推理引
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
OpenCV图像噪点消除五大滤波方法慕婉0307 opencv基础 opencv 人工智能计算机视觉
在数字图像处理中，噪点消除是提高图像质量的关键步骤。本文将基于OpenCV库，详细讲解五种经典的图像去噪滤波方法：均值滤波、方框滤波、高斯滤波、中值滤波和双边滤波，并通过丰富的代码示例展示它们的实际应用效果。一、图像噪点与滤波基础1.1常见图像噪声类型高斯噪声：符合正态分布的随机噪声椒盐噪声：随机出现的黑白像素点泊松噪声：光子计数噪声量化噪声：模拟信号数字化过程中产生1.2滤波方法分类滤波类型特点
LSNet: 基于侧向抑制的神经网络碳酸的唐模型养成与叙述有意思的py库神经网络人工智能深度学习
引言在计算机视觉领域，我们一直在寻找灵感来源以提高图像处理和识别的效果。而人类视觉系统作为经过数百万年进化的精密系统，无疑是最好的参考对象之一。今天，我要向大家介绍一个名为LSNet（LateralSuppressionNetwork，侧向抑制网络）的技术，它模拟了人类视觉系统中的侧向抑制机制，为计算机视觉任务带来了新的可能性。什么是侧向抑制？侧向抑制（LateralSuppression），也被
AEPR人像磨皮润肤美容插件的使用指南觉昧
本文还有配套的精品资源，点击获取简介：AEPR人像磨皮润肤美容插件是一款结合AdobeAfterEffects和Photoshop的专业图像处理工具，用于视频和图像后期制作。该插件简化了人像美容过程，提供美白、磨皮和润色功能，帮助用户获得理想的视觉美感。通过使用该插件，用户能够轻松改善肤色和皮肤质地，而高斯模糊、斑点修复和色彩平衡调整等技术则保证了皮肤质感的自然与细腻。为了实现最佳效果，用户需要遵
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
车牌号识别Delphi演示程序：轻松实现车牌识别技术瞿巧群Justin
车牌号识别Delphi演示程序：轻松实现车牌识别技术去发现同类优质开源项目:https://gitcode.com/项目介绍在智能交通系统领域，车牌号识别是一项至关重要的技术。今天，我们要介绍的是一个基于Delphi语言开发的车牌号识别演示程序。该程序能够高效识别并处理车牌号码，为交通监控、停车场管理等领域提供了极大的便利。项目技术分析本项目基于Delphi环境开发，利用先进的图像处理技术，实现了
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
AWS Lambda与RDS连接优化之旅 t0_54manong 编程问题解决手册 aws 云计算个人开发
在云计算的时代，AWSLambda与RDS的结合为开发者提供了高效且灵活的解决方案。然而，在实际应用中，我们常常会遇到一些性能瓶颈。本文将通过一个真实案例，探讨如何优化AWSLambda与RDS之间的连接，以提高API的响应速度。背景介绍最近，我们在AWS上部署了一个使用Dotnet6开发的API，它通过APIGateway暴露给外部，并连接到同VPC内的MySQLAuroraRDS数据库。部署前
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end