尤齐

论文粗翻《视觉SLAM综述：从传统到语义》（An Overview on Visual SLAM: From Tradition to Semantic）

2022

摘要

视觉SLAM（VSLAM）由于其传感器成本低、易于与其他传感器融合、环境信息更丰富等优势而得到迅速发展。传统的基于视觉的 SLAM 研究取得了许多成就，但在具有挑战性的环境中可能无法取得预期的结果。深度学习推动了计算机视觉的发展，深度学习与SLAM的结合越来越受到关注。语义信息作为高级环境信息，可以使机器人更好地了解周围环境。本文从传统VSLAM和语义VSLAM结合深度学习两个方面介绍了VSLAM技术的发展。对于传统的VSLAM，我们详细总结了间接和直接方法的优缺点，并给出了一些经典的VSLAM开源算法。此外，我们专注于基于深度学习的语义 VSLAM 的开发。从典型的神经网络 CNN 和 RNN 开始，我们详细总结了 VSLAM 系统的神经网络改进。之后，我们重点介绍目标检测和语义分割对 VSLAM 语义信息引入的帮助。我们相信，未来智能时代的发展离不开语义技术的助力。将深度学习引入VSLAM系统提供语义信息，可以帮助机器人更好地感知周围环境，为人们提供更高层次的帮助。

关键词：SLAM，深度学习，神经网络，计算机视觉，语义，智能时代。

1. Introduction

人们需要移动机器人自己完成一些任务，这就需要机器人能够适应陌生的环境。因此，能够在陌生环境中进行定位和建图的 SLAM [1]（同时定位和建图）已成为自主移动机器人的必备能力。自 1986 年首次提出以来，SLAM 受到了众多研究人员的广泛关注，并在机器人、虚拟现实等领域迅速发展。 SLAM是指基于位置和地图的自定位，基于自定位构建增量地图。主要用于解决机器人在未知环境中移动时的定位和地图构建问题[2]。 SLAM作为一项基础技术，早期已应用于移动机器人定位导航。随着计算机技术（硬件）和人工智能（软件）的发展，机器人研究受到越来越多的关注和投入。许多研究人员致力于使机器人更加智能。 SLAM被认为是促进移动机器人真正自主的关键[3]。

有学者根据采用的传感器不同，将 SLAM 分为激光 SLAM 和视觉 SLAM（VSLAM）[4]。与VSLAM相比，由于起步较早，国外的激光SLAM研究相对成熟，长期以来一直被认为是移动机器人的首选方案。与人眼类似，VSLAM 主要以图像作为环境感知的信息源，比激光 SLAM 更符合人类的理解，信息量更多。近年来，基于相机的 VSLAM 研究引起了研究人员的广泛关注。由于价格便宜、易于安装、环境信息丰富、易于与其他传感器融合等优点，出现了许多基于视觉的 SLAM 算法[5]。 VSLAM 具有环境信息更丰富的优势，被认为能够赋予移动机器人更强的感知能力，并应用于一些特定场景。因此，本文将重点放在 VSLAM 上，并梳理出由此衍生的算法。基于各种激光雷达的SLAM不在本文讨论范围内。有兴趣的读者可以参考文献[6,7,8]等来源。

作为自主机器人导航的解决方案之一，传统的VSLAM本质上是基于图像几何特征的简单环境理解[9]。因为传统的 VSLAM 只利用环境的几何特征，如点、线等。面对这种低层次的几何信息环境，传统的VSLAM可以达到高度的实时性。面对光照、纹理和动态物体等普遍的变化，传统的VSLAM显示出明显的不足，在位置精度和鲁棒性方面存在缺陷[10]。虽然传统视觉SLAM构建的地图包含了环境中的重要信息，在一定程度上满足了机器人的定位需求，但不足以支持机器人的自主导航和避障任务。此外，它不能满足智能机器人与环境和人类的交互需求[11]。

人们对智能移动机器人的需求与日俱增，对机器人的自主能力和人机交互能力提出了很高的要求[12]。传统的 VSLAM 算法可以满足机器人的基本定位导航需求，但无法完成“帮我关卧室门”、“去厨房给我拿苹果”等更高级的任务。这样的目标，机器人需要识别场景中物体的信息，找出它们的位置并构建语义图。借助语义信息，将数据关联从传统的像素级升级到对象级。此外，感知几何环境信息被赋予语义标签以获得高级语义图。它可以帮助机器人理解自主环境和人机交互[13]。我们认为，深度学习的快速发展为将语义信息引入 VSLAM 提供了桥梁。尤其是在语义图构建中，将其与 VLAM 相结合，可以使机器人获得对场景的高级感知和理解。它显着提高了机器人与环境之间的交互能力[14]。

2016 年，Cadena 等人 [15]首先提出将SLAM的发展分为三个阶段。在他们的描述中，我们处于鲁棒感知阶段，如图1所示。他们从经典、算法和鲁棒三个方面描述了SLAM在不同时期的重点和贡献。参考 [16] 总结了 2010 年到 2016 年基于视觉的 SLAM 算法的发展，并提供了一个工具包来帮助初学者。优素福等人 [17] 讨论了 VSLAM 的基本框架，并总结了几个数学问题，以帮助读者做出最佳选择。巴夫勒等人 [18]总结了机器人SLAM技术，指出了机器人场景理解的发展趋势。

Servieres 等人从视觉和视觉惯性的融合出发 [19]回顾和比较了重要的方法，总结了SLAM中出现的优秀算法。阿扎姆等人 [20]对基于特征的方法进行了全面研究。他们根据在环境中观察到的视觉特征对所审查的方法进行了分类。此外，他们还提出了未来SLAM发展可能遇到的问题和解决方案。参考。 [21]详细介绍了基于单目、双目、RGB-D和视觉-惯性融合的SLAM方法，并给出了存在的问题和未来的方向。参考[22]描述了VSLAM从几何到深度学习的机遇和挑战，并预测了VSLAM在未来语义时代的发展前景。图 1. SLAM 发展时代概览。 SLAM 的发展经历了三个主要阶段：理论框架、算法分析和高级鲁棒感知。时间点没有严格限制，只是代表了SLAM在一定阶段的发展和人们感兴趣的热点问题。

如您所见，有一些基于视觉的 SLAM 技术的调查和总结。但大多只关注 VSLAM 的一个方面，没有更全面地总结 VSLAM 的发展历程。此外，上述评论更多地关注传统的视觉SLAM算法，而语义SLAM结合深度学习没有详细介绍。因此，有必要对基于视觉的 SLAM 算法进行全面回顾，以帮助研究人员和学生在视觉 SLAM 技术方面展开努力，以了解这一大领域的概况。

为了让读者对 SLAM 领域有更深入、更全面的了解，我们回顾了通用 SLAM 算法从诞生到现在的历史。此外，我们总结了推动 SLAM 解决方案技术演进的关键解决方案。 SLAM的工作从点问题的形成到最常用的状态方法进行了描述。我们不仅仅关注一个方面，而是提出了关键的主要方法来展示将 SLAM 方法带到当前状态的研究之间的联系。此外，我们回顾了 SLAM 从传统到语义的演变，这一视角涵盖了历史上主要的、有趣的和领先的设计方法。在此基础上，我们对深度学习 SLAM 算法进行了全面总结。语义 VSLAM 也进行了详细的解释，以帮助读者更好地理解语义 VSLAM 的特点。我们认为我们的工作可以帮助读者更好地理解机器人环境感知。我们在语义 VSLAM 方面的工作可以为读者提供更好的思路，并为未来的 SLAM 研究甚至机器人自主感知提供有用的参考。因此，本文对基于视觉的 SLAM 技术的发展进行了全面的补充和更新。此外，本文将基于视觉的 SLAM 的发展分为两个阶段：传统 VSLAM 和集成深度学习的语义 VSLAM。让读者更好地了解VSLAM的研究热点，把握VSLAM的发展方向。我们认为传统的相位 SLAM 问题主要解决算法的框架问题。在语义时代，SLAM 侧重于结合深度学习的高级态势感知和系统鲁棒性。

我们的审查对最先进的技术做出了以下贡献：

我们更全面地回顾了基于视觉的 SLAM 的发展，回顾了基于环境语义信息的同步定位和地图构建领域的最新研究进展。
从卷积神经网络（CNN）和循环神经网络（RNN）开始，我们详细描述了深度学习在 VSLAM 中的应用。据我们所知，这是第一次从神经网络的角度介绍 VSLAM。
我们详细描述了语义信息与VSLAM的结合，并指出了VSLAM在语义时代的发展方向。我们主要介绍和总结了语义信息与传统视觉SLAM在系统定位和地图构建方面的突出研究成果，并对传统视觉SLAM和语义SLAM进行了深入比较。最后，提出了语义SLAM未来的研究方向。

具体来说，在第一节中，本文详细介绍了传统 VSLAM 的特点，包括直接法和基于前端视觉里程计的间接法，并对基于深度相机的 VSLAM 与集成IMU的经典 VSLAM 进行了比较。在第 2 节中，本文分为两部分。我们首先从两个神经网络 CNN 和 RNN 中介绍深度学习和 VSLAM 的结合。我们认为，将深度学习引入语义 VSLAM 是语义 VSLAM 发展的前提。此外，这个阶段也可以看作是语义 VSLAM 的开始。然后，本文从目标检测和语义分割两个方面描述了深度学习将语义 VSLAM 推向高级阶段的过程。所以本文从动态对象的定位、映射和消除三个方面总结了语义VSLAM的发展方向。在第 3 节中，本文介绍了一些主流的 SLAM 数据集，以及该领域的一些优秀实验室。最后，我们总结了当前的研究，并指出了未来VSLAM研究的方向。本文的章节目录如图 2 所示。

图 2. 本文其余部分的结构图。本文重点介绍第二章的语义VSLAM。我们认为引入神经网络是语义 VSLAM 的开始。我们从一个深度神经网络入手，描述了它与VSLAM的结合，然后从基于深度学习的目标检测和语义分割等方面对现代语义VSLAM进行了详细的解释，并进行了总结和展望。

2. SLAM发展现状

2.1. VSLAM中常用的传感器

VSLAM 中使用的传感器通常包括单目相机、立体相机和 RGB-D 相机。单目摄像头和立体摄像头的原理相似，可以广泛应用于室内外环境。 RGB-D相机作为一种特殊形式的相机，主要通过主动发射红外结构光或计算飞行时间（TOF）来直接获取图像深度。使用方便，但对光敏感，大多数情况下只能在室内使用[23]。活动摄像头作为近几年出现的一种新型摄像头传感器，一张有别于传统摄像头的照片。事件相机就是“事件”，可以简单到“像素亮度变化”。事件相机输出的变化是像素亮度，基于事件相机的SLAM算法仍仅处于初步研究阶段[24]。此外，作为基于视觉的经典SLAM系统，视觉-惯性融合在很多方面都取得了优异的成绩。在图 3 中，我们比较了不同相机的主要特征。

图 3. 不同相机之间的比较。事件相机不是特定类型的相机，而是可以获取“事件信息”的相机。 “传统相机”工作频率恒定，在拍摄高速物体时存在滞后、模糊、曝光过度等天然缺陷。然而，事件相机，一种类似于人眼的基于神经的信息处理方法，没有这些问题。

2.2. 评估工具和数据集

SLAM 问题已经存在了几十年。在过去的几十年里，涌现了许多优秀的算法，尽管侧重点不同，但每种算法都不同程度地促进了 SLAM 技术的快速发展。每个算法都必须进行公平比较。一般来说，我们可以从耗时、复杂度和准确性等多个角度来评估一个 SLAM 算法。然而，最重要的是我们最关注它的准确性。 ATE（Absolute Trajectory Error）和RPE（Relative Pose Error）是用来评估SLAM准确性的两个最重要的指标。相对位姿误差用于计算相同两个时间戳中位姿变化的差异，适用于估计系统漂移。绝对轨迹误差直接计算相机位姿的真实值与SLAM系统的估计值之间的差异。 ATE和RPE的基本原理如下。

假设：给定的姿态估计是Δ。下标代表时间t（或帧），这里假设估计姿态和真实姿态的每一帧的时间是对齐的，总帧数相同。

ATE：绝对轨迹误差是估计位姿与真实位姿的直接差异，可以直接反映算法的准确性和全局轨迹的一致性。需要注意的是，估计的pose和ground truth通常不在同一个坐标系，所以我们需要先对它们进行配对：对于stereo SLAM和RGB-D SLAM，尺度是统一的，所以我们需要计算一个变换矩阵通过最小二乘法 S ∈ SE (3) 从估计姿态到真实姿态。对于具有尺度不确定性的单目相机，我们需要计算从估计位姿到真实位姿的相似变换矩阵 S∈ Sim (3)。所以帧 i 的 ATE 定义如下：=

4. 语义VSLAM

语义 SLAM 是指一种 SLAM 系统，它不仅可以获取未知环境的几何信息和机器人运动信息，还可以检测和识别场景中的目标。它可以获得语义信息，例如它们的功能属性和与周围物体的关系，甚至可以理解整个环境的内容[134]。传统的 VSLAM 以点云等形式表示环境，对我们来说是一堆毫无意义的点。为了从几何和内容层面感知世界并为人类提供更好的服务，机器人需要进一步抽象这些点的特征并理解它们[135]。随着深度学习的发展，研究人员逐渐意识到它可能有助于解决 SLAM 问题 [136]。语义信息可以帮助 SLAM 在更高层次上理解地图。此外，它减少了 SLAM 系统对特征点的依赖，提高了系统的鲁棒性 [137]。

现代语义VSLAM系统离不开深度学习的帮助，通过学习获得的特征属性和关联关系可以用于不同的任务[138]。作为机器学习的一个重要分支，深度学习在图像识别[139]、语义理解[140]、图像匹配[141]、3D重建[142]等任务中取得了显著成果。深度学习在计算机视觉中的应用可以极大地缓解传统方法遇到的问题[143]。传统的 VSLAM 系统在许多方面都取得了可喜的成绩，但仍有许多具有挑战性的问题需要解决 [144]。参考[145]详细总结了基于深度学习的VSLAM，并指出了传统VSLAM存在的问题。这些工作 [146,147,148,149] 建议应该使用深度学习来替代传统 SLAM 的一些模块，例如闭环和姿态估计，以改进传统方法。

机器学习是人工智能的一个子集，它使用统计技术提供从计算机“学习”数据的能力，而无需复杂的编程。与特定于任务的算法不同，深度学习是基于学习数据的机器学习的一个子集。它的灵感来自于所谓的人工神经网络的功能和结构。深度学习通过学习将世界显示为更简单的概念和层次结构，并根据不太抽象的概念计算更抽象的表示，从而获得了极大的灵活性和能力。传统机器学习和深度学习最重要的区别在于数据扩展的性能。当数据非常小时，深度学习算法就不能很好地工作，因为它们需要大数据来完美地识别和理解它。机器学习算法的性能取决于识别和提取特征的准确性。另一方面，深度学习算法从数据中识别这些高级特征，从而减少为每个问题开发全新特征提取器的工作量。深度学习是机器学习的一个子集，与传统的机器学习算法相比，它已被证明是行业中一个更强大、更有前途的分支。它以其分层的特性实现了许多传统机器学习无法实现的功能。 SLAM 系统需要收集环境中的大量信息，因此需要计算的数据量非常巨大，而深度学习模型正好适合解决这个问题。

本文认为语义 VSLAM 是一个不断发展的过程。早期，一些研究人员试图通过使用 CNN 等神经网络提取环境中的语义信息来提高 VSLAM 的性能。在现代阶段，目标检测、语义分割等深度学习方法是推动语义 VSLAM 发展的有力工具。因此，在本章中，我们将首先描述典型神经网络在 VSLAM 中的应用。我们认为这是现代语义 VSLAM 发展的前提。神经网络在 VSLAM 中的应用为现代语义 VSLAM 提供了模型。本文认为，神经网络是将语义信息引入现代语义VSLAM系统并获得快速发展的桥梁。

4.1.带VSLAM的神经网络

图13显示了CNN和RNN的典型框架。CNN可以从图像中捕捉空间特征，这有助于我们准确识别对象及其与图像中其他对象的关系[150]。RNN的特点是它可以处理图像或数字数据。由于网络本身的内存容量，它可以学习具有上下文相关性的数据类型[151]。此外，其他类型的神经网络，如DNN（深度神经网络）也有一些尝试性工作，但仍处于初始阶段。本文指出，CNN具有以下优点：使用特定模型提取事物的特征，然后根据特征进行分类、识别、预测或决策。它可以帮助VSLAM的不同模块。此外，本文认为RNN在帮助建立相邻帧之间的一致性方面具有很大优势。此外，高级特征具有更好的区分，这可以帮助机器人更好地完成数据关联。

图13.CNN和RNN的结构框图。CNN适用于从分层或空间数据中提取未标记特征。RNN适用于时间数据和其他类型的顺序数据。

.1.1.CNN与VSLAM

传统帧间估计方法采用基于特征的方法或直接方法，通过多视图几何识别摄像机姿态[152]。基于特征的方法需要复杂的特征提取和匹配。直接方法依赖于像素强度值，这使得传统方法难以在强照明或稀疏纹理等环境中获得期望的结果[153]。相比之下，基于深度学习的方法更直观和简洁。这是因为它们不需要提取环境特征、特征匹配和复杂的几何操作[154]。由于CNN的特征检测层通过训练数据学习，它避免了显示中的特征提取，并在使用过程中从训练数据隐式学习。参考文献。[155156]和其他工作做了详细总结

CNN在图像处理方面的优势已得到充分验证。例如，视觉深度估计改善了单目摄像机无法获得可靠深度信息的问题[157]。2017年，Tateno等人[158]提出了一种实时SLAM系统“CNN-SLAM”“基于LSD-SLAM框架中的CNN。如图14所示，该算法通过训练深度估计网络模型获得了可靠的深度图。CNN用于深度预测，并将其输入到后续模块，如传统的姿态估计，以提高定位和映射精度。此外，该框架中添加了CNN语义分割模块，该模块提供了IDE有助于VSLAM系统的高级信息感知。使用网络来估计深度信息的类似工作包括基于立体相机的代码SLAM[42]和DVSO[159]。同年，Godard等人[160]提出了一种无监督图像深度估计方案。通过使用立体数据集改进无监督学习，然后使用单个帧进行姿态估计，这与其他方案相比有很大的改进。

CNN不仅解决了传统方法无法使用单目摄像机获得可靠深度数据的问题，而且改善了传统方法在摄像机姿态估计中的缺陷。2020年，Yang等人[48]提出了D3VO。该方法从深度估计、姿态估计和不确定性估计三个方面进行深度学习。预测深度、姿态和不确定性紧密结合到直接视觉里程表中，以同时提高前端跟踪和后端非线性优化的性能。然而，自监督方法难以适应所有环境。此外，Qin等人[161]在2020年提出了一种基于语义特征的遥感器,有效解决了传统视觉SLAM方法容易跟踪丢失的问题。其原理是使用CNN在狭窄拥挤的地下停车场环境中检测语义特征，缺少GPS信号，光线暗淡，纹理稀疏。然后使用U-Net[162]进行语义分割，以分离停车线、减速带和地面上的其他指示器，然后使用里程表信息。语义特征被映射到全局坐标系以构建停车场地图。然后将语义特征与先前构建的地图匹配以定位车辆。最后，EKF用于整合视觉定位结果和里程表信息，以确保系统在地下停车环境中获得连续稳定的定位结果。Zhu等人[163]通过使用CNN学习旋转和平移，专注于光流输入的不同象限。然而，取代视觉里程表的端到端方法简单且粗糙，但没有理论支持和推广能力

图14.CNN-SLAM的结构。

环路闭合检测可以消除累积轨迹误差和地图误差，并确定整个系统的精度，这本质上是一个场景识别问题[164]。传统方法通过人工设计的稀疏特征或像素级密集特征进行匹配。深度学习可以通过神经网络学习图像中的高级特征。此外，利用深度学习的强大识别能力提取图像的更高层次鲁棒特征，其识别率可以达到更高的水平。这样，系统可以对图像变化（如透视和照明）具有更强的适应性，并提高闭环图像识别能力[165]。因此，基于深度学习的场景识别可以提高闭环检测的精度，而CNN对于闭环检测也取得了许多可靠的效果。Memon等人[166]提出了一种基于词典的深度学习方法，该方法不同于传统的Bow词典，使用更高层次和更抽象的深度学习特征。该方法不需要创建词汇表，具有更高的内存效率，并且比类似方法具有更快的运行速度。然而，本文仅基于相似度评分检测周期，因此不具有广泛的代表性。Li等人[167]提出了一种基于学习特征的视觉SLAM系统，称为DXSLAM，解决了上述方法的局限性。使用CNN从每个帧中提取局部和全局特征，然后将这些特征输入现代SLAM管道，用于姿态跟踪、局部映射和重新定位。与传统的基于BOW的方法相比，它具有更高的效率和更低的计算成本。此外，秦等人[168]使用CNN提取环境语义信息，并将视觉场景建模为语义子图。利用语义信息可以有效地提高环回检测的效率。参考文献。[169170]等详细描述了深度学习在许多方面的成就。然而，随着更复杂、更好模型的引入，如何保证模型计算的实时性？如何在资源受限的平台上更好地设置环内闭包检测模型，以及模型的轻量级也是一个主要问题[171]。

CNN在取代传统VSLAM算法的一些模块（如深度估计和环路闭合检测）方面取得了良好的效果。其稳定性仍然不如传统的VSLAM算法[172]。相比之下，CNN系统的语义信息提取带来了更好的效果。利用CNN对传统VSLAM的过程进行优化，以提取具有更高层次特征的环境的语义信息，使传统的VSLAM获得更好的结果。使用神经网络提取语义信息并将其与VSLAM相结合将是一个非常感兴趣的领域。在语义信息的帮助下，数据关联从传统的像素级升级到对象级。感知几何环境信息被分配语义标签以获得高级语义地图。它可以帮助机器人理解自主环境和人机交互。表8显示了VSLAM中CNN网络的一些主要应用链接。有些涉及许多方面，这里仅列出主要贡献。

4.1.2.带VSLAM的RNN

RNN（递归神经网络）的研究始于20世纪80年代和90年代，并在21世纪初发展成为经典的深度学习算法之一。长期短期记忆网络（LSTM）是最常见的递归神经网络之一[178]。LSTM是RNN的一种变体，它记忆可控量的先前训练数据或更正确地忘记它[179]。如图15所示，给出了LSTM的结构及其不同模块的状态方程。具有特殊隐式单元的LSTM可以长时间保存输入。LSTM继承了RNN模型的大部分特征，并解决了遥感器逐渐减少导致的梯度反向传输过程消失问题。作为RNN的另一种变体，GRU（门控递归单元）更易于训练，并可提高训练效率[180]。神经网络由于具有记忆性和参数共享性，在学习序列的非线性特征方面具有一定的优势。通过引入卷积神经网络CNN构建的RNN可以处理涉及序列输入的计算机视觉问题[181]。

在姿态估计中，引入端到端深度学习方法来求解视觉图像帧间的姿态参数，而无需特征匹配和复杂的几何操作。它可以通过直接输入附近的帧快速获得帧之间的相对姿态参数[182]。Xue等人[183]使用深度学习来学习特征选择过程，并实现基于RNN的姿态估计。在姿态估计中，旋转和位移分别训练，与传统方法相比具有更好的适应性。2021，Teed等人[184]引入了DROID-SLAM，其核心是一个可学习的更新算子。如图16所示，更新算子是一个隐藏状态为H的3×3卷积GRU。更新算子的迭代应用创建了一系列姿态和深度，这些姿态和深度收敛到反映真实重建的固定点。该算法是一种用于视觉SLAM的端到端神经网络体系结构，在具有挑战性的环境中比以前的工作具有很大的优势。

现有的方法大多采用CNN和RNN相结合来提高VSLAM的整体性能。CNN和RNN可以使用单独的层进行组合，CNN的输出作为RNN的输入。一方面，它可以通过CNN自动学习VO问题的有效特征表示。另一方面，它可以通过RNN隐式地建模时序模型（运动模型）和数据关联模型（图像序列）[185]。2017年，Yu等人[60]将RNN与KinectFusion相结合，对RGB-D采集的图像进行语义标注，以重建3D语义图。他们在RNN中引入了一个新的闭环单元，以解决GPU计算资源消耗问题。该方法充分利用了RNN的优点，实现了语义信息的标注。高级特征具有更好的辨别能力，帮助机器人更好地完成数据关联。由于使用RGB-D摄像机，它们只能在室内环境中运行。DeepSeqSLAM[186]很好地解决了这个问题。在该方案中，可训练的CNN+RNN架构用于从单个单目图像序列联合学习视觉和位置表示。RNN用于整合短图像序列上的时间信息。同时，利用这些网络的动态信息处理功能，首次实现了端到端位置和序列位置学习。此外，能够从大驱动数据集的单个图像序列中学习有意义的时间关系。在运行时间、精度和计算需求方面，基于序列的方法明显优于传统方法，并且可以在室外环境中稳定运行。

CNN可以与VLSAM的许多环节相结合，如特征提取和匹配、深度估计和姿态估计，并在这些方面取得了良好的效果。相比之下，RNN的应用范围较小，但在帮助建立相邻帧之间的一致性方面具有很大优势。RNN是深度学习中数据驱动时序建模的常用方法。惯性测量单元输出的高帧速率角速度和加速度等惯性数据对时序有严格的依赖性，特别适用于RNN模型。基于此，Clark等人[175]提出使用传统的小型LSTM网络来处理IMU的原始数据，并获得IMU数据下的运动特性。最后，他们将视觉运动特征与IMU运动特征相结合，并将其发送到核心LSTM网络，用于特征融合和姿态估计。其原理如图17所示。

与姿态估计相比，我们认为RNN对视觉惯性数据融合的贡献更具吸引力。该方法能有效地融合视觉惯性数据，比传统方法更方便。类似的工作，如[187188]，证明了融合策略的有效性，与直接融合相比，融合策略提供了更好的性能。本文在表9中给出了RNN对部分VSLAM的贡献。

本节介绍了深度学习和传统VSLAM与经典神经网络CNN和RNN的结合。表10显示了将神经网络与VSLAM相结合的一些优秀算法。

4.2.现代语义VSLAM

深度学习在姿态估计、深度估计和闭环检测方面取得了许多成就。然而，在VSLAM中，深度学习目前无法撼动传统方法的主导地位。然而，将深度学习应用于语义VSLAM研究可以获得更多有价值的发现，这可以快速促进语义VSLAM的发展。参考文献。[60158168]使用CNN或RNN提取环境中的语义信息，以提高传统VSLAM中不同模块的性能。语义信息用于姿态估计和回环检测。它显著提高了传统方法的性能，并证明了语义信息在VSLAM系统中的有效性。本文认为，这为现代语义VSLAM的发展提供了技术支持，是现代语义VSLA的开端。使用目标检测和语义分割等深度学习方法创建语义地图，这是语义SLAM发展的重要代表时期。参考文献。[135200]指出，根据不同的目标检测方法，语义SLAM可分为两种类型。一种是使用传统方法检测目标。实时单目对象SLAM是最常见的一种，使用大量的二进制字和对象模型数据库来提供实时检测。然而，它非常有限，因为语义类有很多类型的3D对象实体，例如“汽车”。“SLAM的另一种方法是使用深度学习方法（如[46]中提出的方法）进行对象识别。

语义和SLAM似乎是独立的模块，但实际上并非如此。在许多应用中，两者是并行不悖的。一方面，语义信息可以帮助SLAM提高映射和定位的准确性，特别是对于复杂的动态场景[201]传统SLAM的映射和定位大多基于像素级几何匹配。通过语义信息，我们可以将数据关联从传统像素级升级到对象级，提高复杂场景的准确性[202]。另一方面，通过使用SLAM技术计算对象之间的位置约束，一致性约束可以应用于同一对象在不同角度和不同时间的识别结果，从而提高语义理解的准确性。语义和SLAM的集成不仅大大有助于提高两者的准确性，还促进了SLAM在机器人技术中的应用，如机器人路径规划和导航、根据人类指令搬运物体、做家务以及伴随人类运动等。

例如，我们希望机器人从卧室走到厨房去拿苹果。这是如何工作的？依靠传统的SLAM，机器人计算其位置（自动）和苹果的位置（手动），然后进行路径规划和导航。如果苹果在冰箱中，还需要手动设置冰箱和苹果之间的关系。然而，现在有了我们的语义SLAM技术，人类发送机器人“请去厨房给我一个苹果”就更自然了，机器人会自动完成剩下的工作。如果在操作过程中机器人前面有污染的地面，传统的路径规划算法需要手动标记污染区域，以便机器人可以绕过它[203]。

语义信息可以帮助机器人更好地理解周围环境。将语义信息集成到VSLAM是近年来受到越来越多关注的一个新兴领域。本文将从定位、映射和动态对象移除两个方面阐述我们对语义VSLAM的理解。我们相信深度学习对VSLAM的最大贡献是语义信息的引入。它可以在不同程度上提高传统方法的不同模块的性能。特别是在语义地图的构建方面，推动了整个智能机器人领域的创新。

4.2.1.图像信息提取

现代语义VSLAM与传统VSLAM的核心区别在于对象检测模块的集成。它可以获得环境中对象的属性和语义信息[204]。语义VSLAM的第一步是从摄像机获得的图像中提取语义信息。此外，基于图像信息的语义信息可以通过对图像信息进行分类来实现[205]。传统的目标检测依赖于可解释的机器学习分类器，如决策树和支持向量机来分类和实现目标特征。然而，检测过程缓慢，精度低，泛化能力弱[206]。基于深度学习的图像分类可分为对象检测、语义分割和实例分割，如图18所示。

如何更好地从图像中提取语义信息是计算机视觉领域的一个研究热点，其本质是从场景中提取对象特征信息[207]。我们认为，尽管CNN等神经网络也有助于语义信息提取，但现代语义VSLAM更依赖于目标检测等语义提取模块。目标检测和图像语义分割都是从图像中提取语义信息的方法。图像的语义分割是在像素级理解图像，以获得图像中的深层信息，包括空间、类别和边缘。基于深度神经网络的语义分割技术突破了传统语义分割的瓶颈[208]。与语义分割相比，目标检测仅获取图像的目标信息和空间信息。此外，它通过绘制对象的候选框来识别每个对象的类别，因此目标检测比语义分割更快[209]。与对象检测相比，语义分割技术具有更高的准确性，但其速度要低得多[210]。

目标检测分为一级和两级结构[211]。早期的目标检测算法使用两阶段架构。在创建一系列候选框作为样本后，通过卷积神经网络进行样本分类。常用的算法包括R-CNN[212]、快速R-CNN[213]、快速R-CNN[214]等。后来，约洛[215]创造性地提出了一级结构。它直接一步完成两阶段的两个步骤，一步完成对象的分类和定位，并直接输出回归得到的候选框及其类别。一个阶段减少了目标检测算法的步骤，并直接将目标帧定位问题转化为回归问题理论，而无需创建速度优越的候选框。常用算法包括YOLO和SSD[216]。

2014年，R-CNN的出现颠覆了传统的目标检测方案，提高了检测精度，推动了目标检测技术的快速发展，其核心是提取候选区域，然后通过Alexnet获得特征向量，最后使用SVM分类和帧校正。然而，由于RCNN使用的串行特征提取方法，特征提取的速度受到限制。罗斯在2015年提出了快速R-CNN来很好地解决这个问题。在快速R-CNN中使用感兴趣区域池（ROI池）操作以提高特征提取的效率，并使用区域生成网络（RPN）进行坐标校正。在RPN中设置许多候选帧（锚）。然后判断锚与背景的依赖关系，以计算出锚的覆盖区域并确定目标是否被覆盖。此外，YOLO提高了预测精度，加快了处理速度，增加了识别对象的类型，并提出了一种用于目标分类和检测的联合训练方法。YOLO是最广泛使用的目标检测算法之一，提供实时检测和一系列改进版本。

与对象检测不同的是，语义分割不仅可以预测对象在图像中的位置和类别，而且可以准确地描述不同类型对象之间的边界。然而，在语义分割技术中，普通的卷积神经网络无法获得足够的信息。为了解决这个问题，Long等人提出了全卷积神经网络FCN[217]。与CNN相比，FCN没有完全连接的层。新的FCN获得特征地图的空间位置，并将不同深度层的输出与分层结构融合。该方法将局部信息与全局信息相结合，提高了语义分割的准确性。在Badriarayansn等人[218]提出的Segnet网络中，提出了编码器-解码器结构，将两个独立网络结合起来，以提高分割精度。然而，两个独立网络的组合严重降低了检测速度。Zhao等人提出了PSPNet[219]和金字塔模块，该模块融合了每一层的特征，如金字塔，并最终融合输出，以进一步提高分割效果。

近年来，计算机性能的不断提高促进了视觉中实例分割的快速发展。实例分割不仅具有像素级的分类（语义分割），还具有不同对象的位置信息（目标检测），甚至可以检测到相同的对象。2017年，他等人提出了掩模R-CNN[220]。该算法是实例分割的开创性工作。如图19所示，其主要思想是添加一个基于更快的R-CNN的语义分割分支。

虽然基于神经网络的目标检测和分割技术已经很完善，但它需要依靠强大的计算能力来实现实时处理。VSLAM对实时操作有很高的要求，因此如何有效地将所需对象及其语义信息从环境中分离出来将是一项长期而艰巨的任务。作为语义VSLAM的基础，在处理语义分割后，我们将关注语义信息对VSLAM不同方面的影响。我们将详细介绍定位、映射和动态对象移除的三个方面。目标检测和语义分割都是从图像中提取语义信息的手段。表11显示了一些算法的贡献。对象检测比语义分割更快。然而，语义分割在精度上更好。实例分割融合了对象检测和语义分割，在精度上表现突出，但不能保证运行速度。对于一些不能提供原始文件的方案，我们提供了开放源代码，如YOLOV5。

4.2.2.语义与位置

定位精度是SLAM系统中最基本的评估标准之一，也是移动机器人执行许多任务的先决条件[225]。引入环境语义信息可以有效改善视觉SLAM定位中的尺度不确定性和累积漂移，从而在不同程度上提高定位精度[226]。

Bowman等人[177]提出了传感器状态估计和语义地标位置优化问题，该问题集成了度量信息、语义信息和数据关联。在从目标检测中获得语义信息后，他们引入期望最大化（EM），并根据语义分类的结果计算数据关联的概率。他们成功地将语义SLAM转化为概率问题，提高了SLAM系统的定位精度。然而，本文中有许多强有力的假设。例如物体的三维中心的投影应该接近检测网络的中心，这在实践中不容易满足。

2020年，西安交通大学的赵等人[227]提出了一个具有里程碑意义的大规模室外环境视觉语义同时定位和映射系统。其核心是将ORB-SLAM中的3D点云与卷积神经网络模型PSPNET-101中的语义分割信息相结合。它可以构建大规模环境的3D语义地图。他们提出了一种将真实地标与点云地图相关联的方法。它将建筑地标与语义点云相关联，并将从谷歌地图获得的地标与用于城市区域导航的语义3D地图相关联。借助于语义点云，该系统在无GPS信息的情况下，在广泛的户外环境中实现基于地标的重新定位。其过程如图20所示。2018年，苏黎世联邦理工学院基于自动驾驶场景的语义信息提出了VSO[228]。该方案解决了室外照明变化环境下的视觉SLAM定位问题。它建立了语义信息与图像之间的约束，并利用了语义信息不受视角、比例和照明影响的优势。类似地，Stenborg等人[229]也提出了此类问题的解决方案。

在轨迹估计方面，几何特征只能为摄像机姿态提供短期约束，这将在大范围环境的遥感器中产生大的偏差。相反，当光照强度、观察距离和角度变化时，作为高级特征的对象可以保持其语义信息不变。例如，桌子在任何光线和角度下仍然是桌子，其更稳定的性能可以为相机姿态提供长期约束。此外，语义SLAM可以有效地解决传统视觉SLAM对光照变化敏感和干扰系统定位鲁棒性的问题。我们认为VSLAM定位本质上是摄像机姿态估计。语义信息可以提高传统VSLAM系统在强光照和高摄像机旋转下的定位精度。然而，在实践中，语义信息的引入不可避免地会降低整个系统的运行速度，这是VSLAM中亟待解决的问题。我们认为，在大多数情况下，传统的VSLAM在定位精度方面仍然表现良好。然而，语义帮助VSLAM系统提高定位精度也值得研究。表12比较了VSLAM定位的传统方法和语义方法之间的差异。

4.2.3.语义与映射

VSLAM和深度学习的另一个关键节点是SLAM的语义图构建，大多数语义VSLAM系统都基于这一思想[230]。对于机器人来说，要理解环境以及人类，并从一个地方到另一个地方执行不同的任务，需要不同于几何地图所能提供的技能[231]。机器人应该有能力以人为中心理解其环境。它需要区分房间和走廊，或者未来厨房和客厅的不同功能[232]。因此，涉及人类概念（如房间类型、对象及其空间布局）的语义属性被认为是未来机器人的必要属性[233]。近年来，随着深度学习的快速发展，包含语义信息的语义地图逐渐进入人们的视野[234]。语义SLAM系统中的语义地图使机器人能够获得几何信息，例如环境的特征点。此外，它还可以识别环境中的对象，并获得位置、属性和类别等语义信息。与传统VSLAM构建的地图相比，机器人可以具备感知能力。机器人处理复杂环境和完成人机交互非常重要[235]。。语义地图构建是SLAM研究的热点之一[236]。2005年，Galindo等人[237]提出了语义地图的概念。如图21所示，它由两个平行层表示：空间表示和语义表示。它为机器人提供了类似于人类对环境的推理能力（例如，卧室是包含床的房间）。后来，Vasudevan等人[238]进一步加强了人们对语义地图的理解。

近年来，深度学习技术发展迅速。越来越多的研究人员将深度学习与SLAM技术相结合，他们使用目标检测、语义分割等算法来获取环境的语义信息。此外，将其整合到环境地图中以构建环境语义地图[239]。如图22所示，语义图构建的研究主要分为两个方向：面向场景的语义图构建和面向对象的语义图构造。

大多数面向场景的语义映射基于深度学习方法，将2D语义信息映射到3D点云。面向场景的语义地图可以帮助机器人更好地理解他们的环境[240]。2020年，麻省理工学院提出了Kimera[241]。这是一种成熟的面向场景的语义SLAM算法。参考文献[242]提出了一种面向场景的语义地图构建算法。基于RTABMAP[243]，YOLO用于目标检测。在粗略估计物体的位置后，他们使用Canny算子检测深度图像中目标物体的边缘。然后，通过基于区域生长算法的边缘处理，实现了目标的精确分割。通过非深度学习语义分割算法，解决了传统语义地图构建中计算资源大的问题，实时构建了面向场景的语义地图。面向场景的语义地图将帮助机器人更好地理解环境，并构建更具表现力的环境地图。然而，这种方法不能为机器人了解环境提供更多帮助，阻止机器人和个体的环境进行交互，在一定程度上限制了机器人的智能化程度[244]。此外，此类算法需要对场景中的对象进行像素级语义分割，这导致系统计算量大，实时性低。因此，一些学者转向面向对象的语义图构建算法[245]。

面向对象语义映射是指仅包含部分实例语义信息的映射，语义信息独立存在于聚类方法中[246]。这种类型的地图允许机器人操作和维护地图上每个实体的语义信息。因此，这更有利于机器人了解环境并与环境中的实体进行交互，提高地图的实用性[247]。参考文献[45]提出了一种基于mask RCNN和Kinect融合算法的基于体素的语义视觉SLAM系统。在通过MaskRCNN算法进行对象检测之后，将对象检测结果与基于体素前景理论的TSDF模型融合，以构建面向对象的语义图。虽然检测精度得到保证，但仍然无法解决算法实时性差的问题。参考文献[248]提出了一种轻量级面向对象的SLAM系统，有效解决了数据关联和姿态估计问题，并解决了上述方法实时性差的问题。核心框架基于ORB-SLAM2开发，使用YOLOv3作为对象检测器融合语义线程。在跟踪线程中，融合边界盒、语义标签和点云信息，构建面向对象的半密集语义图。实验结果表明，与ORB-SLAM2相比，该方案能够处理复杂环境中具有不同尺度和方向的多类对象，并能更好地表达环境。然而，对于一些大型对象，精确的姿态估计是不可能的。类似地，伦敦大学学院提出了DSP-SLAM[249]。

目前，大多数语义图构建方法需要同时处理实例分割和语义分割，这导致系统的实时性能较差[250]。表13列出了一些语义图构建工作。此外，在处理动态对象时，大多数算法通过消除动态对象来实现系统的鲁棒性，这将使系统失去许多有用信息。因此，面向动态场景的SLAM是一个亟待解决的问题[251]

4.2.4.动态对象的消除

传统VSLAM算法假设环境中的对象是静态或低运动的，这影响了VSLAM系统在实际场景中的适用性[258]。当环境中存在动态对象（如人、车辆和宠物）时，它们会给系统带来错误的观测数据，并降低系统的准确性和鲁棒性[259]。传统方法通过RANSAC算法来解决一些异常值对系统的影响。然而，如果动态对象占据大部分图像区域，或者移动对象很快，仍然无法获得可靠的观察数据[260]。如图23所示，由于动态对象，摄像机无法准确捕获数据。因此，如何解决动态对象对SLAM系统的影响成为许多研究者的目标。

现在，对于动态对象给SLAM系统带来的干扰问题的解决方案是一致的。也就是说，在视觉里程表之前，使用目标检测和图像分割算法滤除图像中的动态区域。然后使用静态环境点计算摄像机的附近位置，并构建包含语义信息的地图[261]。图24显示了一个典型的结构。虽然不能完全解决动态对象的影响，但系统的鲁棒性大大提高。

图23.传统方法使用几何约束来判断对象是否移动。例如，在（a）中，X是空间中的静态点，因此可以平滑地获得空间变换关系。在（b）中，空间点X1移动到X2后会带来系统误差

2018年，Bescos等人[262]提出了基于ORB-SlAM2的动态场景视觉SLAM的动态SLAM算法。该系统为单目、立体和RGB-D摄像机提供接口。对于单目和立体摄像机，MASK-RCNN用于分割每帧中的动态对象，以避免在SLAM系统中提取动态对象的特征。如果使用RGB-D摄像机，则使用多视图几何方法进行更精确的运动分割。动态段将从当前帧和贴图中删除。但是，该方法选择移除所有可能移动的对象，如停放的汽车。这可能导致剩余的静止特征点太少，并影响相机姿态估计。同年，清华大学团队提出了一个基于ORB-SLAM2的完整的SLAM系统DS-SLAM[263]。其核心是ORB-SLAM2添加了语义网络分段，并作为实时运行的独立线程。它可以移除场景动态分割中的对象，并创建单独的线程来构建密集的语义八叉树图，以帮助机器人实现更高级别的任务。

一些方法使用语义信息隐藏被认为是动态的对象。尽管这些方法在一定程度上改善了动态对象对系统的影响，但“一刀切”方法可能会导致系统丢失许多有用的特征点。例如，停放在路边的汽车可被视为动态对象，其携带的所有特征点均被过滤掉[264]。然而，静止在路边的汽车可以用作系统中的可靠特征点。然而，它甚至可以是高质量特征点的主要来源。参考文献[265]提出将语义信息集成到传统的VSLAM方法中。该方法不需要运动检测。置信度的引入为每个物体提供了不同的可能运动概率，以判断物体是否在运动。此外，语义标签分布与地图点观测一致性相结合，以估计每个3D点测量的可靠性。然后将其用于姿态估计和优化步骤的映射。该方法可以处理被视为动态但静止的对象，例如停在路边的汽车。参考文献[266]基于去除动态对象的光流方法。其核心思想是基于ORB-SLAM2。在前端，使用四个CNN神经网络同时预测每个帧的深度、姿态、光流和语义掩码。通过计算由深度和姿态合成的刚性光流，并与估计的光流进行比较，获得初始运动区域。该算法能够区分当前场景中的运动对象，并保留静态对象的特征点。避免了仅基于类别属性移除运动对象，这导致了SLAM系统的跟踪失败。文章[267]提出了一种基于ORB-SLAM2的视觉SLAM系统，该系统在动态环境中通过丢弃移动特征点，借助于由Mask RCNN获得的语义信息和RGB-D摄像机提供的深度信息，稳健而准确地执行。该方法试图通过找出从可移动对象中提取的静态特征点来为摄像机姿态估计开发更可靠的特征点，当静态对象不能在场景中提供足够的特征点时，这将受益匪浅。

语义信息可以更好地帮助系统解决动态对象带来的干扰，因为计算资源的高消耗。然而，现有方案通常不够实时，无法广泛推广到实际机器人，应用场景非常有限[268]。此外，语义信息可能在摄像机帧速率下不可用，或者可能不总是提供准确的数据[269]。将图像区域分配给错误的语义类可能不必要地将其排除在姿势估计之外，这在稀疏纹理环境中可能是至关重要的[270]。该问题的当前解决方案集中于使用光流等方法来检测场景中移动的物体[271]。尽管现有算法在数据集上取得了良好的结果，但在实际工程中并没有取得非常可靠的结果。表14显示了近年来使用深度神经网络改善动态环境的VSLAM算法。

5. Conclusions and Prospect

同时定位和映射是机器人界的一个主要研究问题，在机器人界，大量的工作致力于开发新方法，以最大限度地提高其鲁棒性和可靠性。基于视觉的SLAM技术经历了多年的发展，出现了许多优秀的算法，已成功应用于机器人和无人机等各个领域。深度学习的快速发展推动了计算机领域的创新，两者的结合成为一个活跃的研究领域。因此，VSLAM的研究受到越来越多的关注。此外，随着智能时代的到来，对移动机器人的自主性提出了更高的要求。为了实现机器人的高级环境感知，语义VSLAM被提出并迅速发展。传统的VSLAM在构建环境地图时仅恢复环境的几何特征，无法满足机器人导航、人机交互、自主探索等应用的要求。但早期的语义图构建方法一般采用模型库匹配方法，需要提前构建对象模型库，局限性大，不利于推广应用。随着计算机性能的提高和深度学习技术的快速发展，VSLAM技术与深度学习技术相结合，以弥补传统VSLAM系统的不足。近年来，深度学习技术作为最有前景和最具优势的计算机视觉处理方法，受到了SLAM研究者的广泛关注。在语义SLAM系统中，环境语义信息可以通过深度学习技术直接从预训练图像集和实时感知图像集学习。它还可以更好地利用大型数据集，使系统具有更强的泛化能力。在构建语义地图时，语义SLAM系统可以使用深度学习方法检测和分类环境中的对象，并构建信息更丰富的地图，具有更好的实用性

在本文中，我们研究了大多数最先进的视觉SLAM解决方案，它们使用特征来定位机器人并绘制其周围环境。我们根据基于特征的视觉SLAM方法所依赖的特征类型对它们进行分类；传统VSLAM和VSLAM与深度学习相结合。对每个类别的优势和劣势进行了彻底调查，并在适用的情况下突出了每个解决方案克服的挑战。。这项工作证明了使用视觉作为唯一外部感知传感器来解决SLAM问题的重要性。这主要是因为相机是一种理想的传感器，因为它轻便、被动、低功耗，并且能够捕获关于场景的丰富而独特的信息。然而，由于移动的人或物体、无特征区域的幻影、昼夜转换或任何其他不可预见的情况，视觉的使用需要可靠的算法，在可变的照明条件下具有良好的性能和一致性。因此，使用视觉作为唯一传感器的SLAM系统仍然是一个具有挑战性和前景的研究领域。图像匹配和数据关联分别是计算机视觉和机器人视觉中的开放研究领域。检测器和描述符的选择直接影响系统跟踪显著特征、识别先前看到的区域、建立一致的环境模型和实时工作的性能。数据关联尤其需要长期导航，尽管数据库不断增长，环境不断变化和复杂。接受不良关联将导致整个SLAM系统中的严重错误，这意味着位置计算和地图构建将不一致。

此外，我们强调了融合语义信息的VSLAM的开发。结合语义信息的VSLAM系统在鲁棒性、精度和高级感知方面取得了更好的结果。语义VLSAM的研究将受到更多关注。语义VSLAM将从根本上提高机器人的自主交互能力。

结合其他研究，我们对VSLAM的未来发展做出以下展望：

（1）工程应用。经过几十年的发展，VSLAM已广泛应用于机器人等许多领域。然而，SLAM对环境光照、高速运动、运动干扰等问题敏感，因此如何提高系统的鲁棒性，长时间构建大比例尺地图都是值得挑战的。SLAM中使用的两个主要场景基于智能手机或无人机等嵌入式平台，以及3D重建、场景理解和深度学习。如何平衡实时性和准确性是一个重要的开放问题。动态、非结构化、复杂、不确定和大规模环境的解决方案仍有待探索。

（2）理论支持。通过深度学习获得的信息特征仍然缺乏直观意义和明确的理论指导。目前，深度学习主要应用于SLAM的局部子模块，如深度估计和闭环检测。然而，如何将深度学习应用于整个SLAM系统仍然是一个巨大的挑战。传统的VSLAM在定位和导航方面仍然具有优势。虽然传统方法的一些模块通过深度学习进行了改进，但深度学习的范围一般不广，在某些数据集可能会取得良好效果，但在另一场景中可能不稳定。定位和映射过程涉及大量数学公式，深度学习在处理数学问题时存在缺陷，而使用深度学习进行相关训练的数据较少，这种方法更为传统。SLAM框架没有显著的优势，目前还不可用。SLAM技术的主要算法。未来，SLAM将逐渐吸收深度学习方法并改进训练数量。数据集用于提高定位和映射的准确性和鲁棒性。

（3）高级环境信息感知和人机交互。随着深度学习的进一步发展，语义VSLAM的研究和应用将有巨大的发展空间。未来智能时代，人们对智能自主移动机器人的需求将快速增长，如何利用语义VSLAM技术更好地提高机器人的自主能力将是一项长期而艰巨的任务。尽管近年来取得了一些优秀的成果，但与经典的VSLAM算法相比，语义VSLAM仍处于发展阶段。目前，语义SLAM的开源解决方案并不多，语义SLAM的应用还处于初始阶段，主要是因为构建准确的语义地图需要大量计算资源。该遥感器严重干扰了SLAM的实时性能。随着未来硬件水平的不断提高，SLAM系统实时性差的问题可能会得到很大改善。

（4）建立健全评价体系。语义VSLAM技术近年来发展迅速。然而，与传统的VSLAM相比，目前还没有完善的评价标准。在SLAM系统研究中，ATE或RPE通常用于评估系统性能。然而，这两个评估标准都是基于SLAM系统的姿态估计结果，对于地图构建的效果没有公认的可靠评估标准。对于语义SLAM系统，如何评估语义信息获取的准确性以及如何评估语义地图构建的效果是语义SLAM的评估标准中应该考虑的问题。此外，仅通过主观指标进行评估并不是一个长期解决方案。未来，如何建立语义VSLAM的系统评价指标将是一个热门话题。

你可能感兴趣的:(深度学习,机器学习,人工智能)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

论文粗翻 《视觉SLAM综述：从传统到语义》（An Overview on Visual SLAM: From Tradition to Semantic）