weixin_44035919

ORB-SLAM: a Versatile and Accurate Monocular SLAM System

摘要

本文提出了ORB-SLAM，一种基于特征的单目SLAM系统，它可以在室内外的大小环境中实时运行。该系统对严重的运动噪声具有鲁棒性，允许宽基线闭环和重定位，并且可以全自动的初始化。基于近年来的优秀算法，我们设计了一个全新的系统，它使用和所有的其他SLAM系统相同的工作流程，包括: 跟踪、建图、重定位和闭环矫正。选择重建的地图点和关键帧的**“适者生存”策略**使得系统具有极好的鲁棒性，并生成仅在场景内容发生变化时才体积才增长的紧凑且可跟踪的地图，从而允许系统长时间运行。我们对从最广泛使用的公开数据集中的27个序列进行了详细的评估。ORB-SLAM相对于其他最先进的单目SLAM方法达到了前所未有的性能。

引言

众所周知，由于提供了强大的匹配和良好的初始猜测，光束平差法（BA）可提供相机位置的准确估计以及稀疏几何重建[1]，[2]。长期以来，这种方法被认为无法用于实时应用，如视觉同步定位和建图（visual SLAM）。视觉SLAM的目标是在重建环境的同时估计相机的轨迹。现在，我们知道，为了以可以接受的计算成本获得准确的结果，实时SLAM算法必须提供具有以下内容的BA。

在选定帧的子集中对场景特征（地图点）的相应观测（关键帧）
由于随着关键帧数量的增加，复杂性增加，其选择应避免不必要的冗余
关键帧和地图点的强大网络配置以产生准确的结果，即，一组分布良好的关键帧观察具有明显视差的地图点，并有大量的闭环匹配
用于非线性优化的关键帧位姿和地图点位置的初始估计
探索中的局部地图，其中优化的重点是实现可扩展性
执行快速全局优化（例如位姿图）以实时闭环矫正的能力

BA的首次实时应用是Mouragonet等人[3]的视觉里程计工作，随后是Klein和Murray[4]的ground-breaking SLAM工作，称为并行跟踪和建图（PTAM）。该算法虽然局限于小规模操作，但为关键帧选择、特征匹配、地图点的三角化、每帧相机定位以及跟踪失败后的重新定位提供了简单而有效的方法。不幸的是，有几个因素严重限制了它的应用：缺乏闭环矫正和遮挡的充分处理，对重定位视角的低不变性，以及地图初始化需要人为干预。

在本研究中，我们以PTAM的主要思想、Ǵalvez-Ĺopez和Tard́os[5]的位置识别工作、Strasdatet等人[6]的尺度感知闭环矫正以及大规模操作中共视信息的使用[7]、[8]为基础，从头开始设计ORB-SLAM，即，一种新的单目SLAM系统，其主要贡献如下。

对所有任务使用相同的特征，包括：跟踪、建图、重定位和闭环矫正。这使得我们的系统更加高效、简单和可靠。我们使用ORB特征[9]，它允许在没有GPU的情况下实现实时性能，对视角和光照的改变具有良好的不变性。
在大型环境中保证了实时性。由于使用了共视图，跟踪和建图专注于处理局部共视区域，与全局地图的大小无关。

共视图：无向加权图，节点为关键帧，两个关键帧之间达到一定的共视关系就会在共视图中将两帧连成一条边，边的权重就是共视地图点数量
基于位姿图优化的实时闭环矫正，我们称之为本质图。它由系统维护的生成树、闭环连接关系和共视图强边。

生成树：当前关键帧和父关键帧构成，父关键帧就是共视程度最高的关键帧
对视角和光照具有显著不变性的实时相机重定位。这允许从跟踪失败中恢复，还增强了地图重用性。
一种新的基于模型选择的自动和鲁棒的初始化过程，允许在平面和非平面场景下创建初始地图。
选择地图点和关键帧的**“适者生存”策略**，在生成阶段要求比较宽松，但在剔除时要求十分严格。由于冗余关键帧被丢弃，该策略提高了跟踪鲁棒性并允许系统长时间运行。

我们对室内和室外环境的最流行的公共数据集进行了广泛的评估，包括手持、车载和机器人序列。值得注意的是，我们实现了比最先进的直接法更好的相机定位精度[10]，该方法直接优化像素强度，而不是特征重投影误差。我们在第IX-B节中讨论了使基于特征的方法比直接法更准确的可能的原因。

这里介绍的闭环矫正和重定位方法是基于我们以前的工作[11]。[12]中介绍了系统的初始版本。在本文中，我们添加了初始化方法、本质图，并完善了所有涉及的方法。我们还详细描述了所有的模块，并进行了详尽的实验验证。

据我们所知，这是单目SLAM最完整、最可靠的解决方案，为了社区的利益，我们公开了源代码。演示视频和代码可以在我们的项目网页中找到。

系统概述

图1

A. 特征选择

系统的主要设计思想之一是将建图和跟踪所使用的相同特征用于位置识别，实现帧速率的重定位和闭环检测。这使得我们的系统效率更高，并且避免了像以前的工作[6]，[7]那样，需要从近SLAM特征中插入识别特征的深度。我们需要特征在每幅图像的提取时间远小于33毫秒，这就排除了流行的SIFT(∼300毫秒)[19]，SURF(∼300毫秒）[18]，或最近的A-KAZE(∼100毫秒）[35]。为了获得通用的位置识别能力，我们需要旋转不变性，这排除了BRIEF[16]和LDB[36]。

我们选择了ORB特征点，它是一种具有256位关联二进制描述子的多尺度FAST角点。它的计算和匹配速度非常快，并且对视角具有良好的不变性。这使得在系统中可以在宽基线情况下来匹配它们，从而提高BA的准确性。我们已经在[11]中展示了ORB用于位置识别的良好性能。虽然我们当前的实现使用ORB，但提出的技术并不局限于这些特征。

B. 三个线程：跟踪、局部建图和闭环矫正

我们的系统如上图所示，包含三个并行运行的线程：跟踪、局部建图和闭环矫正。

跟踪线程负责定位每一帧的相机，并决定何时插入一个新的关键帧。我们首先执行与前一帧的初始特征匹配，并使用仅运动BA优化位姿。如果跟踪失败(例如，由于遮挡或突然移动)，则使用位置识别模块执行全局重定位。一旦有了相机位姿的初始估计和特征匹配，使用系统维护的关键帧共视图检索局部可见地图[见图2(a)和(b)]。然后，通过重投影方法搜索当前帧与局部地图点对应的匹配点，并使用所有的匹配关系再次优化相机位姿。最后，跟踪线程决定是否插入新的关键帧。第V节详细介绍了所有跟踪步骤。第IV节介绍了创建初始地图的新过程。

图2

**局部建图线程处理新的关键帧并执行局部BA，以实现相机位姿周围的最佳重建。**在共视图的连通关键帧中搜索新关键帧中未被匹配的ORB特征的新的对应关系，以三角化新的地图点。在生成后的一段时间后，基于跟踪过程中收集到的信息，采用了一种严格的地图点剔除策略来剔除冗余地图点来保留高质量的点。局部建图线程还负责剔除冗余关键帧。我们将在第VI节详细解释所有的局部建图步骤。

闭环矫正线程搜索每个新关键帧的闭环关系。如果检测到一个闭环，则计算一个相似变换来获取在闭环中累积的漂移。然后，将闭环的两侧对齐，并融合重复的地图点。最后，通过相似性约束[6]下的位姿图优化来实现全局一致性。主要的创新点在于，我们对本质图进行了优化，即第III-D节中解释的共视图的稀疏子图。第VII节详细解释了闭环检测和校正步骤。

我们使用在g2o[37]中实现的Levenberg–Marquardt算法来执行所有优化。在附录中，我们描述了每个优化中涉及的误差项、代价函数和变量。

C.地图点、关键帧及其选择

每个地图点 $p_i$ 存储了以下内容：

在世界坐标系下的3D位置 $X_{w,i}$
地图点的观测方向 $n_i$ ，为归一化后的平均观测方向（指连接该地图点和其对应观测关键帧光心的的单位方向向量的均值）
一个具有代表性ORB描述子 $D_i$ ，与其他所有能观测到该点的关键帧中的ORB描述子相比，该描述子的汉明距离中值最小
根据ORB特征的尺度不变性获取到的可以观察到这个地图点的的最大 $d_{max}$ 和最小 $d_{min}$ 距离。

每个关键帧 $K_i$ 存储了以下内容：

相机的位姿 $T_{iw}$ ，这是一种刚体变换，将点从世界坐标系变换到相机坐标系；
相机内参，包括主点和焦距
在当前帧中提取的所有ORB特征，可以已经与地图点关联或不关联，如果提供了畸变模型，则其坐标为去畸变后的坐标。

地图点和关键帧是用一个宽松的策略创建的，之后一个非常严格的剔除机制负责检测冗余的关键帧和错误匹配或不可跟踪的地图点。这允许在探索过程中进行灵活的地图扩展，从而提高在恶劣条件下（例如旋转、快速移动）的跟踪鲁棒性，同时其大小在不断重访相同环境（即长期操作）时受到限制。此外，与PTAM相比，我们的地图包含的外点非常少，但代价是包含的点更少。第VI-B节和第VI-E节分别说明了地图点和关键帧的剔除程序。

D. 共视图和本质图

关键帧之间的共视信息在我们系统的多个任务中非常有用，并表示为无向加权图，如[7]所示。每个节点都是一个关键帧，如果两个关键帧共享相同地图点的观测值（至少15个），则两个关键帧之间存在一条边，边的权重 $\theta$ 为公共地图点的数量。

为了矫正闭环，我们执行了一个位姿图优化[6]，该优化将闭环误差沿图进行分布。为了不包含共视图提供的所有边（可能非常密集），我们建议构建一个保留所有节点（关键帧）但不包含所有边的本质图，仍然保留产生准确结果的强网络。系统从初始关键帧以增量方式构建生成树，该生成树提供具有最少边数的共视图的连通子图。插入新的关键帧时，它将包含在树中并与共享最多地图点观测的关键帧进行链接，并且当通过剔除策略删除关键帧时，系统将更新受该关键帧影响的链接。本质图包含生成树、具有高共视关系（ $\theta_{min}=100$ ）的共视图的边子集和闭环边，从而形成强大的相机网络。图2显示了共视图、生成树和对应的本质图的示例。如第VIII-E节中的实验所示，在执行位姿图优化时，该解决方案是如此精确，以至于额外的全局BA优化几乎无法进一步提升精度。在第VIII-E节末尾展示了本质图的效率和 $\theta_{min}$ 的影响。

E. 基于词袋的位置识别

系统嵌入了基于DBoW2[5]的位置识别模块来实现闭环检测与重定位。视觉词汇是一个离散化的描述子空间，被称为视觉词典。视觉词典通过从大量图像中提取的ORB描述子进行离线创建。如果图像集足够通用，那么同一部视觉词典在不同的环境下也能获得很好的性能。系统增量式地构建一个数据库，其中包含一个逆向索引，该索引存储词汇表中每个视觉单词被观测到的关键帧，因此可以非常高效地查询数据库。当剔除过程删除关键帧时，数据库也会更新。

由于关键帧之间存在视觉重叠，因此在查询数据库时，可能不会存在唯一的高分关键帧。原始DBoW2考虑了这种重叠，将时间相近的图像的分数相加。这有一个限制，即不包括查看同一位置但在不同时间插入的关键帧。取而代之的是，我们将那些在共视图中连接的关键帧进行分组。此外，我们的数据库返回所有关键帧匹配项，这些关键帧匹配项的得分高于最佳得分的75%。

文献[5]报道了将词袋表示用于特征匹配的另一个好处。当我们想要计算两组ORB特征之间的对应关系时，我们可以仅对属于词汇表树中某一层级的同一节点的特征进行暴力匹配，从而加快搜索速度。在搜索匹配以三角化新点、闭环检测和重新定位时，我们使用此技巧。我们还通过方向一致性测试(详见[11])来完善对应关系，该测试丢弃了外点，确保所有对应关系的一致旋转。

自动化的地图初始化

地图初始化的目的是计算两帧之间的相对位姿来三角化一组初始的地图点。这种方法应该独立于场景(平面场景或通用场景)，并且不需要人为干预来选择良好的初始化场景，即两帧之间具有显著视差。在系统中并行计算两个几何模型：适用于平面场景的单应矩阵和适应于非平面场景的基本矩阵。然后使用一种启发式方法来选择一个模型，并尝试用一种特定的方法来使用所选模型恢复相对位姿。我们的方法仅在确定两帧视角配置安全时进行初始化，检测到低视差情况和众所周知的两部分平面歧义[27]时，我们避免去初始化一个损坏的地图。我们的算法步骤如下。

查找初始的匹配关系：在当前帧 $F_c$ 上提取ORB特征点，并且在参考帧 $F_r$ 中搜索匹配关系 $x_c \leftrightarrow x_r$ 。如果没有找到足够的匹配关系，则重置参考帧。
并行地计算两种几何模型：在两个线程中并行地计算单应矩阵 $H_{cr}$ 和基础矩阵 $F_{cr}$

$x_c = H_{cr}x_r, x_c^TF_{cr}x_r = 0 \tag{1}$

分别使用正则化DLT和八点算法，如RANSAC方案中的[2]所述。为了使两个模型的过程同质化，提前设置两个模型的迭代次数，并且在每次迭代中使用相同的点：基本矩阵使用八对点，其中四对点用于单应矩阵。在每次迭代中，我们为每个模型 $M$ 计算一个分数 $S_M$ ( $H$ 代表单应矩阵， $F$ 代表基本矩阵）

$S_M=\sum_{i}{(\rho_M(d_{cr}^2(x_c^i,x_r^i,M))+\rho_M(d_{rc}^2(x_c^i,x_r^i,M)))} \\ \rho_M(d^2)=\begin{cases} \Gamma-d^2 & if & d^2 < T_M \\ 0 & if & d^2 \geq T_M\end{cases} \tag{2}$

式中， $d_{cr}^2$ 和 $d_{rc}^2$ 关注从一帧到另一帧的对称转换误差[2]。 $T_M$ 是基于95%( $T_H=5.99,T_F=3.84$ )的 $\chi^2$ 测试的外点拒绝阈值，假设测量误差中1个像素的标准偏差）。 $\Gamma$ 被定义为等于 $T_H$ 以使得两个模型在其内点区域中对相同的 $d$ 的得分相等，再次使过程同质化。我们维持具有最高分数的单应矩阵和基本矩阵。如果找不到模型(没有足够的内点)，我们将从步骤1重新启动该过程。
模型选择：如果场景是平面、近平面或具有较低的视差，则可以用单应性来解释。但是，也可以找到对应的基本矩阵，但问题没有得到很好的约束[2]，任何试图从基本矩阵中恢复运动的尝试都会产生错误的结果。我们应该选择单应矩阵，因为这个重建方法将从一个平面场景正确初始化，或者它将检测到低视差情况并拒绝初始化。另一方面，具有足够视差的非平面场景只能用基础矩阵来解释，但如果匹配子集位于平面上或具有低视差(它们相距很远)，也可以找到单应矩阵来解释这组匹配。在这种情况下，我们应该选择基础矩阵。我们发现一种鲁棒启发式算法来计算

$R_H=\frac{S_H}{S_H+S_F}\tag{3}$

并且如果 $R_H>0.45$ 则选择单应矩阵，它可以很好地捕捉平面和低视差情况。否则，我们选择基础矩阵。
运动结构恢复：一旦选择了一种模型，我们检索相关的运动假设。在单应矩阵的情况下，我们使用Faugeras和Lustman的方法检索八个运动假设[23]。该方法提出了cheriality测试来选择有效解。但是，如果视差较低，则这些测试失败，因为点很容易在相机的前面或后面移动，这可能会导致选择错误的解决方案。我们建议直接对八个解决方案进行三角化，并检查是否有一个解决方案在两个相机前面的视差中看到的点最多，且重投影误差较低。如果没有一个明确的最优的解决方案，我们将不会继续初始化并从步骤1重新开始。这种消除解决方案的歧义性的技术使得我们的初始化在低视差和双面歧义配置下具有鲁棒性，可以认为是我们方法鲁棒性的关键。

在基础矩阵的情况下，我们使用标定矩阵 $K$ 将其转换为一个本质矩阵

$E_{rc}=K^TF_{rc}K \tag{4}$

然后使用[2]中解释的奇异值分解方法检索四个运动假设。我们对这四种解决方案进行三角化，并使用与单应矩阵相似的方法选择最优的重建。
BA：最后，我们执行全局BA(详见附录)以优化初始重建的结果。

图3显示了户外NewCollege机器人序列[39]中具有挑战性的初始化示例。可以看出PTAM和LSD-SLAM是如何在平面上初始化所有点，然而我们的方法一直等到有足够的视差时，才从基础矩阵进行正确的初始化。

图3

跟踪线程

在本节中，我们将描述使用相机的每一帧执行的跟踪线程的步骤。在几个步骤中提到包含在仅运动BA中的相机位姿优化，如附录中所述。

A. ORB特征提取

我们以1.2的比例因子在八个尺度级别提取FAST角点。对于512×384到752×480像素的图像分辨率，我们发现适合提取1000个角点；对于更高的分辨率，如KITTI数据集[40]中的1241×376，我们提取2000个角点。为了确保均匀分布，我们在每个尺度级别中进行网格划分，试图在每个网格单元中提取至少五个角点。然后，我们检测每个网格单元中的角点，如果没有找到足够的角点，则调整检测器的阈值。如果某些网格单元不包含角点（无纹理或低对比度），则每个网格单元保留的角点数量也会调整。然后在保留的FAST角点上计算方向和ORB描述子。ORB描述子用于所有特征匹配，与PTAM中的块相关搜索不同。

B. 基于前一帧的初始位姿估计

如果上一帧的跟踪成功，我们将使用匀速运动模型来预测相机位姿，并对上一帧中观察到的地图点进行引导搜索。如果没有找到足够的匹配项（即，运动模型与实际运动情况不符），我们将在上一帧中对位置周围的地图点进行更广泛的搜索。然后，使用找到的对应关系优化位姿。

C. 基于全局重定位的初始位姿估计

如果跟踪丢失，我们将当前帧转换为词袋向量，并查询识别数据库中的候选关键帧以进行全局重定位。如第III-E节所述，我们计算每个关键帧中与地图点相关的ORB对应关系。然后，我们对每个关键帧交替执行RANSAC迭代，并尝试使用PnP算法找到相机位姿[41]。如果我们找到一个具有足够内点的相机位姿，我们将优化该位姿，并对候选关键帧的地图点执行引导搜索来获取更多的匹配关系。最后，相机的位姿被再次优化，如果有足够的内点支持，跟踪过程将继续。

D. 跟踪局部地图

一旦我们有了相机位姿的估计和一组初始的特征匹配，我们就可以将地图投影到当前帧中并搜索更多的地图点对应关系。为了限制大型地图的复杂性，我们只投影一个局部地图。此局部地图包含一组与当前帧共享地图点的关键帧 $\mathcal{K}_1$ ，以及一组在共视图中与关键帧 $\mathcal{k}_1$ 相邻的关键帧 $\mathcal{K}_2$ 。局部地图也有一个参考关键帧 $\mathcal{K}_{ref} \in \mathcal{K}_1$ ，它与当前帧共享大多数地图点。现在，在当前帧中搜索在 $\mathcal{K}_1$ 和 $\mathcal{K}_2$ 中看到的每个地图点，如下所示。

计算当前帧中的地图点投影 $x$ 。如果超出图像边界，则丢弃。
计算当前观测角度 $v$ 与地图点平均观测方向 $n$ 之间的角度。如果 $v\cdot n < cos(60^{\degree})$ ，则丢弃。
计算从地图点到相机中心的距离 $d$ 。如果超出地图点的尺度不变区域 $\notin [d_{min},d_{max}]$ ，则丢弃。
通过比率 $d/d_{min}$ 计算当前帧中的尺度。
将地图点的代表性描述子与当前帧中、预测尺度下和 $x$ 附近的中仍然未被匹配的ORB特征进行比较，并将地图点与最佳匹配相关联。

相机位姿最终使用当前帧中找到的所有地图点进行优化。

E. 新关键帧决策

最后一步是确定当前帧是否派生为新的关键帧。由于在局部建图线程中有一种剔除冗余关键帧的机制，这里将尝试尽可能快地插入关键帧，因为这样可以使对于具有挑战性的相机运动，比如旋转的跟踪更加鲁棒。要插入新的关键帧，以下条件必须满足：

距离上一次全局重定位要经过至少20帧
局部建图线程处于空闲状态，或者从上次插入关键帧起经过了至少20帧
当前帧跟踪了至少50个地图点
当前帧跟踪的地图点数少于参考关键帧 $K_{ref}$ 地图点数量的90%

这里不使用与与PTAM相同的与其他关键帧的距离标准作为判断是否插入关键帧的条件，而是使用最小视觉变化来判断(条件4)。条件1确保良好的重定位，条件3确保良好的跟踪。如果在局部建图线程忙时插入关键帧(条件2的第二部分)，则会发送一个信号来停止局部BA的进行，以便它能够尽快处理新的关键帧。

局部建图线程

在本节中，我们将描述局部建图线程中使用每个新的关键帧 $K_i$ 执行的步骤

A. 关键帧插入

首先，更新共视图，为被插入的关键帧 $K_i$ 添加一个新的节点并用和其他关键帧共享的地图点来更新边。然后，通过链接新的关键帧 $K_i$ 和具有最多共视地图点的已有关键帧更新生成树。最后计算关键帧的词袋表示，这将有助于三角化新的地图点时的数据关联。

B. 地图点剔除

地图点要保留在地图中，必须在创建后的前三个关键帧期间通过一个严格的测试，以确保它们是可跟踪的，并且不是由于虚假数据关联而被错误地三角化的。一个点必须满足以下两个条件：

跟踪线程必须在25%以上的理论上可以看到该地图点的帧中找到该地图点
如果从地图点创建已经经过了超过一个关键帧，则地图点必须能被至少三个关键帧观测到

一旦一个地图点通过了这个测试，只有在任何时候观测到它的关键帧个数小于3时，它才能够被移除。当关键帧被剔除并且局部BA丢弃了无效的观测值时，就会发生这种情况。这个策略使得地图包含很少的外点。

C. 新地图点的创建

新的地图点是通过从共视图中连接的关键帧 $\mathcal{K}_c$ 对ORB特征点进行三角化来创建的。对于 $K_i$ 中每个未匹配的ORB特征点，在其他关键帧中搜索与其他未匹配点的匹配。按照第III-E节中的说明进行匹配，并丢弃不满足极线约束的匹配。ORB特征点对被三角化，并且为了接受这个新的点，检查三角化后的点在两个相机中的的正深度、视差、重投影误差和尺度一致性。最初，新的地图点被两个关键帧观察到，但它可能与其他的特征点也有匹配，因此它被投影到剩余的连接关键帧中，并按照第V-D节中的详细说明搜索对应匹配关系。

D. 局部BA

局部BA优化当前处理的关键帧 $K_i$ 、共视图中与其连接的所有关键帧 $\mathcal{K}_c$ ，以及这些关键帧看到的所有地图点。看到这些点但未连接到当前处理的关键帧的所有其他关键帧都包含在优化中，但位姿被固定。标记为外点的观测值将在优化的中间和结尾被丢弃。有关此优化的更多详细信息，请参见附录。

E. 局部关键帧剔除

为了保持一个紧凑的重建，局部建图线程尝试检测冗余的关键帧并删除它们。这是有益的，因为BA的复杂性随着关键帧的数量的增加而增长，同时也因为这个机制使得系统可以在相同的环境中长时期运行，因为关键帧的数量不会无限增长，除非场景中的视觉内容发生变化。如果在 $\mathcal{K}_c$ 中的某个关键帧90%的地图点都在相同或更细尺度的至少其他三个关键帧中被观测到，那么这个关键帧被认为是冗余的，从而被剔除掉。尺度条件确保了地图点以最准确的程度保持了与其对应的关键帧。这一策略的灵感来源于Tanet al.[24]的工作中提出的一项策略，其中关键帧在变化检测过程后被丢弃。

闭环矫正线程

闭环矫正线程接受局部建图线程处理的最后一个关键帧 $K_i$ ，它尝试检测并矫正闭环。接下来将描述这些步骤。

A. 闭环候选帧检测

首先，计算关键帧 $K_i$ 和他在共视图中的所有相连关键帧( $\theta_{min}=30$ )的视觉单词向量相似度，并计算最低相似分数 $S_{min}$ 。然后，查询识别数据库并丢弃所有那些相似分数低于 $S_{min}$ 的关键帧。这是一个类似于获得于在DBoW2中归一化分数来获得稳健性的操作，它是从前面的图像计算出来的，但这里我们使用共视信息。此外，所有和关键帧 $K_i$ 直接连接的关键帧都将从结果中丢弃。为了确认接受一个候选的闭环，必须连续地检测出三个一致的闭环候选（共视图中连接的关键帧），如果有多个与关键帧 $K_i$ 所观测到的环境相似的位置，则可以有多个闭环候选。

B. 计算相似变换

在单目SLAM中，地图的累积漂移有七个自由度：三个平移、三个旋转和一个尺度因子[6]。因此，要矫正一个闭环，需要计算一个从当前关键帧 $K_i$ 到闭环关键帧 $K_l$ 的相似变换，它告诉我们在闭环中累积的误差。这种相似变换的计算也将作为闭环正确性的几何验证。

首先计算与当前关键帧中的地图点相关的ORB描述子和闭环候选帧中地图点的ORB描述子之间的匹配关系。此时，已经获得了当前帧和每个闭环候选帧的3-D到3-D匹配关系。交替地对每个候选关键帧执行RANSAC迭代，试图用Horn的方法找到相似变换[42]。如果找到一个具有足够内点的相似变换 $S_{il}$ ，将对其进行优化(参见附录)，并进行引导搜索以获得更多的匹配关系。再次对相似变换 $S_{il}$ 进行优化，如果经过验证有足够的内点，则会接受这个闭环 $K_l$ 。

C. 闭环融合

闭环校正的第一步是融合重复的地图点，并将形成闭环的两帧的链接作为新的边插入共视图。首先，使用相似变换 $S_{il}$ 校正当前关键帧的位置 $T_{iw}$ ，并将该校正关系传播到 $K_i$ 的所有邻居，串联地进行变换，从而使闭环的两侧对齐。闭环关键帧及其邻域看到的所有地图点都投影到 $K_i$ 中，在投影周围的狭窄区域中进行搜索以获得匹配关系，如第V-D节所述。所有匹配的地图点和计算相似变换 $S_{il}$ 中的得到的内点都被融合。所有参与融合的关键帧都将更新其在共视图中的边，创建的新的边将用于闭环矫正。

D. 本质图优化

为了有效地矫正闭环，对本质图进行了位姿图优化，如第III-D节所述，该优化将闭环误差沿着本质图进行分配。通过相似变换进行优化，以校正尺度漂移[6]。在优化之后，每个地图点根据一个观察到它的的关键帧的校正结果进行变换。

实验

略

结论和讨论

A.结论

在这项研究中，我们提出了一个新的单目SLAM系统，详细描述了其构建模块，并在公共数据集上进行了详尽的评估。我们的系统已经证明它可以处理室内和室外场景以及汽车、机器人和手持运动的序列。在小室内场景中，该系统的精确度通常低于1厘米，在大室外场景中，精确度通常低于几米(一旦我们将尺度与地面真值对齐)。

目前，Klein和Murray的PTAM[4]被认为是实时单目视频中最精确的SLAM方法。PTAM的后端是BA，这不是巧合，BA是众所周知的离线从运动恢复结构的黄金标准方法[2]。PTAM的主要成功之一，也是Miuragnon早期的工作[3]，就是将这些知识引入机器人SLAM社区，并展示其实时性能。我们工作的主要贡献是将PTAM的多功能性扩展到该系统难以处理的环境中。为此，我们使用一些新的想法和算法从零开始设计了一个新的单目SLAM系统，但也结合了过去几年中发展的优秀工作，如闭环检测[5]，闭环矫正程序和共视图[6]，[7]，g2o优化框架[37]，以及ORB特征[9]。据我们所知，没有其他系统能在如此多的不同场景下如此精确地工作。因此，我们的系统是目前最可靠、最完整的单目SLAM解决方案。我们新的产生和剔除关键帧的策略允许创建几个关键帧，当这些关键帧被认为是多余的时，它们最终会被剔除。这种灵活的地图扩展在有条件的探索轨迹中非常有用，即接近纯旋转或快速移动。当在同一个环境中重复操作时，只有当场景的视觉内容发生变化时，地图才会增长，并存储其不同视觉表现的历史。通过分析这段历史，可以提取出长期建图的有趣结果。

最后，我们还证明了ORB特征具有足够的识别能力，能够从严重的视角变化中进行位置识别。此外，它们提取和匹配速度非常快(不需要多线程或GPU加速)，支持实时精确的跟踪和建图。

B.稀疏/基于特征的方法与稠密/直接方法

最近的实时单目SLAM算法，如DTAM [44]和LSD-SLAM [10]能够对环境进行稠密或半稠密的重建，而相机是通过直接优化图像像素强度来定位的。这些直接方法不需要特征提取，因此避免了相应的虚假特征关联。它们对模糊、低纹理和像沥青一样的高频纹理[45]也更稳定。与我们的系统或PTAM的稀疏点地图相比，它们稠密的重建可能对其他任务更有用，而不仅仅是相机定位。

然而，直接方法有其自身的局限性。首先，这些方法假设表面反射模型在真实场景中会产生自己的伪影。光度一致性限制了匹配的基线长度，通常会比基于特征的方法允许的范围窄。这对重建精度有很大影响，它需要宽基线观测来降低深度不确定性。直接方法，如果建模不正确，会受到卷帘式快门、自动增益和自动曝光的影响(如在TUM RGB-D基准中)。最后，因为直接方法通常对计算要求很高，所以地图只是像在DTAM那样增量扩展，或者地图优化被简化为一个位姿图，像在LSD-SLAM那样丢弃所有传感器测量。

相比之下，基于特征的方法能够匹配具有宽基线的特征，这得益于它们对视角和光照变化的良好不变性。BA联合优化摄像机位置和传感器测量生成的地图点。在结构和运动估计的背景下，Torr 和 Zisserman[46]指出了基于特征的方法相对于直接方法的优势。在这项研究中，我们提供了实验证明，证明基于特征的方法在实时SLAM中具有卓越的准确性。我们认为，单目SLAM的未来应该结合这两种方法的优点。

C.未来的工作

我们的系统的精度仍然可以通过在跟踪中包含无穷远的点来提高。这些点没有足够的视差，我们的系统也没有将它们包括在地图中，但是他们对相机的旋转估计非常有用[21]。

另一个想法是将我们系统的稀疏地图升级为更稠密和更有用的重建结果。得益于我们的关键帧选择，关键帧构成了一个紧凑的环境概要，它具有非常高的位姿精度和丰富的共视信息。因此，ORB-SLAM稀疏地图可以是一个很好的初始猜测和骨架，在此基础上可以构建一个稠密而且准确的地图。这方面的第一次努力在[47]中提出。

附录：非线性优化

BA[1]：地图点三维位置 $X_{w,j} \in \mathbb{R}^3$ 和关键帧位姿 $T_{iw}\in SE(3)$ ，其中 $w$ 代表世界坐标系被进行了优化，以最小化相对于匹配特征点 $x_{i,j}\in \mathbb{R}^2$ 的重投影误差。地图点 $j$ 在关键帧 $i$ 中的观测误为

$e_{i,j}=x_{i,j}-\pi_{i}(T_{iw},X_{wj}) \tag{5}$

其中， $\pi_{i}$ 是投影函数

$\pi_i(T_{iw},X_{w,j})=\begin{bmatrix} f_{i,u} \frac{x_{i,j}}{z_{i,j}}+c_{i,u} \\ f_{i,v} \frac{y_{i,j}}{z_{i,j}}+c_{i,v}\end{bmatrix} \\ \begin{bmatrix} x_{i,j} & y_{i,j} & z_{i,j} \end{bmatrix}^T = R_{iw}X_{w,j} + t_{iw} \tag{6}$

其中 $R_{iw} \in SO(3)$ 和 $t_{iw} \in \mathbb{R}^3$ 分别是 $T_{iw}$ 的旋转和平移部分， $f_{i,u},f_{i,v})$ 和 $c_{i,u},c_{i,v})$ 是与相机 $i$ 相关的焦距和主点。要最小化的代价函数为

$C=\sum_{i,j}{\rho_h(e_{i,j}^T\Omega_{i,j}^{-1}e_{i,j})} \tag{7}$

其中 $\rho_h$ 表示Huber鲁棒代价函数， $\Omega_{i,j} = \sigma_{i,j}^2I_{2 \times 2}$ 表示与检测到关键点的尺度相关的协方差矩阵。对于全局BA(用于第IV节中解释的地图初始化和第VIII-E节中的实验)，我们优化了所有点和关键帧，但第一个关键帧除外，它被固定作为为原点。在局部BA(参见第VI-D节)中，局部区域中包含的所有点都进行了优化，而关键帧子集是固定的。在位姿优化或仅运动BA(参见第V节)中，所有点都是固定的，并且只优化相机位姿。
Sim(3)约束条件下的位姿图优化[6]：给定二元边的位姿图(见第VII-D节)，我们将边中的误差定义为

$e_{i,j}=log_{Sim(3)}(S_{ij}S_{jw}S_{iw}^{-1}) \tag{8}$

其中， $S_{ij}$ 是在位姿图优化和将比例因子设置为1之前，从SE(3)位姿计算的两个关键帧之间的相对Sim(3)变换。在闭环边的情况下，使用Horn[42]的方法计算该相对变换。 $log_{Sim(3)}$ [48]变换到切线空间，因此误差为 $\mathbb{R}^7$ 中的向量。目标是优化Sim(3)关键帧位姿，以最小化成本函数

$C=\sum_{i,j}{e_{i,j}^T\Lambda_{i,j}e_{i,j}} \tag{9}$

其中 $\Lambda_{i,j}$ 是边的信息矩阵，如[48]中所述，我们设置为单位矩阵。我们固定闭环关键帧，以固定7个标准自由度。尽管该方法是全局BA的粗略近似，但我们在第VIII-E节中通过实验证明，它比BA具有显著的更快和更好的收敛性。
相对Sim(3)优化：给定一组 $n$ 个匹配 $\Rightarrow j$ （关键点及其相关的三维地图点）在关键帧1和关键帧2之间，我们希望优化相对Sim(3)变换 $S_{12}$ (参见第VII-B节)，以最小化两幅图像中的重投影误差

$e_1 = x_{1,i}-\pi_1(S_{12},X_{2,j}) \\ e_2 = x_{2,j} - \pi_2(S_{12}^{-1},X_{1,i}) \tag{10}$

需要最小化的代价函数是

$\sum_{n}(\rho_h(e_1^T\Omega_{1,i}^{-1}e_1)+ \rho_h(e_2^T\Omega_{2,j}^{-1}e_2)) \tag{11}$

式中， $\Omega_{1,i}$ 和 $\Omega_{2,j}$ 是与检测到图像1和2中关键点的尺度上对应的的协方差矩阵。在此优化中，点是被固定的。

总结：

主要内容如下：

主要贡献如下：

实时性：

ORB特征（Oriented FAST and Rotated BRIEF），采用FAST特征和BRIEF描述子，方向采用几何中心指向灰度质心，具有旋转不变性

共视图，跟踪建图只处理共视区域，而与全局地图无关

基于位姿图（本质图）优化的实时闭环矫正

重定位：词袋+EPnP

启发式的单目初始化，同时适用于平面场景的单应矩阵和适应于非平面场景的基本矩阵

选择地图点和关键帧的“适者生存”策略，在生成阶段要求比较宽松，但在剔除时要求十分严格。

你可能感兴趣的:(SLAM论文阅读,自动驾驶,计算机视觉,人工智能)

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数