勤奋骚年

RTAB-Map作为一个开放源代码的激光雷达和视觉SLAM库大规模和长期的在线操作

摘要：

RTAB-Map从2013年开始作为开源库发布，最初是一种基于外观的闭环检测方法，带有内存管理，用于处理大规模、长期的在线操作。然后，它发展到在各种机器人和移动平台上实现同步定位和映射(SLAM)。由于每个应用程序在传感器、处理能力和移动方面都有自己的局限性，因此就成本、准确性、计算能力和集成的方便性而言，它提出了采用哪种SLAM方法最合适的问题。由于大多数SLAM方法要么是可视化的，要么是基于lidar的，因此很难进行比较。因此，我们决定扩展RTAB-Map，以支持视觉和激光雷达SLAM，在一个包中提供一个工具，允许用户实现和比较各种3D和2D解决方案，这些解决方案适用于具有不同机器人和传感器的广泛应用领域。介绍RTAB-Map及其使用这个扩展的版本比较,定量和定性,一个大的选择受欢迎的真实数据集(如KITTI, EuRoC,TUM RGB-D,麻省理工学院的PR2机器人数据)，从自主导航应用的实际角度概述了视觉和激光雷达SLAM配置的优势和局限性。

1、引言：

用于基于外观的实时映射的RTAB-Map是我们的开源库，它使用内存管理方法实现了循环关闭检测，限制地图的大小，使圈闭检测始终在固定的时间限制下进行，满足长期大规模环境地图在线需求。RTAB-Map于2009年启动，2013年作为开放源码库发布，此后扩展为完整的基于图的SLAM方法[Stachniss等人，2016]，用于各种设置和应用[Laniel等人，2017，Foresti等人，2016，Chen等人，2015，Goebel, 2014]。因此，受诸如此类的实际需求的驱动，RTAB-Map已经发展成为一个跨平台的独立c++库和ROS package。

在线处理：接收到传感器数据后，SLAM模块的输出应限制到最大延迟。特别是对于基于图的SLAM，随着映射的增长，需要更多的处理时间来检测循环闭包、优化图和组装映射。此外，与其他处理模块的集成，如控制、导航、避障、用户交互、对象识别等，也可能限制SLAM可用的CPU时间。因此，有可能限制计算负载有助于避免与其他模块的滞后问题，甚至可能是必要的，以防止不安全的情况。
鲁棒性和低漂移里程数：虽然闭环检测可以纠正大多数里程数漂移，但在现实场景中，机器人往往不能正确地在地图上定位自己，要么是因为它正在探索新的领域，要么是因为在环境中缺乏识别特征。在此期间，应尽量减少测程偏移，以便在进行定位之前仍可进行准确的自主导航，以避免错误地覆盖地图区域(例如，在房间的入口错误地添加障碍，使其成为封闭区域)。当环境中有足够多的特征时，使用相机和lidars等外部传感器来估计里程可以非常准确，但是仅使用一种传感方式可能会有问题，如果在环境中跟踪的特征不再可见，那么很容易发生定位失败。使用混合的本体感受(例如，车轮编码器，惯性测量单元(IMU))和外部感受传感器将增加对里程数估计的鲁棒性。
健壮的定位：SLAM方法必须能够识别它什么时候重新访问过去的位置(用于循环闭合检测)来修正地图。动态环境、光照变化、几何形状变化甚至重复环境都可能导致不正确的定位或定位失败，因此该方法应该对误报具有鲁棒性。
实用的地图生成和开发：大多数流行的导航方法都基于占用网格，因此开发能够提供3D或2D占用网格即开即用的SLAM方法有助于轻松集成。此外，当环境大部分是静态的时候，更实际的做法是进行映射会话，然后切换到本地化，设置内存使用量，并节省映射管理时间。
多会话映射(也称为绑架机器人问题或初始状态问题)：当打开时，机器人不知道自己与先前创建的地图的相对位置，因此无法规划到以前访问过的位置的路径。避免机器人重启过程映射到零个或本地化本身在启动前之前构建地图映射，多会话映射允许SLAM方法在启动时使用自己的引用初始化新映射，当遇到以前访问过的位置时，可以计算两个映射之间的转换。这带来了避免重新映射整个环境的优点，当只需要重新映射一小部分或添加一个新区域时。

由于现有的SLAM方法多种多样，因此确定针对特定平台和应用程序使用哪一种方法是一项困难的任务，这主要是因为它们之间缺乏比较分析。SLAM方法通常是基于视觉的[Fuentes-Pacheco et al.， 2015]或仅基于lidar的[Thrun, 2002]，并且通常在只有摄像机或激光雷达的数据集上进行基准测试，但并非两者都有，因此很难对它们进行有意义的比较。当它们的实现不可用、只能离线运行或缺少robot平台上所需的输入格式时，情况就更严重了。2008年引入的机器人操作系统(ROS) [Quigley et al.， 2009]极大地促进了传感器数据格式的标准化，从而提高了机器人平台之间的互操作性，使比较SLAM方法成为可能。但是，集成ROS中的视觉SLAM方法并不经常在自主机器人上测试：只有通过远程操作或人类移动传感器进行SLAM[Mur-Artal and Tard´os 2017, Engel et al.，2015,Dai et al.， 2017]。这避免了正确的tf (Transform Library) [Foote, 2013]处理根据机器人基础帧转换输出，以满足ROS坐标系约定。它还避免了需要地图输出(例如，2D或3D占用网格)兼容的导航算法来规划路径和避免障碍。此外，上面概述的一些实际需求并不总是由SLAM方法解决，因此限制了比较。

因此，由于RTAB-Map的发展是为了处理这些实际需求，我们决定进一步扩展RTAB-Map的功能，以比较用于自主机器人导航的视觉和激光雷达SLAM配置。RTAB-Map是一种以内存管理为核心的闭环方法，它不依赖于使用的里程计方法，这意味着它可以使用视觉里程计、激光雷达里程计甚至仅仅是车轮里程计。这意味着，RTAB-Map可以用于实现视觉SLAM方法、激光雷达SLAM方法或两者的混合，这使得在真实机器人上比较不同的传感器配置成为可能。本文描述了扩展版本的RTAB-Map库，并演示了它用于比较最先进的视觉和激光雷达SLAM方法，从而概述了自治导航的两种范例之间的实际限制。

论文组织如下。第2节简要介绍了目前流行的SLAM方法，它们与ROS兼容，可用于机器人的比较评估。第3节介绍了扩展版RTAB-Map的主要组件。第4节使用RTAB-Map比较其视觉和激光雷达SLAM配置在使用标准离线和在线数据集的轨迹性能方面的差异：KITTI数据集用于自动驾驶汽车的户外立体和三维激光雷达测绘；用于手持RGB-D映射的TUM RGB-D数据集；用于无人机立体映射的EuRoC数据集；MIT Stata中心的数据集比较了PR2机器人的室内立体声、RGB-D和2D激光雷达SLAM配置。第5节根据所使用的传感器，评估了地图质量和计算性能的变化，并展示了内存管理对在线地图的影响。最后，第6节根据观察到的结果，提出了通过使用RTAB-Map获得的关于自主机器人SLAM应用中传感器选择的指导方针。

2、在ROS上可获得流行的SLAM方法

有很多开源的SLAM方法可以通过ROS获得。在这一节中，我们回顾了最流行的一些方法，以概述它们的特点，并根据输入和输出来定位RTAB-Map所涵盖的内容，以处理SLAM方法的比较研究。

让我们从以下激光雷达方法开始：

GMapping [Grisetti等人，2007]和TinySLAM [Steux和El Hamzaoui, 2010]是两种使用粒子滤波来估计机器人轨迹的方法。只要有足够的估计粒子，并且实际位置误差与输入测程的协方差相对应，粒子滤波就收敛到一个能很好地代表环境的解，特别是在有环路闭合时的GMapping。GMapping是ROS的默认SLAM方法，广泛用于从2D激光扫描中获得环境的2D占用网格图。一旦地图被创建，它可以与自适应蒙特卡罗定位（Monte Carlo Localization
）[Fox et al.， 1999]用于定位和自主导航。
Hector SLAM [Kohlbrecher et al.， 2011]可以从2D激光雷达创建快速2D占用网格地图计算资源少。在真实世界的自主导航场景中，如RoboCup救援机器人联盟竞赛中，它已经被证明可以产生非常低漂移的定位。它也可以使用像IMU这样的外部传感器来估计机器人的三维位置。然而，Hector SLAM并不是一个完整的SLAM，因为它不是检测循环闭包，因此在访问以前的本地化时无法纠正映射。Hector SLAM不需要外部测程，这在机器人没有外部测程时可能是一个优势，但在没有很多几何约束的环境下操作时可能是一个劣势，限制了激光扫描匹配性能。
ETHZASL-ICP-Mapper，基于libpointmatcher库[Pomerleau et al.， 2013]，可以从2D激光雷达创建2D占用网格地图，从2D或3D lidars创建组装点云。但与Hector SLAM类似，该方法不检测循环闭包，因此无法纠正随时间变化的映射错误。
Karto SLAM [Vincent et al.， 2010]、Lago SLAM [Carlone et al.， 2012]和谷歌制图师[Hess et al.， 2016]是基于激光雷达图形的SLAM方法。他们可以从自己的图形表示生成2D占用网格。谷歌制图器也可以作为背包映射平台，因为它支持3D lidars，从而提供3D点云输出。在映射时，它们创建由图中的约束链接的子映射。当检测到环路闭合时，对子地图的位置进行重新优化，以纠正传感器噪声带来的误差和扫描匹配精度。与Hector SLAM不同的是，外部测程可以在低几何复杂度的环境中获得更健壮的扫描匹配。
BLAM是一个基于激光雷达图形的SLAM，仅支持3D激光雷达用于环境的3D点云生成。从在线文档(这是唯一可用的文档)来看，当机器人访问以前的位置时，循环闭包似乎通过扫描匹配在本地检测到，然后使用GTSAM优化地图[Dellaert, 2012]。这意味着BLAM不能关闭大的循环，因此本地扫描匹配将不能适当地注册。
SegMatch [Dub ' e et al.， 2016]是一种基于3D lidar的环路闭合检测方法，也可以作为基于3D lidar的SLAM使用。通过匹配激光点云生成的3D片段(例如车辆、建筑物或树木的部分)来检测环路闭合。

在这些基于lidar的SLAM方法中，只有SegMatch可以用于多会话或多机器人映射[Dub ' e et al.， 2017]。

关于visual SLAM，目前有很多开源方法，但在机器人上使用的却不多(参考[Zollh ofer et al.， 2018]对3D重建聚焦方法的综述)。导航,以避免歧义处理规模,我们限制我们的审查方法能够估计的真正规模环境而映射(例如,立体声和RGB-D相机或visual-inertial测程法)，因此不包括结构与运动或单眼SLAM的方法加以改进([Klein and Murray，2007)，SVO(Forster et al, 2014), REMODE [Pizzoli et al ., 2014), DT-SLAM [Herrera et al ., 2014), LSD-SLAM([Engel et al, 2014)或ORB-SLAM [Mur-Artal et al ., 2015)。以下视觉SLAM方法不会随时间发生这种尺度漂移。

maplab [Schneider et al.， 2018]和VINS-Mono [Yi et al.， 2017]最近发布了基于视觉惯性图的SLAM系统。仅使用IMU和摄像机，他们就可以为本地化提供可视化地图。maplab的工作流程分为两个步骤：数据记录在开环阶段仅使用视觉惯性测程；然后是地图管理、闭环检测、图形优化、多会话、密集地图重构)离线完成。生成的可视化地图随后可以在本地化模式中使用。相比之下，VINS-Mono的地图管理流程是在线完成的。在导航方面，可以提供GPU计算的本地TSDF体积图，用于避障和路径规划。为了在大型环境中保持有限的处理时间，VINS-Mono限制了图的大小，首先删除没有关闭循环的节点，然后根据图的密度删除其他节点。
ORB-SLAM2 [murr - artal和Tard os, 2017]和S-PTAM [Pire et al.， 2017]是目前最先进的基于特征的视觉SLAM方法中的两种，它们可以与立体声摄像机一起使用。最近，ProSLAM [Schlegel et al.， 2017]已经发布(目前仅提供基准测试工具)，以提供一个全面的开源包，使用众所周知的可视化SLAM技术。对于ORB-SLAM2，它也可以与RGB-D摄像机一起使用。它们都是基于图的SLAM方法。对于ORB-SLAM2和S-PTAM，当使用DBoW2 [Galvez-Lopez and Tardos, 2012]检测到一个环路闭合时，将使用bundle调整对映射进行优化。在一个单独的线程中完成闭环后的图优化，以避免影响摄像机跟踪帧率性能。对于ProSLAM，通过直接比较map中的描述符来检测循环闭包，而不是使用bag-of-words的方法。在所有这些方法中，随着map的增长，环路闭合检测和图形优化处理时间随着映射的增长而增加，使得环路闭合检测在检测到之后会有显著的延迟。这些方法保持了一个稀疏的特征图。如果没有像激光雷达方法那样的占用网格或密集的点云输出，它们就很难在真正的机器人上使用。
DVO-SLAM [Kerl et al.， 2013]， rgbidi - slam [Gutierrez-Gomez et al.， 2016]和MPR [Della Corte et al.， 2017]，不使用局部视觉特征来估计运动，而是使用RGB-D图像所有像素上的光度和深度误差。它们可以产生密集的点云环境。MPR也可以与激光雷达一起使用，但它只是一种测程方法。DVO-SLAM缺乏一种独立于姿态估计的闭环检测方法，这使得它不太适合大规模的映射。
ElasticFusion [Whelan et al.， 2016]、Kintinuous [Whelan et al.， 2015]、BundleFusion [Dai et al.， 2017]和InfiniTAM [K ahler et al.， 2016]都是基于RGB-D相机的截断符号距离场(truncated signed distance field, TSDF)体积。他们可以在线重建非常吸引人的基于surfeline的地图，但是需要一台强大的计算机和最新的Nvidia GPU。对于ElasticFusion，虽然能够实时处理小环境下的摄像机帧，但每帧的处理时间根据地图中surfels的数量增加。对于BundleFusion，闭环检测的全局密集优化时间随着环境的大小而增加。InfiniTAM闭环检测的速度似乎更快，尽管闭环检测和校正的处理时间仍然随着环境的大小而增加。虽然是开源的，但这些算法不支持ROS，因为它们依赖于GPU上的映射和跟踪之间极其快速和紧密的耦合。

所有这些先前的视觉冲击方法都假设摄像机从不被遮挡，或者图像总是有足够的视觉特征来跟踪。对于一个自主机器人来说，这样的假设在实际操作中是不可能实现的，因为它的摄像头可能会被经过的人完全挡住，或者当机器人在导航过程中面对的是一个没有视觉特征的表面(比如白色的墙壁)。下面的视觉SLAM方法被设计得对这些事件更加健壮：

MCPTAM [Harmat et al.， 2015]使用多个摄像机来增加系统的视场。如果视觉特征可以通过至少一个摄像头感知到，MCPTAM就能够跟踪位置。
RGBDSLAMv2 [Endres et al.， 2014]可以使用外部测程法进行运动估计。ROS包(如机器人定位[Moore和Stouch, 2014])可用于传感器融合(使用扩展的卡尔曼滤波)多个测程源，以获得更可靠的测程。RGBDSLAMv2可以生成3D占用网格(OctoMap [Hornung et al.， 2013])和环境的密集点云。

表1总结了开源的、与ros兼容的SLAM方法的输入和输出。激光雷达3D类别包括所有点云类型，包括那些来自RGB-D相机的深度图像。Odom指的是可以用来帮助SLAM方法计算运动估计的里程数输入。三维入住率网格地图是指OctoMap [Hornung et al.， 2013]。请注意，ORB-SLAM2和RGBiD-SLAM没有任何在线输出：它们确实有一个查看姿态和点云的可视化工具，但是它们没有将它们作为ROS主题提供给其他开箱即用的模块。VINS-Mono确实提供了当前点云的里程测量，但没有地图和TSDF地图输出无法通过当前项目页面。表1中的最后一项说明了在本文提供的扩展版本的RTAB-Map中可以使用哪些输入和输出。除了RTAB-Map和RGBDSLAMv2之外，没有任何可视化SLAM方法提供自主导航所需的开箱即用的网格输出。RGBDSLAMv2 [Endres et al.， 2014]可能是与RTAB-Map最相似的视觉SLAM方法，因为两者都可以使用外部里程测量作为运动估计。虽然他们没有将IMU与相机相结合，但他们仍然可以使用视间测程方法和外部测程输入。它们还可以生成3D占用网格(OctoMap [Hornung et al，2013])和用于依赖模块的密集点云。然而，RTAB-Map也可以提供类似于基于lidar的2D占用网格的SLAM方法。

表1:流行的与ros兼容的激光雷达和视觉SLAM方法及其支持的输入和在线输出

3、RTAB-Map描述

rtabmap是一种基于图的SLAM方法，自2013年起就作为rtabmap ros包集成到ROS中。图1显示了它的主要ROS节点rtabmap。里程计是RTABMap的外部输入，这意味着SLAM也可以使用任何一种里程计来使用适合给定应用程序和机器人的里程计。地图的结构是一个带有节点和链接的图。在传感器同步之后，短时记忆(STM)模块创建一个节点来记忆测程姿态、传感器的原始数据和对下一个模块有用的附加信息(例如，用于环路闭合和邻近检测的可视化表示，以及用于全球地图组装的局部占用网格)。根据从节点创建的数据的重叠程度，以毫秒为单位，以固定的速率(Rtabmap/DetectionRate)创建节点。例如，如果机器人移动速度快，传感器范围小，则需要增加检测率，以保证后续节点的数据重叠，但设置过高则会造成重叠不必要地增加内存使用和计算时间。一个链接包含两个节点之间的严格转换。有三种链路：相邻链路、环路闭合链路和邻近链路。在STM中，通过里程变换在相邻节点之间添加邻居链接。分别通过环路闭合度检测和接近度检测来增加环路闭合度和接近度链接。所有链接都用作图优化的约束。当图数据中添加了一个新的环路闭合度或接近度链接时，图数据优化将计算出的误差传播到整个图数据中，以减少测程偏移。通过优化图形，可以将OctoMap、点云和2D占用网格输出组装并发布到外部模块。还可以通过tf [Foote, 2013] /map /odom来获得机器人在地图帧中的定位。

图1：RTAB-Map ROS节点的方框图。所需的输入是：TF来定义传感器相对于机器人基座的位置；从任何来源(可以是3DoF或6DoF)测程；带有相应校准信息的摄像机输入(一个或多个RGB-D图像或立体图像)之一。可选的输入要么是来自2D激光雷达的激光扫描，要么是来自3D激光雷达的点云。然后，来自这些输入的所有消息被同步并传递给图slam算法。输出为：包含最新添加节点的地图数据，包含压缩的传感器数据和图形；没有任何数据的地图图形；在TF上发布的里程表校正；一个可选的OctoMap (3D占用网格)；可选的稠密点云；一个可选的2D占用网格。

RTAB-Map内存管理方法[Labb e and Michaud, 2013]运行在图形管理模块之上。它用于限制图形的大小，以便在大型环境中实现长期在线SLAM。如果没有内存管理，随着图形的增长，循环闭合和邻近检测、图形优化和全局地图装配等模块的处理时间最终会超过实时约束，即时，处理时间可以变得大于节点获取周期时间。基本上，RTAB-Map内存分为工作内存(WM)和长期内存(LTM)。当一个节点被转移到LTM时，WM中的模块将不再使用它。当Rtabmap的更新时间超过了固定的时间阈值“Rtabmap/TimeThr”时，WM中的一些节点被转移到LTM，以限制WM的大小并减少更新时间。与固定时间阈值类似，还有一个内存阈值“Rtabmap/MemoryThr”，可用于设置WM可以容纳的最大节点数。为了确定要将哪些节点转移到LTM，加权机制确定比其他节点更重要的位置，使用启发式方法，如位置观察的时间越长，它就越重要，因此应该留在WM中。为此，在创建新节点时，STM将节点的权重初始化为0，并将其与图中的最后一个节点进行可视比较(得出相应可视化表示的百分比)。如果它们是相似的(对应的可视化表示超过相似阈值“Mem RehearsalSimilarity")，则新节点的权重将增加1加上最后一个节点的权重。将最后一个节点的权值重置为0，如果机器人不移动，则丢弃最后一个节点，以避免不必要地增加图的大小。当达到时间或内存阈值时，首先将最老的最小加权节点转移到LTM。当WM中的某个位置发生环路闭合时，可以将该位置的相邻节点从LTM带回WM，以便进行更多的环路闭合和邻近检测。当机器人在之前访问过的区域移动时，它可以逐渐记住过去的位置，从而扩展当前组装的地图，并使用过去的位置进行本地化[Labb´e and Michaud, 2017]。

接下来的部分将更详细地解释RTAB-Map的管道，从里程表节点到全局映射组装。提供了配置和使用RTAB-Map的关键参数的定义。

3.1 测程法节点

测程节点可以实现任何一种测程方法，从简单的车轮（wheel）编码器和IMU衍生到更复杂的使用相机和激光雷达。独立于使用的传感器，它应该提供至少到目前为止以里程计信息形式估计的机器人姿态的RTAB-Map与相应的tf的变换(如/odom /base link)。当本体感受测程法在机器人上还不能使用时，或者当它不够精确时，必须使用视觉或基于lidar的测程法。对于视觉测程，RTAB-Map实现了两种标准的测程方法[Scaramuzza and Fraundorfer, 2011]，称为帧到图(F2M)和帧到帧(F2F)。这些方法之间的主要区别是，F2F根据最后一个关键帧注册新帧，而F2M根据根据过去关键帧创建的局部特征来映射注册新帧。这两种方法也被用于lidars，被称为Scan-To-Map (S2M)和Scan-To-Scan (S2S)，它们遵循与F2M和F2F相同的思想，但使用点云而不是3D视觉特征。下面几节将介绍如何在选择这些视觉或激光测距方法之一时实现测距节点。

3.1.1 视觉测程法

图2显示了使用两种颜色区分F2F(绿色)和F2M(红色)的RTAB-Map视觉测程。它可以使用RGB-D或立体声摄像机作为输入。
tf需要知道摄像机放置在机器人的哪个位置，以便将输出里程数转换到机器人的基础帧(例如/基础链接)。如果摄像头在机器人的头上，并且机器人头部转动，只要机器人身体和机器人头部之间的tf也更新，就不会影响机器人底座的里程数。过程如下。

特征检测：当帧被捕获时，GoodFeaturesToTrack [Shi et al.， 1994] (GFTT)特征被检测到，其最大数量“Vis/MaxFeatures"参数确定。RTAB-Map支持OpenCV中所有可用的特征类型，但是GFTT被用来简化参数调整，并在不同的图像大小和光线强度下得到一致的检测特征。对于立体图像，使用迭代Lucas-Kanade方法[Lucas and Kanade, 1981]通过光流计算立体对应，得到左右图像之间的每个特征的视差。对于RGB-D图像，使用深度图像作为GFTT的掩码，以避免提取深度无效的特征。
特征匹配：对于F2M，采用最近邻搜索[Muja and Lowe, 2009]和最近邻距离比(NNDR)检验[Lowe, 2004]，将提取的特征与特征图中的特征进行简要描述[Calonder et al.， 2010]。特征图包含来自最后关键帧的描述符的3D特征。NNDR由参数“Vis/CorNNDR”定义。对于F2F，光流是直接在GFTT特征上完成的，而不需要提取描述符，从而根据关键帧提供更快的特征对应。
运动预测：根据之前的运动变换，利用运动模型预测关键帧(F2F)或特征图(F2M)在当前帧中的位置。这限制了特性匹配的搜索窗口以提供更好的匹配，特别是在具有动态对象和重复纹理的环境中。搜索窗口半径由参数“Vis/CorGuessWinSize定义，并采用匀速运动模型。

图2：rgbd测程和立体测程ROS节点的方框图。TF定义摄像机相对于机器人基座的位置，并作为输出发布机器人基座的测程变换。对于RGB-D摄像机或立体声摄像机，管道是相同的，不同之处在于，立体声对应是计算出来的，以确定检测到的特征的深度。可以使用两种测程方法：绿色的框架到框架(F2F)方法和红色的框架到映射(F2M)方法。

运动估计：当计算出对应时，使用OpenCV [Bradski and Kaehler, 2008]的换位n点(PnP) RANSAC实现来计算当前帧对关键帧(F2F)或特征图(F2M)的相应变换。至少一个内部最小的“Vis/MinInliers”转换要被接受的。
本地包调整：使用本地包调整细化结果转换[Kummerle et al.， 2011]关于特征图中所有关键帧的特征(F2M)或仅针对最后一个关键帧的特征(F2F)
位姿更新：使用估计的转换，然后更新输出里程表和tf的 /odom /基本链接转换。协方差是使用中位数绝对偏差(MAD)方法计算[Rusu and Cousins, 2011]之间的3D特征对应。
关键帧和特征图更新：如果在运动估计期间计算的内层的数低于固定阈值“Odom/KeyFrameThr”，则更新关键帧或特征图。
对于F2F，关键帧只是被当前帧替换。对于F2M，通过添加新帧的未匹配特征，并通过局部Bundle Adjustment module对匹配特征的位置进行更新来更新Feature Map。Feature Map有一个固定的保留临时特征的最大值(因此有一个关键帧的最大值)。当Feature Map的大小超过了固定的阈值“OdomF2M/MaxSize”时，与当前帧不匹配的最老的Feature将被删除。如果一个关键帧不再具有Feature Map中的特征，那么它将被丢弃。

如果由于某些原因，相机当前的运动与预测的运动有很大的不同，可能找不到有效的变换(在运动估计或局部束调整之后)，因此再次匹配特征，但不进行运动预测。对于F2M，将当前帧中的特征与Feature Map中的所有特征进行比较，然后计算另一个变换。对于F2F，为了对无效的对应更加鲁棒，用NNDR代替光流进行特征匹配，因此需要提取简单的描述符。如果转换仍然无法计算，则认为里程计是丢失的，并在不进行运动预测的情况下比较下一帧。输出测程位姿设置为null，具有很高的方差(即
,9999)。订阅此可视化里程计节点的模块可以知道何时无法计算里程计。

需要注意的是，由于RTAB-Map中的里程测量是独立于映射过程的，为了方便和易于比较，其他视觉里程测量方法已经被集成到RTAB-Map中。所选择的方法是开源的或提供应用程序编程接口(API)，并且只能作为odometri使用。完整的视觉SLAM方法很难将里程计从映射过程中分离出来，因此无法集成，因为映射过程由RTAB-Map负责。在RTAB-Map中已经整合了7种法：FOVIS [Huang et al.， 2011]、Viso2 [Geiger et al.， 2011]、DVO [Kerl et al.， 2013]、OKVIS [Leutenegger et al.， 2015]、ORB-SLAM2 [mu - artal and Tard os, 2017]、MSCKF [Sun et al.， 2018]和谷歌Project Tango。FOVIS、Viso2、DVO、OKVIS和MSCKF是视觉或视觉惯性里程测量方法，通过将它们的里程测量输出连接到RTAB-Map，可以直接集成它们。ORB-SLAM2是一种完整的SLAM方法，因此为了集成到RTABMap中，在ORB-SLAM2中禁用循环关闭检测。ORB-SLAM2的局部捆绑调整仍在工作，这使得修改后的模块类似于F2M。最大的区别在于提取的特征的种类(ORB [Rublee et al.， 2011])以及如何将它们匹配在一起(直接描述符比较而不是NNDR)。与F2M类似，对feature map的大小进行限制，以实现恒定时间的视觉里程测量(在不限制feature map大小的情况下，ORB-SLAM2计算时间随时间增加)。由于没有设计ORB-SLAM2(至少在撰写本文时可用的代码中)来删除或忘记其映射中的特性，所以在删除特性时不会释放内存，这将导致内存使用量随时间的增加而增加(也就是内存泄漏)。为了将谷歌Project Tango集成到RTAB-Map库中，取消了区域学习功能，直接使用视觉惯性测程。

3.1.2 激光雷达测程法

图3给出了激光雷达测程的方框图，还使用了两种颜色来区分S2S(绿色)和S2M(红色)。使用类似于视觉测程的术语，关键帧指的是点云或激光扫描。激光扫描输入为2D，点云输入可为2D或3D。当机器人在扫描过程中移动时，激光扫描会产生一些运动变形。这里假设在将扫描提供给RTAB-Map之前纠正了这种失真。需要注意的是，如果激光扫描仪的旋转频率相对于机器人速度较高，那么激光扫描的运动畸变就会很小，因此可以忽略校正，而不会显著降低配准精度。过程描述如下：

图3：icp测程ROS节点的框图。TF定义了激光雷达相对于机器人基座的位置，并作为输出发布机器人基座的测程变换。可以使用两种里程测量方法：绿色表示扫描到扫描(S2S)方法，红色表示扫描到映射(S2M)方法。这些方法还可以选择使用恒速模型(粉红色)或另一种测程方法(蓝色)进行运动预测。对于后一种方法，输入测程的修正被发布在TF上。

点云滤波：对输入点云进行下采样，计算法线。使用tf将点云转换为机器人的基础帧，从而计算出相应的里程数(例如/base link)。
ICP注册：为了注册新的点云到点云图(S2M)或最后一个关键帧(S2S)，迭代最近邻点(ICP)[Besl and McKay, 1992]是使用点云匹配[Pomerleau et al.， 2013]的实现来完成的。点云图是由过去的关键帧组成的云。可以使用点对点(P2P)或点对平面(P2N)通信进行注册。P2N在有很多平面的人造环境中更受欢迎。
运动预测：由于ICP处理的是未知的对应关系，因此该模块在估计变换之前需要进行有效的运动预测，无论是从以前的配准还是从外部测程方法(例如，车轮测程)，通过tf(分别显示为蓝色和紫色)。身份变换仅在初始化处理前两帧时作为运动预测提供。如果不使用外部测程法作为初始猜测，则根据基于前面转换的恒速模型进行运动预测。这种技术的一个问题是，如果环境不够复杂(比如在走廊里)，如果对机器人的方向没有限制，里程表可能会漂移很多。在这种情况下，使用外部的初始猜测可以帮助估计环境缺少特性的方向上的运动。例如，一个机器人带着短程激光雷达在一条没有门的长走廊里移动。(无法分辨的几何图形)只会看到两条平行线。如果机器人在走廊方向上加速或减速，ICP将能够纠正方向，但它将无法检测到速度在走廊方向上的任何变化。在这种情况下，使用外部测程法可以帮助估计ICP不能估计的方向上的速度。如果当前点云的结构复杂性低于固定阈值(Icp/ pointtoplanemin复杂性)，则仅使用Icp估计方向，而位置(沿有问题的方向)则来自外部测程。将二维点云的结构复杂性定义为点云s法线的主成分分析(PCA)的第二个特征值乘以2。对于三维点云，使用第三个特征值乘以3。
位姿更新：注册成功后，测程仪会更新位姿。当使用外部测程法时，tf输出是外部测程法tf的修正，这样两个变换可以在同一个tf树中(即，/odom icp /odom /base link)。就像视觉测程法一样，使用MAD方法计算3D点之间的协方差[Rusu and Cousins, 2011]。
关键帧和点云图更新：如果对应比低于固定阈值“Odom/ScanKeyFrameThr”，则新帧为S2S关键帧。对于S2M，在将新的点云集成到点云映射之前，需要执行一个额外的步骤。从新的点云中减去地图(使用“OdomF2M/ScanSubtractRadius”的最大半径)，然后将其余的点添加到点云地图中。当点云图达到固定的最大阈值“OdomF2M/ScanMaxSize”时，删除最老的点。

万一ICP找不到变换，里程计就丢失了。与视觉测程不同，当运动预测为空时，激光雷达测程无法从丢失中恢复，以避免较大的测程误差。然后必须重新设置激光雷达的里程计。然而，只要激光雷达能够感知环境结构，机器人就很少会迷路。请注意，如果使用外部测程法，运动预测仍然会给出一个有效的估计，因此如果机器人返回丢失了跟踪的位置，ICP注册可以从丢失中恢复。最后，与集成的第三方视觉测程方法类似，一种称为LOAM (Zhang and Singh, 2017)的激光雷达测程方法的开源版本也被集成到RTAB-Map中进行比较。

3.2 同步

RTAB-Map有多种输入主题(例如，RGB-D图像、立体图像、里程计、2D激光扫描、3D点云和用户数据)，可以根据可用的传感器使用这些主题。rtabmap ROS节点工作所需的最小主题是通过主题或tf(例如/odom /base link)提供的注册RGB-D或用里程计校准的立体图像。RTAB-Map还支持多个RGB-D相机，只要它们具有相同的图像大小。需要精确的传感器tf(例如，/基础链路/摄像机链路)。图4和图5展示了两个带有相应tf树的可视化SLAM示例。RTAB-Map的视觉测程节点可以被任何其他的测程方法所代替。(如，车轮测程、其他视觉测程套件、激光雷达测程等)。虚线链接显示哪个节点正在发布相应的tf。对于描述机器人上传感器位置的其他tf帧，它们通常由摄像机驱动程序、一些静态转换发布程序或使用机器人的统一机器人描述格式的机器人状态程序发布。

图4：带有RGB-D摄像头的视觉SLAM，比如Xbox 360的Kinect。使用rgbd测程ROS节点计算rtabmap ROS节点的测程。
右边是这个传感器配置的标准TF树(用虚线将转换链接到相应的发布ROS节点)。

图5：用像BumbleBee2这样的立体摄像机拍摄的视觉效果。使用立体测程ROS节点计算rtabmap ROS节点的测程。RTAB-Map的ROS节点需要对立体图像进行校正，因此使用标准的立体图像proc ROS节点对其进行校正。右边是这个传感器配置的标准TF树(用虚线将转换链接到相应的发布ROS节点)。

一旦订阅了基本传感器，还有两个其他主题可以选择同步:一个2D激光扫描(如Hokuyo andSICK lidars)或一个3D点云(如Velodyne lidar)，分别以生成2D和3D网格占用。他们也可以使用ICP来精炼图表中的链接。

由于传感器并不总是以相同的速率在相同的时间发布数据，因此良好的同步对于避免数据的错误注册非常重要。ROS提供两种同步：精确同步和近似同步。精确同步要求输入主题具有完全相同的时间戳，即，以获取来自同一传感器的主题(例如，立体声摄像机的左、右图像)。近似同步比较传入主题的时间戳，并尝试以最小延迟错误同步所有主题。它用于来自不同传感器的主题。如果输入主题的子集(例如必须与准确的时间策略同步，同时与其他传感器大致同步。为此，可以使用rtabmap ros/rgbd同步ros nodelet将相机主题同步到rtabmap节点之前的类型为rtabmap ros/RGBDImage13的单一主题。图6展示了一个使用RGB-D摄像机和激光雷达的同步示例。RGB-D相机,ROS包并不总是为RGB和深度图像,提供相同的时间戳和rgbd同步也可以使用近似同步的同步图像在相机帧率(例如,30 Hz)独立于其他输入的速度(例如,激光扫描,测程法)。

图6:RGB-D摄像机(Xbox One的Kinect)与激光扫描(URG-04LX)和里程测量的同步示例。在这种情况下，里程数是通过车轮编码器计算的。在将生成的RGB-D图像消息与其他传感器(具有不同的发布速率)同步之前，使用rgbd同步ROS节点将摄像机消息同步在一起。右边是这个传感器配置的TF树的结果示例(用虚线将转换链接到相应的发布ROS节点)

3.3 STM(短时记忆)

当在STM中创建一个新节点时，为了补充[Labbe and Michaud, 2017]中描述的信息，现在将从深度图像、激光扫描或点云计算本地占用网格。

你可能感兴趣的:(论文学习)

论文学习笔记 | AAAI-2022 TS2Vec：实现时间序列通用表示叶庭云人工智能学习之路时间序列表征学习 TS2Vec 分层对比学习上下文一致性正样本选择策略
CSDN叶庭云：https://yetingyun.blog.csdn.net/APA引用格式：Yue,Z.,Wang,Y.,Duan,J.,Yang,T.,Huang,C.,Tong,Y.,&Xu,B.(2022,June).TS2Vec:Towardsuniversalrepresentationoftimeseries.InProceedingsoftheAAAIConferenceonAr
论文学习——基于双种群进化的不连续和不规则可行域动态约束多目标优化臭东西的学习笔记学习
论文题目：Dual-PopulationEvolutionBasedDynamicConstrainedMultiobjectiveOptimizationWithDiscontinuousandIrregularFeasibleRegions基于双种群进化的不连续和不规则可行域动态约束多目标优化（XiaoxuJiang,QingdaChen,Member,IEEE,JinliangDing,Se
论文学习_Directed Greybox Fuzzing kitsch0x97 学习
摘要：现有的灰盒模糊测试工具（GreyboxFuzzers，简称GF）在测试引导性方面存在明显不足，比如难以有效地将测试引导至特定的高风险变更或补丁、关键系统调用、危险代码位置，或是试图重现漏洞时涉及的堆栈追踪中的相关函数。为此，有研究者提出了“定向灰盒模糊测试”（DirectedGreyboxFuzzing，简称DGF）的概念，其核心目标是生成能高效触达指定程序位置的输入。为实现这一目标，他们设
论文学习 Generative Modeling by Estimating Gradients of the Data Distribution Lyrig~ 神经网络学习机器学习
论文学习GenerativeModelingbyEstimatingGradientsoftheDataDistribution前言前情提要分数匹配朗格文动力学核心问题流形假设产生的问题文章的解决方案前言个人认为，这篇SongYang大佬的文章虽然被网上很多人吹，然而我们还是应该避免捧杀，认真了解一下其文章的内容和思想，以及试图理解他是如何想到这种思路的。通过其论文引用，实际上也能发现Song神的
读论文学习——相位恢复和零像素填充 tt555555555555 深度学习学习笔记学习
文章目录相位恢复算法Gerchberg-Saxton(GS)算法基本原理算法步骤**优缺点**角谱迭代（AngularSpectrumIteration,ASI）算法基本原理**算法步骤****ASI的改进****优缺点**基于强度传输方程（TIE）的相位恢复基本原理**算法步骤****优缺点****三种算法的对比****总结**零像素填充1.增加图像的频谱分量2.减少衍射失真3.提高相位梯度下降
《FFCA-YOLO》论文学习，面向遥感图像的小目标检测最新方法张三不嚣张 1024程序员节目标检测人工智能深度学习神经网络 YOLO 计算机视觉
一、概要论文全称：《FFCA-YOLOforSmallObjectDetectioninRemoteSensingImages》发表期刊：IEEETRANSACTIONSONGEOSCIENCEANDREMOTESENSING.(TGRS)2024论文地址：FFCA-YOLOforSmallObjectDetectioninRemoteSensingImages|IEEEJournals&Maga
论文学习11：Boundary-Guided Camouflaged Object Detection zl29 学习目标检测人工智能
代码来源GitHub-thograce/BGNet:Boundary-GuidedCamouflagedObjectDetection模块作用BGNet利用额外的目标相关边缘语义信息来引导COD任务的特征学习，从而强制模型生成能够突出目标结构的特征。这一机制有助于提高目标边界的精准定位，从而提升伪装目标的检测性能。模块结构BGNet的架构基于Res2Net-50，编码器提取多级特征，解码器通过EA
论文学习：基于机器学习的光声图像分析1 superace7911 基于机器学习的光声图像处理机器学习人工智能图像处理
3/25——3/31期间论文学习笔记，关于基于机器学习的光声图像分析的6篇1区论文血管结构模拟&分割：Quantificationofvascularnetworksinphotoacousticmesoscopy链接数据集链接摘要这篇论文提出了一种新的方法，利用中观光声成像（MesoscopicPhotoacousticImaging,PAI）技术和高级图像分析技术，来非侵入性地定量化和分析活体
GAN开山之作--Generative Adversarial Nets 星空彡深度学习机器学习神经网络
GAN开山之作–GenerativeAdversarialNets最近对GAN比较有兴趣，所以开个坑记录一下读论文学习的知识。这是本专栏的第一篇论文，所以笔者认为解析GAN的开山之作——GenerativeAdversarialNets[1]是非常有必要的。有关数学推导部分本文借鉴了深度之眼的b站发布的视频[2]。本文并不是逐字翻译，主要是写笔者对这篇论文的见解思考，其中难免会有错的地方，欢迎讨论
论文学习3：深度学习增强的光声成像（PAI）的最新进展（综述） superace7911 基于机器学习的光声图像处理机器学习图像处理
原文链接有空可以细看，这里中列出了文中提到的部分研究结果写作大纲1.引言光声成像（PAI）的介绍，它结合了光学和超声成像的优点，为生物医学成像提供了一种有前景的模态。深度学习（DL）在解决PAI中存在的技术限制（如硬件限制、生物特征信息缺乏等）方面的潜力。2.DL方法的原理介绍DL的子集：监督学习、无监督学习和强化学习。详细说明代表性DL架构：卷积神经网络（CNN）、U-形神经网络（U-Net）和
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
论文学习1----理解深度学习需要重新思考泛化Understanding deep learning requires rethinking generalization 夏洛的网机器学习深度学习论文深度学习神经网络
——论文地址：Understandingdeeplearningrequiresrethinkinggeneralization1、有关新闻1.1新闻一：参考1：机器之心尽管深度人工神经网络规模庞大，但它们的训练表现和测试表现之间可以表现出非常小的差异。传统的思考是将小的泛化误差要么归结为模型族的特性，要么就认为与训练过程中的正则化技术有关。通过广泛的系统性实验，我们表明这些传统的方法并不能解释大
半监督语义分割论文学习记录西瓜真的很皮啊半监督语义分割深度学习机器学习人工智能
Semi-SupervisedSemanticSegmentationwithCross-ConsistencyTraining1.1motivation一致性训练的目的是在应用于输入的小扰动上增强模型预测的不变性。因此，学习的模型将对这样的小变化具有鲁棒性。一致性训练的有效性在很大程度上取决于数据分布的行为，即集群假设，其中类必须由低密度区域分隔。在语义分割中，在输入中，我们没有观察到低密度区域
2019-1-27晨间日记紫薇忘了水葫芦
在柳州的第二天起床：八点半左右天气：晴心情：好像很复杂，一会儿开心一会儿不开心纪念日：参加了晗大姐的婚礼任务清单昨日完成的任务，最重要的三件事：⒈把之前的论文题目整理了一遍⒉参加了婚礼⒊送了礼物改进：要静下来多看些书做些运动，多思考。习惯养成：早睡早起，饮食清淡周目标·完成进度开始读论文学习·信息·阅读阅读健康·饮食·锻炼饮食清淡，多锻炼人际·家人·朋友多联系工作·思考怎么把自己的工作做得更好最美
语义分割系列之FCN、DeeplabV1、V2、V3、V3Plus论文学习 Diros1g 学习深度学习计算机视觉
FCNFullyConvolutionalNetworks论文：FullyConvolutionalNetworksforSemanticSegmentation地址:https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf特点：用全卷积替
论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning JiangChSo 论文学习深度学习机器学习神经网络算法分布式
论文学习笔记POSEIDON:Privacy-PreservingFederatedNeuralNetworkLearningNDSS2021录用文章目录论文学习笔记POSEIDON:Privacy-PreservingFederatedNeuralNetworkLearning一、机器学习1.机器学习(ML)中的挑战2.隐私保护机器学习(PPML)二、POSEIDON方案1.系统和威胁模型2.方
论文学习——Vector Quantized Diffusion Model for Text-to-Image Synthesis 客院载论音频生成学习
文章目录引言正文Abstract文章的核心VQ潜在空间适合文本转图片生成VQDiffusion的比起自回归和GAN的其他模型的成果IntroductionNLP的成功给图片生成的启发自回归模型的单向误差解释预测误差累积VQDiffusion能够解决预测误差累计和单向误差两个问题解决单向误差的方式——每一次预测都是考虑所有token的上下文信息解决错误累积的方式——使用基于掩码和替换的扩散策略模型测
Python论文学习 -- 第二章 --- Python基础知识 Metallic Cat 学习
1.cmd命令器中如果想终止命令的话可以在终止行输入exit()函数调用停止命令一.字面量二.注释---对代码进行解释说明1.在print函数中：print(a,"asd",c)输出的结果为a变量对应的值+asd+c变量对应的值如：则输出的结果为：往type()函数中输入数据，它会返回数据的类型给我们，然后我们可以用print()函数将数据类型打出来1.值得注意的是变量本身是没有类型的，它只是一个
论文学习笔记：PoseFix: Model-agnostic General Human Pose Refinement Network wangyc1208 姿态估计
论文：https://arxiv.org/abs/1812.03595代码：https://github.com/mks0601/PoseFix_RELEASE—————————————————————————————————————————————————目标：多人姿态估计：本篇论文主要工作是利用一个人体姿势优化网络，从输入图像和姿势中对人体姿态进行优化。大概的效果如下图：———————————
2021-9-23晨间日记言二yaner
今天是什么日子起床：7：40就寝：23：00天气：美好心情：美好纪念日：无任务清单昨日完成的任务，最重要的三件事：投稿改进：想到就做到习惯养成：专注自己，提升自己周目标·完成进度准备再写一篇论文学习·信息·阅读多阅读，多学习健康·饮食·锻炼早饭：小米粥，鸡蛋，烧麦中饭：真味卤，杨枝甘露晚饭：黑米粥锻炼：一小时左右人际·家人·朋友一切都是最好的安排，虽然没有过去，但也有属于自己的收获工作·思考凡事早
论文学习记录之Deep-learning seismic full-waveform inversion for realistic structuralmodels 摘星星的屋顶论文深度学习人工智能
一、ABSTRACT—摘要标题：Deep-learningseismicfull-waveforminversionforrealisticstructuralmodels（用于真实结构模型的深度学习地震全波形反演）作者：BinLiu1,SenlinYang2,YuxiaoRen2,XinjiXu3,PengJiang2,andYangkangChen4（和SeisInvNet有共同作者，应该是同
论文学习记录之SeisInvNet（Deep-Learning Inversion of Seismic Data）摘星星的屋顶论文人工智能
目录1INTRODUCTION—介绍2RELATEDWORKS—相关作品3METHODOLOGYANDIMPLEMENTATION—方法和执行3.1方法3.2执行4EXPERIMENTS—实验4.1数据集准备4.2实验设置4.3基线模型4.4定向比较4.5定量比较4.6机理研究5CONCLUSION—结论1INTRODUCTION—介绍地震勘探是根据地震波在大地中的传播规律来确定地下地层结构的一种
基于变长频带选择的JPEG图像可逆数据隐藏-文献学习凌峰的博客学习算法计算机视觉
论文学习原文题目：ReversibleDataHidingofJPEGImageBasedonAdaptiveFrequencyBandLength发表期刊：TCSVT2023（中科院1区）作者：NingxiongMao,HongjieHe,FanChen,YuanYuan,LingfengQu摘要JPEG图像在互联网上被广泛使用。基于quantifieddiscretecosinetransfo
BASNet：Boundary-aware salient object detection Kun Li 应用算法目标检测计算机视觉
CVPR2019开源论文|BASNet：关注边界的显著性检测本文提出一种基于深度监督学习的前景提取构架BASNet，其在边缘感知上有优异的表现。https://mp.weixin.qq.com/s/fjq4UyDMN9Z9lvNZ7aNLWABASNet:Boundary-AwareSalientObjectDetection论文学习_basnet:boundary-awaresalientobj
Nerf-Wild神经辐射场论文学习笔记 Neural Radiance Fields for Unconstrained Photo Collections 出门吃三碗饭 Nerf学习记录三维重建学习笔记
前言：本文为记录自己在Nerf学习道路的一些笔记，包括对论文以及其代码的思考内容。公众号：AI知识物语B站后续同步更新讲解本篇文章主要针对其数学公式来学习其内容，欢迎批评指正！！！（代码下篇出）1：摘要提出基于学习（learning-based）方法，使用野外照片的非结构化集合（unstructuredcollectionsofin-the-wildphotographs）来合成复杂场景。之前的N
GroupMixFormer：Advancing Vision Transformers with Group-Mix Attention论文学习笔记 athrunsunny Transformer 学习笔记深度学习计算机视觉 transformer
论文地址：https://arxiv.org/pdf/2311.15157.pdf代码地址：https://github.com/AILab-CVC/GroupMixFormer摘要：ViT已被证明可以通过使用多头自注意力（MHSA）对远程依赖关系进行建模来增强视觉识别，这通常被表述为Query-Key-Value计算。但是，从“Query”和“Key”生成的注意力图仅捕获单个粒度的token-t
论文学习——基于查询的workload预测（CMU） _zhj 机器学习数据库
一、简介论文题目：Query-basedWorkloadForecastingforSelf-DrivingDatabaseManagementSystems发表在2018SIGMOD，来自cmu的数据库组（这个组真的很厉害）这篇论文主要讲数据库workload预测的问题。因为要实现数据库self-driving（如选择合适的时机在合适的列上自动创建索引），应该根据将要到来的查询对数据库进行优化，
第六十八周周报童、一周报深度学习
学习目标：项目论文学习时间：2023.12.23-2023.12.29学习产出：一、项目这周后两天在根据吉安方面的需求优化SQL，提升性能二、论文这周周六在杨老师的带领下仔细改了论文前两段，后面几天自己把剩下的改完了，目前还在给杨老师看。实验方面，由于LSUN一直跑不出好的效果，已经转为STL10和CelebA，预计得下周才能出结果。其他时间都在搞开题报告的东西。
DN-DETR论文学习彭祥. DETR系列学习深度学习计算机视觉
摘要本文提出了一种新颖的去噪训练方法，以加快DETR（DEtectionTRansformer）训练，并加深了对类DETR方法的慢收敛问题的理解。我们表明，缓慢收敛是由于二分图匹配的不稳定性导致早期训练阶段的优化目标不一致。为了解决这个问题，除了匈牙利损失之外，我们的方法还向Transformer解码器馈送了带有噪声的GT边界框，并训练模型重建原始框，从而有效地降低了二分图匹配难度，并加快了收敛速
MS-DETR: Efficient DETR Training with Mixed Supervision论文学习笔记 athrunsunny Transformer 学习笔记 transformer 深度学习算法
论文地址：https://arxiv.org/pdf/2401.03989.pdf代码地址（中稿后开源）：GitHub-Atten4Vis/MS-DETR:Theofficialimplementationfor"MS-DETR:EfficientDETRTrainingwithMixedSupervision"摘要DETR通过迭代生成多个基于图像特征的目标候选者，并为每个真实目标分配一个候选者，
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR