AI视野·今日CS.Robotics 机器人学论文速览
Tue, 10 Oct 2023
Totally 54 papers
上期速览✈更多精彩请移步主页
On Multi-Fidelity Impedance Tuning for Human-Robot Cooperative Manipulation Authors Ethan Lau, Vaibhav Srivastava, Shaunak D. Bopardikar 我们研究了当先前实验的输入输出数据可用时,如何设计人机交互 HRI 系统。特别是,我们考虑如何在与新操作员的协作操作任务的辅助设计中选择最佳阻抗。由于个体之间的差异,最适合一位机器人操作员的设计参数可能不是另一位机器人操作员的最佳参数。然而,通过使用线性自回归 AR 1 高斯过程合并历史数据,可以加速搜索新算子的最佳参数。我们提出了一个优化人类机器人协作操作的框架,该框架仅需要输入输出数据。我们建立了 AR 1 模型如何改善后悔的界限,并数值模拟人类机器人协作操作任务以显示后悔的改善。 |
DTPP: Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planning in Autonomous Driving Authors Zhiyu Huang, Peter Karkus, Boris Ivanovic, Yuxiao Chen, Marco Pavone, Chen Lv 运动预测和成本评估是自动驾驶汽车决策系统的重要组成部分。然而,现有的方法常常忽视成本学习的重要性,并将它们视为单独的模块。在本研究中,我们采用树形结构的策略规划器,并为自我条件预测和成本模型提出了一个可微的联合训练框架,从而直接提高了最终的规划性能。对于条件预测,我们引入了一个以查询为中心的 Transformer 模型,该模型执行高效的自我条件运动预测。对于规划成本,我们提出了一种具有潜在交互特征的可学习的上下文感知成本函数,促进可微联合学习。我们使用现实世界的 nuPlan 数据集及其相关的规划测试平台来验证我们提出的方法。我们的框架不仅符合最先进的规划方法,而且在规划质量方面优于其他基于学习的方法,同时在运行时方面运行效率更高。我们表明,联合训练比两个模块单独训练的性能明显更好。 |
A Learning-Based Framework for Safe Human-Robot Collaboration with Multiple Backup Control Barrier Functions Authors Neil C. Janwani, Ersin Da , Thomas Touma, Skylar X. Wei, Tamas G. Molnar, Joel W. Burdick 由于扭矩限制等驱动限制,确保复杂环境中的机器人安全是一项艰巨的任务。本文提出了一种安全关键控制框架,该框架利用多个备用控制器之间基于学习的切换来正式保证有界控制输入下的安全性,同时满足驾驶员意图。通过利用旨在维护安全和输入约束的备用控制器,备用控制屏障函数 BCBF 通过可行的二次程序 QP 构造隐式定义的控制不变性集。然而,BCBF 性能在很大程度上取决于所选备用控制器的设计和保守性,特别是在复杂(例如越野)条件下的人类驾驶车辆设置中。虽然使用多个备用控制器可以降低保守性,但确定何时切换是一个悬而未决的问题。因此,我们开发了一种广播方案,可以估计驾驶员意图并将 BCBF 与多种人机交互备份策略相集成。 LSTM 分类器使用来自机器人、人类和安全算法的数据输入来持续实时选择备用控制器。我们展示了我们的方法在双轨机器人避障场景中的有效性。 |
A Simple Open-Loop Baseline for Reinforcement Learning Locomotion Tasks Authors Antonin Raffin, Olivier Sigaud, Jens Kober, Alin Albu Sch ffer, Jo o Silv rio, Freek Stulp 为了寻找能够在运动任务上与深度强化学习竞争的最简单的基线,我们提出了一种受生物学启发的无模型开环策略。它利用先验知识并利用简单振荡器的优雅来生成周期性关节运动,在五种不同的运动环境中实现了可观的性能,其许多可调参数只是强化学习算法通常所需的数千个参数的一小部分。与 RL 方法不同,RL 方法在受到传感器噪声或故障时容易出现性能下降,而我们的开环振荡器由于不依赖传感器而表现出卓越的鲁棒性。 |
FeatSense -- A Feature-based Registration Algorithm with GPU-accelerated TSDF-Mapping Backend for NVIDIA Jetson Boards Authors Julian Gaal, Thomas Wiemann, Alexander Mock, Mario Porrmann 本文介绍了 FeatSense,这是一种用于高分辨率 LiDAR 的基于特征的 GPU 加速 SLAM 系统,与地图生成算法相结合,可在嵌入式硬件上实时生成大型截断符号距离场 TSDF。 FeatSense 使用 LiDAR 点云功能进行里程计估计和点云配准。注册的点云被集成到全局截断符号距离场 TSDF 表示中。 FeatSense 旨在在具有集成 GPU 加速器(例如 NVIDIA Jetson 板)的嵌入式系统上运行。在本文中,我们提出了一种实时的 TSDF SLAM 系统,专门为紧密耦合的 CPU GPU 系统量身定制。该实施在各种结构化和非结构化环境中进行评估,并根据现有参考数据集进行基准测试。本文的主要贡献是能够在 NVIDIA AGX Xavier 上以 10Hz 注册 Ouster OS1 128 LiDAR 的多达 128 条扫描线,同时与之前在相同功率预算下的工作相比,实现 TSDF 地图生成速度提高 100 倍 |
3D tomatoes' localisation with monocular cameras using histogram filters Authors Sandro Costa Magalh es, Filipe Neves dos Santos, Ant nio Paulo Moreira, Jorge Dias 执行农业任务,例如水果监测或收割,需要感知物体的空间位置。由于雷电干扰,RGB D 相机在开放环境下的使用受到限制。因此,在本研究中,我们使用直方图滤波器贝叶斯离散滤波器来估计番茄在番茄植株中的位置。研究了两种核滤波器:方核和高斯核。在有或没有高斯噪声和随机噪声的情况下,以及在实验室条件下的测试台上对所实现的算法进行了仿真。该算法在评估距离约为 0.5 m 的实验室条件下,模拟中的平均绝对误差低于 10 mm,测试台中的平均绝对误差低于 20 mm。 |
STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects on Production Lines Authors Yuxuan Kuang, Qin Han, Danshi Li, Qiyu Dai, Lian Ding, Dong Sun, Hanlin Zhao, He Wang 在这项工作中,我们提出了 STOPNet,一个用于生产线上 6 DoF 物体吸附检测的框架,重点关注但不限于透明物体,这是机器人系统和现代工业中一个重要且具有挑战性的问题。由于深度相机在感知其几何形状方面的缺陷,当前需要深度输入的方法无法处理透明物体,而我们提出了一种新颖的框架,基于多视图立体,仅依赖于 RGB 输入来重建生产线上的场景。与现有的工作相比,我们的方法不仅重建了整个 3D 场景,以便实时获得高质量的 6 DoF 吸力姿势,而且还推广到新的环境、新的布置和新的物体,包括具有挑战性的透明物体,无论是在模拟还是在现实中。真实世界。 |
DecAP: Decaying Action Priors for Accelerated Learning of Torque-Based Legged Locomotion Policies Authors Shivam Sood, Ge Sun, Peizhuo Li, Guillaume Sartoretti 由于后者具有顺从性和鲁棒性,腿式机器人的最优控制已经经历了从基于位置的控制到基于扭矩的控制的范式转变。与此同时,社区还转向深度强化学习 DRL,将其作为直接学习复杂现实生活任务的运动策略的有前途的方法。然而,大多数端到端 DRL 方法仍然在位置空间中运行,主要是因为扭矩空间中的学习通常样本效率低下,并且不能始终收敛到自然步态。为了应对这些挑战,我们引入了 Decaying Action Priors DecAP,这是一种新颖的三阶段框架,用于学习和部署腿部运动的扭矩策略。在第一阶段,我们通过训练位置策略来生成我们自己的模仿数据,从而无需设计最佳控制器时需要专业知识。第二阶段结合了衰减行动先验,以加强对模仿奖励辅助的基于扭矩的策略的探索。我们表明,我们的方法始终优于单独的模仿学习,并且对于这些奖励的扩展具有显着的鲁棒性。最后,我们的第三阶段通过直接部署我们学习的扭矩以及来自我们训练的位置策略的低增益 PID 控制,促进安全模拟到真实的传输。 |
Reinforcement learning for freeform robot design Authors Muhan Li, David Matthews, Sam Kriegman 受到动物形态适应必要性的启发,越来越多的工作试图扩大机器人训练范围,以涵盖机器人设计的物理方面。然而,能够优化机器人 3D 形态的强化学习方法仅限于重新定向或调整预定静态拓扑属的肢体大小。在这里,我们展示了设计具有任意外部和内部结构的自由形式机器人的策略梯度。这是通过沉积或移除原子构建块束以形成更高水平的非参数宏观结构(例如附属物、器官和腔体)的操作来实现的。 |
Care3D: An Active 3D Object Detection Dataset of Real Robotic-Care Environments Authors Michael G. Adam, Sebastian Eger, Martin Piccolrovazzi, Maged Iskandar, Joern Vogel, Alexander Dietrich, Seongjien Bien, Jon Skerlj, Abdeldjallil Naceri, Eckehard Steinbach, Alin Albu Schaeffer, Sami Haddadin, Wolfram Burgard 随着卫生部门劳动力短缺的加剧,对辅助机器人的需求不断增长。然而,开发这些机器人所需的测试数据很少,特别是对于主动 3D 物体检测应用,根本不存在真实数据。这篇简短的论文通过引入这样一个带注释的真实环境数据集来反驳这一点。捕获的环境代表了机器人医疗保健研究领域已经使用的区域。 |
Collision Avoidance for Autonomous Surface Vessels using Novel Artificial Potential Fields Authors Aditya Kailas Jadhav, Anantha Raj Pandi, Abhilash Somayajula 随着水路运输需求的不断上升,往来该水域的船舶数量也相应增加。这导致船舶之间发生更多的事故和碰撞,其中一些导致重大人员伤亡和经济损失。研究表明,人为错误是造成此类事件的一个主要因素。海运业正在不断探索新的自主方法,以缓解这一问题。本研究介绍了使用新型人工势场 APF 在海洋环境中执行避障和碰撞操作。这项研究强调了调和函数在势场建模方面相对于传统函数的优势。经过修改,该方法得到扩展,可以在遵守 COLREG 的同时有效避开动态障碍物。与传统势场以及流行的速度障碍方法相比,观察到了性能的改进。 |
Geometry-Aware Safety-Critical Local Reactive Controller for Robot Navigation in Unknown and Cluttered Environments Authors Yulin Li, Xindong Tang, Kai Chen, Chunxin Zheng, Haichao Liu, Jun Ma 这项工作提出了一种安全关键的本地反应控制器,使机器人能够在未知和混乱的环境中导航。特别地,轨迹跟踪任务被表述为约束多项式优化问题。然后,对控制变量施加安全约束,调用多项式正性证明的概念及其平方和 SOS 近似,从而将机器人运动限制在局部提取的凸自由区域内。值得注意的是,在设计所提出的安全约束的过程中,可以使用可以用一组多项式函数表征的任何形状来近似机器人的几何形状。利用截断多序列 tms 和矩松弛,优化问题进一步凸化为半定程序 SDP,这有利于有效使用现成的圆锥规划求解器,从而实现实时性能。 |
Collaborative Visual Place Recognition Authors Yiming Li, Zonglin Lyu, Mingxuan Lu, Chao Chen, Michael Milford, Chen Feng 视觉位置识别 VPR 功能使自主机器人能够通过基于视觉输入发现环境拓扑来导航复杂的环境。大多数研究工作的重点是提高单个机器人 VPR 的准确性和鲁棒性,但经常遇到由于个体观点而导致的遮挡等问题。尽管对基于多机器人度量的定位进行了大量研究,但在使用多机器人系统进行更稳健、更高效的基于位置的定位方面的研究仍存在显着差距。这项工作提出了协作 VPR,其中多个机器人共享抽象的视觉特征以增强地点识别能力。我们还引入了一种基于相似性正则化信息融合的新型协作 VPR 框架,在利用协作者有价值的数据的同时减少不相关的噪音。该框架与完善的单机器人 VPR 技术无缝集成,并支持弱监督对比损失的端到端训练。我们在城市、农村和室内场景中进行了实验,在城市环境 12 中实现了比单智能体 VPR 的显着改进,并在农村 3 和室内 1 场景中得到了一致的增强。 |
One Problem, One Solution: Unifying Robot and Environment Design Optimization Authors Jan Baumg rtner, Gajanan Kanagalingam, Alexander Puchtaand J rgen Fleischer 机器人系统的任务特定优化长期以来分为机器人的优化和环境的优化。在这封信中,我们认为这两个问题是相互依存的,应该如此对待。为此,我们提出了一个统一的问题表述,可以同时优化机器人运动学和环境。我们通过联合优化机器人铣削系统来证明我们方法的有效性。为了将我们的方法与最先进的方法进行比较,我们还分别优化了机器人运动学和环境。 |
Colmap-PCD: An Open-source Tool for Fine Image-to-point cloud Registration Authors Chunge Bai, Ruijie Fu, Xiang Gao 单目相机重建的最先进技术主要依赖于 Motion SfM 管道的结构。然而,此类方法通常会产生缺乏关键尺度信息的重建结果,并且随着时间的推移,图像的积累会导致不可避免的漂移问题。相比之下,基于激光雷达扫描的测绘方法由于其精确的距离测量而在大规模城市场景重建中很受欢迎,而基于视觉的方法基本上不具备这种能力。研究人员尝试利用并行激光雷达和相机测量来追求测绘结果中的精确缩放和颜色细节。然而,结果受到外部校准和时间同步精度的影响。在本文中,我们提出了一种新颖的具有成本效益的重建流程,它利用预先建立的激光雷达地图作为固定约束,以有效解决单目相机重建中存在的固有规模挑战。据我们所知,我们的方法是第一个将图像注册到点云地图上,而不需要同步捕获相机和激光雷达数据的方法,使我们能够灵活地管理各个感兴趣领域的重建细节级别。 |
Ethics of Artificial Intelligence and Robotics in the Architecture, Engineering, and Construction Industry Authors Ci Jyun Liang, Thai Hoa Le, Youngjib Ham, Bharadwaj R. K. Mantha, Marvin H. Cheng, Jacob J. Lin 人工智能和机器人研究和实施在建筑、工程和建筑 AEC 行业中出现,对项目效率和有效性问题(如安全性、生产力和质量)产生积极影响。然而,这种转变需要对人工智能和机器人技术的采用进行道德考虑,因为它对工作保障、安全和隐私等方面存在潜在的负面影响。然而,这并没有得到足够的重视,特别是在学术界。这项研究通过道德的视角系统地回顾了 AEC 社区过去五年来的人工智能和机器人研究。它通过总结现有文献并根据其 AEC 进一步过滤,确定了九个关键道德问题,即失业、数据隐私、数据安全、数据透明度、决策冲突、接受和信任、可靠性和安全性、对监视的恐惧和责任。关联。此外,根据现有的 AEC 研究确定了整个过程中的 13 个研究主题,这些研究与总体伦理主题直接相关,并进一步讨论了它们的相似之处。最后,讨论了当前的挑战和知识差距,并提出了七个具体的未来研究方向。 |
GPS Attack Detection and Mitigation for Safe Autonomous Driving using Image and Map based Lateral Direction Localization Authors Qingming Chen, Peng Liu, Guoqiang Li, Zhenpo Wang 车辆定位的准确性和鲁棒性对于实现安全可靠的高水平自动驾驶至关重要。最近的研究结果表明,GPS 很容易受到欺骗攻击,这是自动驾驶的主要威胁之一。本文提出了一种针对 GPS 攻击的新型异常检测和缓解方法,该方法利用车载摄像头和高精度地图来确保准确的车辆定位。首先,分别通过基于摄像头的车道检测和地图匹配来计算行驶车道的横向定位。然后,开发了 GPS 欺骗攻击的实时检测器来评估定位数据。当检测到攻击时,利用无迹卡尔曼滤波器导出基于多源融合的定位方法,以减轻GPS攻击并提高定位精度。 |
DELTAHANDS: A Synergistic Dexterous Hand Framework Based on Delta Robots Authors Zilin Si, Kevin Zhang, Oliver Kroemer, F. Zeynep Temel 在非结构化环境中灵巧的机器人操作可以帮助完成清洁和护理等日常任务。拟人化机械手非常灵巧,理论上非常适合在人类领域工作,但其复杂的设计和动力学往往使它们难以控制。相比之下,平行爪式夹具易于控制并广泛用于工业应用,但它们缺乏各种抓取和手动操作的灵活性。在这项工作中,我们提出了 DELTAHANDS,一种与 Delta 机器人协同的灵巧手框架。 DELTAHANDS 质地柔软,易于重新配置,使用低成本现成材料制造简单,并且具有易于控制的高自由度。 DELTAHANDS灵巧度可通过驱动协同效应针对不同应用进行调整,从而进一步降低控制复杂性、总体成本和能耗。我们描述了 Delta 机器人的运动学精度、力分布和工作空间范围,以协助手部设计。 |
Influence of Camera-LiDAR Configuration on 3D Object Detection for Autonomous Driving Authors Ye Li, Hanjiang Hu, Zuxin Liu, Ding Zhao 摄像头和激光雷达都是自动驾驶的重要传感器,在 3D 物体检测中发挥着关键作用。摄像头 LiDAR Fusion 一直是实现稳健且准确的自动驾驶感知的流行解决方案。与绝大多数现有技术关注如何通过跨模态方案、深度学习算法和训练技巧来提高 3D 目标检测的性能相比,我们专注于传感器配置对基于学习的方法性能的影响。为了实现这一目标,我们基于所提出的传感器感知模型,提出了用于相机和激光雷达评估的统一信息论替代指标。我们还设计了一个加速的高质量框架,用于数据采集、模型训练和性能评估,与 CARLA 模拟器配合使用。为了显示检测性能和我们的替代指标之间的相关性,我们使用受自动驾驶公司和研究机构启发的多个相机 LiDAR 放置和参数进行实验。 |
LAN-grasp: Using Large Language Models for Semantic Object Grasping Authors Reihaneh Mirjalili, Michael Krawez, Simone Silenzi, Yannik Blei, Wolfram Burgard 在本文中,我们提出了 LAN 掌握,这是一种实现更合适的语义掌握的新方法。我们使用基础模型来让机器人更深入地了解物体、抓住物体的正确位置,甚至是要避开的部分。这使得我们的机器人能够以更有意义和更安全的方式抓取和利用物体。我们利用大型语言模型、视觉语言模型和传统抓取规划器的组合来生成抓取,展示对对象更深入的语义理解。我们首先提示大语言模型哪个对象部分适合抓取。接下来,视觉语言模型识别物体图像中的相应部分。最后,我们在视觉语言模型提出的区域中生成抓取建议。基于基础模型的构建为我们提供了一种零镜头抓取方法,可以处理各种对象,而无需进一步训练或微调。我们在自定义对象数据集的现实世界实验中评估了我们的方法。我们展示了一项调查的结果,该调查要求参与者选择适合抓握的物体部分。 |
Indoor Localization for an Autonomous Model Car: A Marker-Based Multi-Sensor Fusion Framework Authors Xibo Li, Shruti Patel, David Stronzek Pfeifer, Christof B skens 在户外定位机器人时,全球导航卫星系统可以轻松提供准确的位置信息。然而,对于室内操作的移动机器人来说,尚不存在类似的标准解决方案。本文提出了一个基于高级驾驶辅助系统 ADAS 模型车的自动驾驶系统室内定位和实验验证的集成框架。模型车的全局姿态是通过融合基准标记、惯性传感器和车轮里程计的信息获得的。为了实现稳健的定位,我们研究并比较了扩展卡尔曼滤波器的两种扩展,首先使用自适应噪声调谐,其次使用卡方检验进行测量异常值检测。还提出了一种使用单个激光雷达传感器的高效且低成本的地面实况测量方法来验证结果。 |
An Anomaly Behavior Analysis Framework for Securing Autonomous Vehicle Perception Authors Murad Mehrab Abrar, Salim Hariri 作为一个快速发展的网络物理平台,自动驾驶汽车随着其功能的不断扩展,面临着更多的安全挑战。近年来,攻击者积极针对自动驾驶汽车的感知传感器进行复杂的攻击,而这些攻击很难被车辆控制系统检测到。这项工作提出了一种异常行为分析方法来检测针对自动驾驶车辆的感知传感器攻击。该框架依赖于从基于物理的自动驾驶车辆行为模型中提取的时间特征来捕获自动驾驶中车辆感知的正常行为。通过结合基于模型的技术和机器学习算法,所提出的框架可以区分正常和异常的车辆感知行为。为了演示该框架在实践中的应用,我们在自动驾驶车辆测试台上进行了深度摄像头攻击实验,并生成了广泛的数据集。我们使用真实世界数据验证了所提出框架的有效性,并发布了数据集以供公众访问。 |
Fully Spiking Neural Network for Legged Robots Authors Xiaoyang Jiang, Qiang Zhang, Jingkai Sun, Renjing Xu 近年来,基于深度强化学习的腿式机器人取得了令人瞩目的进展。四足机器人已展示出在复杂环境中完成挑战性任务的能力,并已部署在现实世界场景中以协助人类。同时,双足和人形机器人在各种高要求任务中也取得了突破。当前的强化学习方法可以利用不同的机器人身体和历史信息来执行动作。然而,先前的研究并没有强调网络推理的速度和能耗,以及神经网络本身的生物学意义。大多数采用的网络是利用多层感知器 MLP 的传统人工神经网络。在本文中,我们成功应用新型尖峰神经网络 SNN 来处理腿式机器人,在一系列模拟地形中取得了出色的结果。 SNN 在推理速度和能耗方面比传统神经网络具有天然优势,其对身体感知信号的脉冲形式处理提高了生物可解释性。 |
Initial Task Assignment in Multi-Human Multi-Robot Teams: An Attention-enhanced Hierarchical Reinforcement Learning Approach Authors Ruiqi Wang, Dezhong Zhao, Arjun Gupte, Byung Cheol Min 多人多机器人团队 MH MR 通过融合各个成员的独特优势和专业知识,在处理复杂和大规模任务方面获得了巨大潜力。这些团队固有的异质性需要先进的初始任务分配 ITA 方法,从一开始就将任务与团队成员的内在能力相结合。虽然现有的强化学习方法显示出令人鼓舞的结果,但它们可能无法解决长期 ITA 问题的细微差别,特别是在具有大规模 MH MR 团队或多方面任务的环境中。为了弥补这一差距,我们提出了一种注意力增强的分层强化学习方法,将复杂的 ITA 问题分解为结构化的子问题,从而促进更有效的分配。为了支持子策略学习,我们引入了分层跨属性注意力 HCA 机制,鼓励层次结构中的每个子策略辨别和利用状态空间中对其各自决策阶段至关重要的特定细微差别。 |
Diff-Transfer: Model-based Robotic Manipulation Skill Transfer via Differentiable Physics Simulation Authors Yuqi Xiang, Feitong Chen, Qinsi Wang, Yang Gang, Xiang Zhang, Xinghao Zhu, Xingyu Liu, Lin Shao 对于智能机器人来说,转移掌握的技能来完成一系列相似但新颖的任务的能力至关重要。在这项工作中,我们引入了textit Diff Transfer,这是一种利用可微物理模拟来有效传输机器人技能的新颖框架。具体来说,textit Diff Transfer 在任务空间内发现一条将源任务带到目标任务的可行路径。在此任务路径上的每一对相邻点(即两个子任务)中,textit Diff Transfer 会调整一个子任务中的已知操作,以成功处理另一个子任务。该适应是由可微物理模拟的梯度信息引导的。我们提出了一种新颖的路径规划方法来生成子任务,利用具有任务级状态和奖励的 Q 学习。我们在模拟实验中实现了我们的框架,并在机器人操作上执行了四个具有挑战性的传输任务,通过综合实验证明了 textit Diff Transfer 的功效。 |
AirIMU: Learning Uncertainty Propagation for Inertial Odometry Authors Yuheng Qiu, Chen Wang, Xunfei Zhou, Youjie Xia, Sebastian Scherer 惯性里程计的准确不确定性估计是在多传感器系统(例如视觉或激光雷达惯性里程计)中实现最佳融合的基础。先前的研究经常简化关于惯性测量不确定性的假设,假设固定的协方差参数和经验 IMU 传感器模型。然而,传感器固有的物理限制和非线性特性很难捕捉。此外,不确定性可能会根据传感器速率和运动模式而波动,从而导致不同 IMU 之间存在差异。为了应对这些挑战,我们制定了一种基于学习的方法,该方法不仅封装了 IMU 固有的非线性,而且还确保以数据驱动的方式准确传播协方差。我们扩展了 PyPose 库,以实现可微分批量 IMU 与流形上协方差传播的集成,从而显着提高运行时速度。为了证明我们的方法的适应性,我们在几个基准以及跨越超过 262 公里的大型直升机数据集上对其进行了评估。这些数据集上的惯性里程计的漂移率降低了 2.2 至 4 倍。 |
Soft finger dynamic stability and slip by Coulomb friction and bulk stiffness Authors Hun Jang, Valentyn Petrichenko, Joonbum Bae, Kevin Haninger 软机器人手指可以安全地抓握易碎或不均匀的物体,但它们的力容量是有限的,特别是对于接触面积较小、较小、非圆形的物体,或者封闭抓握不可行的情况。为了提高力量能力,本文考虑了两种类型的抓地力失效:滑动和动态旋转稳定性。对于滑动,验证了基于总法向力和切向力的软手指库仑模型,确定了接触面积、压力和抓握位置对有效库仑系数、法向力和横向刚度的影响。对于旋转稳定性,手指的整体刚度用于开发初始抓握的动态稳定性条件,以及旋转导致滑动时的条件。总之,这些模型表明接触面积通过增加横向刚度和法向力来提高抓地力。 |
Guardians as You Fall: Active Mode Transition for Safe Falling Authors Yikai Wang, Mengdi Xu, Guanya Shi, Ding Zhao 最优控制和强化学习的最新进展使四足机器人能够在不同的地形上执行各种敏捷的运动任务。在这些敏捷运动过程中,确保机器人的稳定性和弹性是防止灾难性跌倒和减轻潜在损害的首要问题。以前的方法主要关注机器人跌倒后的恢复策略。据我们所知,尚无主动的安全坠落解决方案。在本文中,我们提出了 Guardians as You Fall GYF ,这是一种安全的跌倒翻滚和恢复框架,可以主动翻滚并恢复到稳定模式,以减少高度动态场景中的损坏。 GYF 的关键思想是在机器人转移到不可恢复的姿势之前通过主动翻滚自适应地遍历不同的稳定模式。通过全面的仿真和现实世界的实验,我们表明,与基线相比,GYF 显着降低了机器人底座的最大加速度和冲击力。特别是,GYF 在模拟和现实实验的不同场景中将最大加速度和加加速度降低了 20 73。 |
Combining Sampling- and Gradient-based Planning for Contact-rich Manipulation Authors Filippo Rozzi, Loris Roveda, Kevin Haninger 机器人任务(例如接触丰富的操作)需要对不连续动力学进行规划,这在使用神经网络或分析模型时对规划方法的数值稳定性和速度提出了挑战。一方面,基于采样的规划器在高维问题中需要更高的样本复杂性,并且无法描述诸如力限制之类的安全约束。另一方面,当 Hessian 矩阵条件较差时,基于梯度的求解器可能会遇到局部最优和收敛问题。我们提出了一种具有基于采样和梯度的元素的规划方法,使用交叉熵方法来初始化基于梯度的求解器,提供对局部最小值的更好搜索以及处理显式约束的能力。 |
Hierarchical Unsupervised Topological SLAM Authors Ayush Sharma, Yash Mehan, Pradyumna Dasu, Sourav Garg, Madhava Krishna 在本文中,我们提出了一种用于无监督拓扑聚类的新颖框架,从而改进了循环。在本文中,我们提出了一种新的无监督拓扑聚类框架,从而改进了 SLAM 的环路检测和闭合。导航移动机器人将其遍历聚类为视觉上相似的拓扑,其中每个聚类拓扑包含一组通常从空间相邻位置观察到的相似图像。每组这样的空间相邻且视觉上相似的图像分组构成了在没有任何监督的情况下获得的拓扑。我们制定了一种分层循环发现策略,首先在拓扑级别检测循环,然后在循环拓扑之间的图像级别检测循环。我们通过对不同 Habitat 环境的多次遍历表明,这种分层管道显着改进了基于 SOTA 图像的循环检测和闭合方法。此外,由于改进了循环检测,我们增强了循环闭合和后端 SLAM 性能。 |
HI-SLAM: Monocular Real-time Dense Mapping with Hybrid Implicit Fields Authors Wei Zhang, Tiecheng Sun, Sen Wang, Qing Cheng, Norbert Haala 在这封信中,我们提出了一种基于神经场的实时单目建图框架,用于精确和密集的同步定位和建图 SLAM。最近的神经映射框架显示出有希望的结果,但依赖于 RGB D 或姿势输入,或者无法实时运行。为了解决这些限制,我们的方法将密集 SLAM 与神经隐式场相结合。具体来说,我们的密集 SLAM 方法运行并行跟踪和全局优化,而基于神经场的地图是根据最新的 SLAM 估计增量构建的。为了有效构建神经场,我们采用多分辨率网格编码和符号距离函数 SDF 表示。这使我们能够使地图始终保持最新状态,并通过循环关闭立即适应全局更新。为了实现全局一致性,我们提出了一种基于 Sim 3 的高效位姿图捆绑调整 PGBA 方法来运行在线循环闭合并减轻位姿和尺度漂移。为了进一步提高深度精度,我们结合了学习的单目深度先验。我们提出了一种新颖的联合深度和尺度调整 JDSA 模块来解决深度先验中固有的尺度模糊性。 |
Unifying Foundation Models with Quadrotor Control for Visual Tracking Beyond Object Categories Authors Alessandro Saviolo, Pratyaksh Rao, Vivek Radhakrishnan, Jiuhong Xiao, Giuseppe Loianno 视觉控制使四旋翼飞行器能够使用实时传感数据进行自适应导航,将感知与行动联系起来。然而,挑战仍然存在,包括跨场景的泛化、保持可靠性以及确保实时响应能力。本文介绍了一种基于通用目标检测和跟踪基础模型的感知框架,超越了特定的训练类别。我们的方法不可或缺的是与基础探测器集成的多层跟踪器,即使面临运动模糊、突然的光线变化和遮挡,也能确保连续的目标可见性。作为补充,我们引入了一种专为弹性四旋翼视觉跟踪而定制的无模型控制器。我们的系统在有限的硬件上高效运行,仅依靠机载摄像头和惯性测量单元。通过在各种具有挑战性的室内和室外环境中进行广泛的验证,我们展示了我们系统的有效性和适应性。 |
Current Trends and Advances in Quantum Navigation for Maritime Applications: A Comprehensive Review Authors Olga Sambataro, Riccardo Costanzi, Joao Alves, Andrea Caiti, Pietro Paglierani, Roberto Petroccia, Andrea Munafo 本文对量子导航系统的最新技术进行了全面回顾,特别关注其在海上导航中的应用。量子技术由于能够提供高度准确和安全的信息,因此有可能彻底改变导航和定位系统。该评论涵盖了量子导航的原理,并重点介绍了量子增强传感器、原子钟和量子通信协议的最新发展。该论文还讨论了在海上导航中使用量子技术的挑战和机遇,包括海洋环境和海洋应用的特殊性对量子传感器性能的影响。最后,本文最后讨论了量子导航系统的未来及其对航运业的潜在影响。 |
Surgical Gym: A high-performance GPU-based platform for reinforcement learning with surgical robots Authors Samuel Schmidgall, Axel Krieger, Jason Eshraghian 机器人辅助手术的最新进展使手术变得更加精确、高效和微创,开启了机器人手术干预的新时代。这使得医生能够与机器人协作互动,进行传统或微创手术,通过更小的切口改善手术结果。最近的努力致力于使机器人手术更加自主,这有可能减少手术结果的可变性并降低并发症发生率。深度强化学习方法为手术自动化提供了可扩展的解决方案,但由于缺乏成功完成任务的先验知识,其有效性依赖于广泛的数据采集。由于模拟数据收集的密集性,以前的工作主要集中在提高现有算法的效率上。在这项工作中,我们专注于提高模拟器的效率,使训练数据比以前更容易访问。我们推出 Surgical Gym,这是一个用于手术机器人学习的开源高性能平台,其中物理模拟和强化学习直接在 GPU 上进行。我们证明,与之前的外科学习平台相比,训练时间快了 100 至 5000 倍。 |
Terrain-Aware Quadrupedal Locomotion via Reinforcement Learning Authors Haojie Shi, Qingxu Zhu, Lei Han, Wanchao Chi, Tingguang Li, Max Q. H. Meng 在自然界中,有腿动物已经发展出通过感知适应具有挑战性的地形的能力,使它们能够提前规划安全的身体和足部轨迹,从而实现安全且节能的运动。受这一观察的启发,我们提出了一种训练深度神经网络 DNN 策略的新方法,该策略将本体感受和外感受状态与参数化轨迹生成器相结合,使四足机器人能够穿越崎岖的地形。我们的关键思想是使用 DNN 策略来修改轨迹生成器的参数,例如脚的高度和频率,以适应不同的地形。为了鼓励机器人踩到安全区域并节省能耗,我们分别提出了脚部地形奖励和抬脚高度奖励。通过结合这些奖励,我们的方法可以学习更安全、更有效的地形感知运动策略,可以在任何方向灵活地移动四足机器人。为了评估我们方法的有效性,我们在具有挑战性的地形上进行了模拟实验,包括楼梯、踏脚石和柱子。仿真结果表明,我们的方法可以成功引导机器人在任何方向穿越如此艰难的地形。 |
Efficient State Estimation with Constrained Rao-Blackwellized Particle Filter Authors Shuai Li, Siwei Lyu, Jeff Trinkle 由于机器人传感器的限制,在机器人操纵任务期间,物体状态的获取可能不可靠且有噪声。事实证明,将多体动态系统的精确模型与贝叶斯滤波方法相结合,能够滤除物体观察状态中的噪声。 |
SlotGNN: Unsupervised Discovery of Multi-Object Representations and Visual Dynamics Authors Alireza Rezazadeh, Athreyi Badithela, Karthik Desingh, Changhyun Choi 使用无监督技术从视觉数据中学习多对象动力学具有挑战性,因为需要可以通过机器人交互来学习的稳健的对象表示。本文提出了一种新颖的框架,具有两种新架构:SlotTransport(用于从 RGB 图像中发现对象表示)和 SlotGNN(用于从 RGB 图像和机器人交互中预测其集体动态)。我们的 SlotTransport 架构基于用于无监督对象发现的槽注意,并使用特征传输机制来维持以对象为中心的表示中的时间对齐。这使得能够发现一致反映多对象场景的组成的槽。即使在严重遮挡或缺失的情况下,这些插槽也能牢固地绑定到不同的对象上。我们的 SlotGNN 是一种新颖的基于无监督图的动态模型,可以预测多对象场景的未来状态。 SlotGNN 使用从 SlotTransport 发现的槽位来学习场景的图形表示,并执行关系和空间推理来预测每个槽位以机器人动作为条件的未来外观。我们展示了 SlotTransport 在学习以对象为中心的特征方面的有效性,这些特征可以准确地编码视觉和位置信息。此外,我们强调了 SlotGNN 在下游机器人任务中的准确性,包括具有挑战性的多对象重新排列和长范围预测。最后,我们的无监督方法在现实世界中被证明是有效的。 |
Deep Model Predictive Optimization Authors Jacob Sacks, Rwik Rana, Kevin Huang, Alex Spitzer, Guanya Shi, Byron Boots 机器人技术的一个主要挑战是设计强大的策略,以在现实世界中实现复杂而敏捷的行为。一方面,我们有无模型强化学习 MFRL,它非常灵活和通用,但通常会导致策略脆弱。相比之下,模型预测控制 MPC 在每个时间步不断重新计划,以保持对扰动和模型不准确性的鲁棒性。然而,尽管 MPC 在现实世界中取得了成功,但它常常无法执行最佳策略。这是由于模型质量、短期规划的短视行为以及计算限制造成的近似。即使拥有完美的模型和足够的计算能力,MPC 也可能陷入不良的局部最优,这在很大程度上取决于优化算法的质量。为此,我们提出了深度模型预测优化 DMPO,它直接通过经验学习 MPC 优化算法的内循环,专门针对控制问题的需求进行定制。我们在真实的四旋翼敏捷轨迹跟踪任务上评估 DMPO,在给定的计算预算下,它比基线 MPC 算法提高了性能。它可以在样本较少的情况下比最好的 MPC 算法高出 27 倍,并且使用 MFRL 训练的端到端策略高出 19 倍。此外,由于 DMPO 需要的样本较少,因此它还可以通过减少 4.3 倍的内存来实现这些优势。当我们使用附加的阻力板将四旋翼飞行器置于湍流风场中时,DMPO 可以适应零射击,同时仍然优于所有基线。 |
LIVE: Lidar Informed Visual Search for Multiple Objects with Multiple Robots Authors Ryan Gupta, Minkyu Kim, Juliana T Rodriguez, Kyle Morgenstein, Luis Sentis 本文介绍了 LIVE Lidar Informed Visual Search,重点关注多机器人 MR 规划和执行的问题,以实现多个对象的鲁棒视觉检测。我们在室内公寓环境中与两个机器人团队进行了广泛的现实世界实验。 LIVE 充当感知模块,在激光雷达观测中检测未映射的障碍物或短期特征 STF。 STF 被过滤,从而通过在线修改计划来对区域进行目视检查。激光雷达覆盖路径规划 CPP 用于为异构机器人团队生成高效的全局计划。 |
Knolling bot: A Transformer-based Approach to Organizing a Messy Table Authors Yuhang Hu, Zhizhuo Zhang, Ruibo Liu, Philippe Wyder, Hod Lipson 在这项研究中,我们提出了一种使家用机器人能够执行简单的家庭整理任务的方法。我们特别关注knolling,这是一种将分散的物品整理成整齐且节省空间的活动。与工业环境的统一性不同,家庭环境由于物品的多样性和整洁的主观性而面临着独特的挑战。在这里,我们从自然语言处理 NLP 中汲取灵感,并利用基于转换器的方法来预测一系列整齐排列的项目中项目的下一个位置。 |
mCLARI: a shape-morphing insect-scale robot capable of omnidirectional terrain-adaptive locomotion in laterally confined spaces Authors Heiko Kabutz, Alexander Hedrick, Parker McDonnell, Kaushik Jayaram 当部署在搜索和救援等应用中时,软兼容微型机器人有可能产生重大的社会影响。在这项研究中,我们推出了 mCLARI,这是一种符合身体要求的四足微型机器人,中性身体长度为 20 毫米,重量为 0.97 克,对其较大的前身 CLARI 进行了改进。该机器人有四个独立驱动的腿部模块,具有 2 个自由度,每个模块均由压电执行器驱动。腿部通过被动身体关节在闭合运动链中相互连接,从而实现被动身体顺应性,以适应外部约束的形状。尽管将其较大前身的长度缩小至 60%,质量缩小至 38%,mCLARI 仍保持了 80% 的驱动功率,以实现高灵活性。此外,我们还展示了被动形状变形 mCLARI 全向横向受限运动的新功能,并通过实验量化其运行性能,实现了 3 倍体长 s 60 mms 1 的新无约束最高速度。 |
Domain Randomization for Sim2real Transfer of Automatically Generated Grasping Datasets Authors Johann Huber, Fran ois H l non, Hippolyte Watrelot, Faiz Ben Amar, St phane Doncieux 机器人抓取是指机器人系统通过在物体表面施加力和扭矩来拾取物体。最近的许多研究都使用数据驱动的方法来解决抓取问题,但这项任务奖励稀疏的性质使得学习过程难以引导。为了避免限制操作空间,越来越多的工作提出掌握数据集来学习。但其中大多数仅限于模拟。本文研究了如何在现实世界中利用自动生成的抓取。通过质量多样性 QD 方法,在 3 种不同的手臂和抓手(包括平行手指和灵巧的手)上生成了 7000 多个伸展和抓握轨迹,并在现实世界中进行了测试。对收集的测量进行的分析显示了几个基于域随机化的质量标准和模拟到真实可转移性之间的相关性。已经确定了关于抓取的现实差距的关键挑战,强调了抓取研究人员未来应该关注的问题。 |
Conformal Decision Theory: Safe Autonomous Decisions from Imperfect Predictions Authors Jordan Lekeufack, Anastasios A. Angelopoulos, Andrea Bajcsy, Michael I. Jordan, Jitendra Malik 我们引入了共形决策理论,这是一个尽管机器学习预测不完美但仍能产生安全自主决策的框架。此类决策的例子无处不在,从依赖行人预测的机器人规划算法,到校准自主制造以表现出高吞吐量和低错误,再到选择信任名义策略而不是在运行时切换到安全备份策略。我们的算法产生的决策是安全的,因为它们具有可证明的低风险统计保证,无需对世界模型做出任何假设,无论观察结果都不需要独立同分布。甚至可以是敌对的。该理论将共形预测的结果扩展到直接校准决策,而不需要构建预测集。 |
TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models Authors Zuxin Liu, Jesse Zhang, Kavosh Asadi, Yao Liu, Ding Zhao, Shoham Sabach, Rasool Fakoor 在机器人等控制领域,大型预训练模型的全部潜力在很大程度上尚未得到开发。这主要是因为数据稀缺以及与针对此类应用训练或微调这些大型模型相关的计算挑战。先前的工作主要强调对大型模型进行有效的预训练以进行决策,而很少探索如何对这些模型进行数据有效的持续适应以适应新任务。认识到这些限制,我们引入了用于模仿学习的 TAIL 任务特定适配器,这是一个有效适应新控制任务的框架。受语言领域参数高效微调最新进展的启发,我们探索了高效的微调技术,例如 TAIL 中的瓶颈适配器、P 调优和低秩自适应 LoRA,以使用有限的演示数据调整大型预训练模型以适应新任务。我们在大规模语言条件操作任务中进行了大量实验,比较了流行的参数高效微调技术和适应基线,表明采用 LoRA 的 TAIL 只需 1 个完全微调的可训练参数即可实现最佳的后适应性能,同时避免灾难性遗忘并保留 |
Examining the simulation-to-reality gap of a wheel loader digging in deformable terrain Authors Koji Aoshima, Martin Servin 我们研究了轮式装载机模拟器在向一堆砾石中进行铲斗填充时如何复制真实的模拟器。使用车辆运动和驱动力、负载质量和总功的现场测试时间序列进行比较。该车辆被建模为具有摩擦接触、传动系统和线性执行器的刚性多体系统。对于土壤,我们测试了不同分辨率的离散元模型,有或没有多尺度加速。时空分辨率在50 400 mm到2 500 ms之间,计算速度比实时快1 10 000到5倍。研究发现,模拟与现实的差距约为 10,并且对保真度水平的依赖性较弱,即可以通过实时模拟实现且速度更快。此外,还研究了优化的力反馈控制器在不同仿真域之间传递时的灵敏度。 |
Replication of Multi-agent Reinforcement Learning for the "Hide and Seek" Problem Authors Haider Kamal, Muaz A. Niazi, Hammad Afzal 强化学习根据奖励函数和超参数生成策略。这些的微小变化都会显着影响结果。强化学习研究缺乏记录和可重复性,使得一旦推导出策略就很难复制。虽然之前的研究已经确定了使用接地机动的策略,但在更复杂的环境中的工作有限。本研究中的代理的模拟类似于 Open Al 的隐藏和搜索代理,除了飞行机制之外,还增强了它们的机动性,并扩大了它们可能的行动和策略的范围。 |
Anyview: Generalizable Indoor 3D Object Detection with Variable Frames Authors Zhenyu Wu, Xiuwei Xu, Ziwei Wang, Chong Xia, Linqing Zhao, Jiwen Lu, Haibin Yan 在本文中,我们提出了一种用于室内 3D 对象检测的新颖网络框架,以处理实际场景中的可变输入帧数。现有方法仅考虑单个检测器的固定输入数据帧,例如单目 RGB D 图像或从密集多视图 RGB D 图像重建的点云。而在机器人导航和操纵等实际应用场景中,3D探测器的原始输入是具有可变帧数的RGB D图像,而不是重建的场景点云。然而,以前的方法只能处理固定帧输入数据,并且对于可变帧输入性能较差。为了促进适合实际任务的 3D 对象检测方法,我们针对实际应用提出了一种名为 AnyView 的新型 3D 检测框架,该框架可以使用单个模型很好地泛化不同数量的输入帧。具体来说,我们提出了一个几何学习器来挖掘每个输入 RGB D 图像帧的局部几何特征,并通过设计的空间混合模块实现局部全局特征交互。同时,我们进一步利用动态令牌策略自适应调整每帧提取的特征数量,确保全局特征密度一致,并进一步增强融合后的泛化能力。 |
MSight: An Edge-Cloud Infrastructure-based Perception System for Connected Automated Vehicles Authors Rusheng Zhang, Depu Meng, Shengyin Shen, Zhengxia Zou, Houqiang Li, Henry X. Liu 随着车辆通信和网络技术的不断进步,基于基础设施的路边感知逐渐成为联网自动驾驶车辆 CAV 应用的关键工具。由于其位置较高,路边传感器(包括摄像头和激光雷达)通常可以享受畅通无阻的视野,并减少物体遮挡。这为它们提供了优于车载感知的明显优势,能够更稳健、更准确地检测道路物体。本文介绍了 MSight,这是一种专为 CAV 设计的尖端路边感知系统。 MSight 提供实时车辆检测、定位、跟踪和短期轨迹预测。评估强调了该系统以最小延迟维持车道级精度的能力,揭示了增强 CAV 安全性和效率的一系列潜在应用。 |
DeepQTest: Testing Autonomous Driving Systems with Reinforcement Learning and Real-world Weather Data Authors Chengjie Lu, Tao Yue, Man Zhang, Shaukat Ali 自动驾驶系统 ADS 能够感知环境并自主做出驾驶决策。这些系统的安全至关重要,对其进行测试是确保其安全的重要方法之一。然而,由于ADS固有的复杂性及其运行环境的高维性,ADS可能的测试场景数量是无限的。此外,ADS的运行环境是动态的、不断发展的、充满不确定性,需要适应环境的测试方法。此外,现有的ADS测试技术在确保测试场景的真实性方面效果有限,尤其是天气条件及其随时间变化的真实性。最近,强化学习 RL 在解决具有挑战性的问题方面表现出了巨大的潜力,特别是那些需要不断适应动态环境的问题。为此,我们提出了 DeepQTest,这是一种新颖的 ADS 测试方法,它使用 RL 来学习环境配置,很有可能揭示异常的 ADS 行为。具体来说,DeepQTest采用深度Q学习并采用三种安全性和舒适性措施来构建奖励函数。为了确保生成场景的真实性,DeepQTest 定义了一组现实约束,并将真实世界的天气条件引入模拟环境中。我们采用了三种比较基线,即随机基线、贪婪基线和最先进的基于 RL 的方法 DeepCOllision,在工业规模的 ADS 上评估 DeepQTest。评估结果表明,与基线相比,DeepQTest 在生成导致碰撞的场景和确保场景真实性方面表现出明显更好的有效性。 |
LocoNeRF: A NeRF-based Approach for Local Structure from Motion for Precise Localization Authors Artem Nenashev, Mikhail Kurenkov, Andrei Potapov, Iana Zhura, Maksim Katerishich, Dzmitry Tsetserukou 视觉定位是移动机器人技术中的一项关键任务,研究人员正在不断开发新方法来提高其效率。在本文中,我们提出了一种使用来自运动 SfM 技术的结构来提高视觉定位准确性的新方法。我们强调了全局 SfM 的局限性(其存在高延迟)和局部 SfM 的挑战(需要大型图像数据库来进行精确重建)。为了解决这些问题,我们建议利用神经辐射场 NeRF(而不是图像数据库)来减少存储所需的空间。我们建议在先前查询位置周围采样参考图像可以带来进一步的改进。我们根据使用 LIDAR 和高级激光雷达里程计和实时 A LOAM 制图获得的地面实况评估了我们提出的方法的准确性,并在进行的实验中将其存储使用情况与本地 SfM 和 COLMAP 进行了比较。与地面实况相比,我们提出的方法实现了 0.068 米的精度,略低于最先进的方法 COLMAP,其精度为 0.022 米。然而,COLMAP 所需的数据库大小为 400 兆字节,而我们的 NeRF 模型的大小仅为 160 兆字节。 |
Fully Sparse Long Range 3D Object Detection Using Range Experts and Multimodal Virtual Points Authors Ajinkya Khoche, Laura Pereira S nchez, Nazre Batool, Sina Sharif Mansouri, Patric Jensfelt 远距离 3D 物体检测对于确保自动驾驶汽车的安全性和效率至关重要,使它们能够准确感知远处的物体、障碍物和潜在危险并做出反应。但目前最先进的基于激光雷达的方法都受到距离传感器稀疏性的限制,这会在靠近和远离自我车辆的点之间产生某种形式的域间隙。另一个相关问题是远处物体的标签不平衡,这会抑制深度神经网络在远距离的性能。尽管图像特征可能有利于长距离检测,并且最近提出的一些多模态方法结合了图像特征,但它们在长距离计算上不能很好地扩展,或者受到深度估计精度的限制。为了解决上述限制,我们建议结合两种基于 LiDAR 的 3D 检测网络,一种专门针对近中距离物体,另一种专门针对远距离 3D 检测。为了在稀缺标签条件下训练远距离检测器,我们进一步建议根据标记物体与自我车辆的距离来权衡损失。为了缓解 LiDAR 稀疏问题,我们利用 Multimodal Virtual Points MVP(一种基于图像的深度补全算法)来通过虚拟点丰富我们的数据。我们的方法结合了两名经过 MVP 训练的范围专家(我们将其称为 RangeFSD),在 Argoverse2 AV2 数据集上实现了最先进的性能,并在远程方面取得了改进。 |
UFD-PRiME: Unsupervised Joint Learning of Optical Flow and Stereo Depth through Pixel-Level Rigid Motion Estimation Authors Shuai Yuan, Carlo Tomasi 光流和立体视差都是图像匹配,因此可以从联合训练中受益。深度和 3D 运动提供几何信息而不是光度信息,并且可以进一步改善光流。因此,我们设计了第一个网络,联合估计流量和差异,并在没有监督的情况下进行训练。第二个网络使用第一个网络的光流作为伪标签进行训练,从第一个网络获取视差,估计每个像素的 3D 刚性运动,并再次重建光流。最后阶段融合两个网络的输出。与以前仅考虑相机运动的方法相比,我们的方法还估计动态物体的刚性运动,这在应用中是关键的。这会带来更好的光流,从而带来明显更详细的遮挡和物体边界。我们的无监督管道在 KITTI 2015 基准上实现了 7.36 的光流误差,并且大幅优于之前最先进的 9.38。它还实现了稍微更好或相当的立体深度结果。 |
Universal Humanoid Motion Representations for Physics-Based Control Authors Zhengyi Luo, Jinkun Cao, Josh Merel, Alexander Winkler, Jing Huang, Kris Kitani, Weipeng Xu 我们提出了一种通用运动表示,其中包含基于物理的人形控制的全面运动技能。由于人形控制的高维性以及强化学习固有的困难,先前的方法主要集中于学习小范围运动风格的技能嵌入,例如动作风格。运动,来自专门运动数据集的游戏角色。这种有限的范围限制了它在复杂任务中的适用性。我们的工作缩小了这一差距,显着增加了运动表示空间的覆盖范围。为了实现这一目标,我们首先学习一个运动模仿器,它可以从大型非结构化运动数据集中模仿所有人体运动。然后,我们通过直接从模仿者那里提取技能来创建我们的动作表示。这是使用具有变化信息瓶颈的编码器解码器结构来实现的。此外,我们共同学习以本体感觉人形自身的姿势和速度为条件的先验,以提高下游任务的模型表达力和采样效率。从先前的采样中,我们可以生成长的、稳定的、多样化的人体动作。使用分层强化学习的这个潜在空间,我们表明我们的策略使用自然和现实的人类行为来解决任务。我们通过解决生成任务来证明我们的运动表示的有效性,例如 |
Extended Kalman Filter State Estimation for Autonomous Competition Robots Authors Ethan Kou, Acshi Haggenmiller 自主移动机器人比赛的评判依据是机器人快速、准确地在赛场中导航的能力。这意味着准确的定位对于创建自主竞赛机器人至关重要。两种常见的定位方法是里程计和计算机视觉地标检测。里程计提供频繁的速度测量,而地标检测提供不频繁的位置测量。该状态也可以通过物理模型来预测。可以使用扩展卡尔曼滤波器 EKF 融合这三种类型的定位来创建更准确的状态估计。 EKF 是一种非线性全状态估计器,在给定传感器测量值、模型预测及其方差时,它以最低的协方差误差来近似状态估计。在本文中,我们通过在 4 轮麦克纳姆驱动机器人仿真上实现 EKF 来证明其有效性。比较了将这三个数据源的各种组合融合在一起的位置和速度精度。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com