原创 | 文 BFT机器人
本论文提出了一种新颖的方法,使用仅触觉来进行主动物体识别。该算法通过蒙特卡罗树搜索来选择最佳的手腕姿态序列进行物体识别。
具体来说,该算法将问题建模为马尔可夫决策过程(MDP),并通过观察和动作来优化策略。该算法的核心思想是,连续触觉特征与机器人之间的运动相关联。本地特征不是唯一的,会在对称部位和相似曲率处重复。
将它们在物体上离散化会创建共同的特征,可以建模为概率分布,该分布可以在观察和动作的条件下进行建模,而不受大状态空间维数的影响。在物理引擎和真实机器人上进行的实验结果表明,该算法可以在不同的环境中实现高效的物体识别。
图1 左:实验设置。右:一个自适应选择的姿势
该算法通过蒙特卡罗树搜索来选择最佳的手腕姿态序列进行物体识别。具体来说,该算法将问题建模为马尔可夫决策过程(MDP),并通过观察和动作来优化策略。该算法的核心思想是,连续触觉特征与机器人之间的运动相关联。
本地特征不是唯一的,会在对称部位和相似曲率处重复。将它们在物体上离散化会创建共同的特征,可以建模为概率分布,该分布可以在观察和动作的条件下进行建模,而不受大状态空间维数的影响。
与基于视觉的识别相比,使用触觉传感进行物体识别的优势在于,触觉传感器可以在一些视觉不可靠的环境下进行物体识别,例如在黑暗、灰尘、烟雾或模糊的水下环境中,透明和反射性物体,被遮挡的背面以及袋中的物体等。
此外,触觉传感器可以提供直接的物理外部感知,而视觉无法实现。在动物中,物理行动自然地与感知相结合,它们使用各种主动触觉感知器官。人类可以仅通过触摸恢复形状。虽然触觉传感的一些缺点可以通过更好的硬件来补偿,但其他缺点可以通过有效的规划和利用有限的输入来补偿。
在PROBLEM FORMULATION部分,该论文阐述了他们的目标和问题的形式化描述。具体来说,他们的目标是通过仅使用触觉信息来选择最小的手腕姿态序列,以实现物体识别。
他们使用了一个现有的触觉物体描述符进行识别,并将观察到的三角形离散化为三维直方图。他们将问题建模为马尔可夫决策过程(MDP),并通过观察和动作来优化策略。他们还介绍了概率分布的概念,该分布可以在观察和动作的条件下进行建模,而不受大状态空间维数的影响。
最后,他们介绍了他们的主动概率模型,该模型可以在两个连续观察之间选择最佳的动作。
A. 描述符
在该论文中,作者使用了一个现有的触觉物体描述符进行识别,该描述符是基于三角形的。在观察到三角形之后,他们将三角形离散化为三维直方图。具体来说,他们将三角形的三个参数(即两个边和一个角)作为三个维度,并将它们分别划分为一定数量的区间。
然后,他们将每个观察到的三角形映射到直方图中的一个单元格,并将所有观察到的三角形组合成一个三维直方图。这个三维直方图就是他们用于物体识别的描述符。在后续的实验中,他们使用这个描述符来训练分类器,并用于物体识别。
B. 马尔可夫决策
在该论文中,作者将问题建模为马尔可夫决策过程(MDP),并通过观察和动作来优化策略。具体来说,他们使用了一个有限时间段的MDP,其中状态空间X、动作空间A、转移函数T和奖励函数都是有限的。在每个时间步t,机器人观察到一个状态,并选择一个动作。然后,机器人根据转移函数T从状态转移到状态,并获得奖励。机器人的目标是最大化期望奖励的总和,即最大化折扣累积奖励:
在每个时间步t,MCTS算法使用一个策略网络来预测每个动作的概率,并使用蒙特卡罗模拟来评估每个动作的价值。然后,它选择具有最高价值的动作,并将其添加到动作序列中。最终,MCTS算法返回最佳的动作序列,机器人执行该序列以实现物体识别。
C.概率模型
在该论文中,作者提出了两个概率模型:一个是用于建模观察和动作之间关系的概率分布,另一个是用于在两个连续观察之间选择最佳动作的主动概率模型。这两个模型之间的区别在于它们的应用场景和目的不同。
概率分布模型用于建模观察和动作之间的关系,以便机器人可以根据观察值和动作来预测下一个观察值的概率分布。这个模型是基于直方图的,它将每个状态和观察值映射到一个直方图单元格,并将所有观察到的状态和观察值组合成一个直方图。这个模型的目的是为了帮助机器人更好地理解环境,并根据观察值和动作来选择最佳的动作序列,以实现物体识别。
主动概率模型用于在两个连续观察之间选择最佳的动作,以便机器人可以更快地识别物体。这个模型也是基于直方图的,它将每个状态和观察值映射到一个直方图单元格,并将所有观察到的状态和观察值组合成一个直方图。
然后,机器人使用这个模型来计算一个联合概率分布,以选择最佳的动作。这个模型的目的是为了帮助机器人更快地识别物体,并在有限的时间内选择最佳的动作序列。
因此,这两个模型的应用场景和目的不同,但它们都是基于直方图的概率模型。
图2 一个小的示例树。高亮部分表示最大奖励路径。节点标签是观测名称、最近邻距离、树深度t和直方图中项目数。NN距离与成反比。边缘标签是+1时的动作名称和奖励。
D.实验效果
1. 在模拟器上,作者比较了他们的方法与随机策略和贪婪策略。结果表明,他们的方法在物体识别方面表现最好,而且比其他方法更快地识别物体。
2. 在真实机器人上,作者比较了他们的方法与贪婪策略。结果表明,他们的方法在物体识别方面表现最好,而且比贪婪策略更快地识别物体。
3. 在模拟器上,作者比较了他们的方法与其他基于视觉的物体识别方法。结果表明,他们的方法在物体识别方面表现最好,并且比其他方法更快地识别物体。
4. 在真实机器人上,作者比较了他们的方法与其他基于视觉的物体识别方法。结果表明,他们的方法在物体识别方面表现最好,并且比其他方法更快地识别物体。
综上所述,作者的方法在模拟器和真实机器人上都取得了良好的效果,并且在物体识别方面表现最好。这些实验结果表明,作者提出的方法是有效的,并且可以用于实际应用中。
图3 在测试时由树策略选择的真实机器人动作。
图4 论文效果
论文资料:[1]Zhang,MM,Atanasov,et al.Active End-Effector Pose Selection for Tactile Object Recognition through Monte Carlo Tree Search[J].IEEE INT C INT ROBOT, 2017.
更多精彩内容请关注公众号:BFT机器人
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。