强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning

Self-Supervised Attention-Aware Reinforcement Learning

  • 如何联系通讯作者
    • 资源下载
  • chap1 Self-Supervised Attention for Reinforcement Learning
    • 1.1 Method: Self-Supervised Attention Module
    • 1.2 Attention-Aware Reinforcement Learning
  • chap2 Experiments
    • 2.1 Single-task Learning
      • Comparison with Top-Down Attention
    • 2.2 Multi-task Learning
    • 2.3 Transfer Learning
  • chap3 Bottom-up Object Extraction

如何联系通讯作者

这篇论文找起来是真的费工夫,首先是从Web Of Science 上找到一个感兴趣的点搜到了这篇论文,再加上是顶会AAAI的投稿文章,正准备读呢,发现没有它的下载链接,doi号也没有,最后想到了联系通讯作者:强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第1张图片
浅用了一下别人的专业和学校,需要注意的是为什么不用Dr 而用 Professor 是因为不确定他的学位,如果有博士学位的话建议用Dr。
最后他发给你论文后,应该表示感谢强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第2张图片

  • 最后还有一点,发邮件最好别用qq邮箱,或者用qq邮箱英文版,以自己的英文名字来当邮箱号的那种,因为很多国外老师不喜欢那些意义不明的数字序列,这对他们来说不太能理解。

资源下载

点击下载原文PDF

chap1 Self-Supervised Attention for Reinforcement Learning

1.1 Method: Self-Supervised Attention Module

本文设计了一个自我监督的注意模块,该模块可以识别感兴趣的显着区域,而无需明确的手工标记注释。在现有的以CNNs为特征提取器的深度RL方法中,可以直接即插即用。
注意模块学习的是前景注意掩码,而不是预定义的关键点数量。如图一:强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第3张图片

  • 从 Xs、Xt 中提取前景区域(感兴趣的区域)的特征,掩码生成器将输入图像的前景注意掩码输出为Ψ(xs)和Ψ(xt)。
  • 1-Ψ(xs)作为源图像的背景区域。解码器利用目标图像的前景特征和源图像的背景特征来重建目标图像。
  1. 用于重建xt的特征计算如下:式(1)强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第4张图片

  2. 自我监督注意面具训练的总体损失:式(2)强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第5张图片

1.2 Attention-Aware Reinforcement Learning

注意力意识的强化学习。图2演示了所提出的自监督注意模块:强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第6张图片

  1. 蓝色阴影区域显示了使用CNN的原始深RL管道。
  2. 注意模块在底部的灰色区域突出显示,可以作为任何深RL方法的plug
  3. 此外,掩码生成器输出当前框架的注意掩码

chap2 Experiments

源代码地址:https://github.com/happywu/Self-Sup-Attention-RL

2.1 Single-task Learning

单任务学习。在有/没有我们的自我监督注意面具的A2C学习过程中,平均(超过5个随机种子)测试分数。本文的方法在收敛速度和测试分数上始终优于基线A2C方法,如图3所示:强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第7张图片

Comparison with Top-Down Attention

自上而下的注意力只被最终的目标所引导。因此,它的质量和意义高度依赖于特定任务的RL目标。自我监督注意意识RL代理比自上而下注意引导RL和基线表现更好。如图5所示:强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第8张图片

2.2 Multi-task Learning

使用随机策略,在从三种不同游戏(小行星、攻击、帕克曼女士)联合收集的帧上训练自我监督掩模模块,从三个游戏中随机抽取图像对(xs,xt),并使用Latten训练网络,图6:强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第9张图片

与使用在一个游戏中专门训练的自我监督注意模块相比,实现了几乎相同的性能,展示了自监督注意模块的泛化能力

2.3 Transfer Learning

设计了一个管道,该管道显示学习的注意力掩码可以推广到训练中从未见过的相关场景,图7:强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第10张图片

chap3 Bottom-up Object Extraction

在本节中,我们将展示有关使用自我监督的注意模块提取对象关键点的初步结果,从而有可能促进以对象为中心的RL。
在三款不同游戏上与Transporter比较召回率和精确度

强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第11张图片
强化学习——day41联系通讯作者和读论文:AAAI-2021:Self-Supervised Attention-Aware Reinforcement Learning_第12张图片

你可能感兴趣的:(强化学习,计算机视觉,强化学习)