©作者 | 刘明桓
单位 | 上海交通大学
研究方向 | 强化学习,模仿学习
本文是一篇对自己工作的分享,算是一篇实验和方法上自己都还比较满意的工作。发表在 ICML 2022,文章提出了一种新的 policy structure 和优化方式,用一种解耦的方式学习 policy,使得 policy 中的模块可以被用于下游的迁移任务(不同的 action space 和 action dynamics)。
论文标题:
Plan Your Target And Learn Your Skills: Transferable State-Only Imitation Learning via Decoupled Policy Optimization
论文链接:
https://arxiv.org/abs/2203.02214
想法:模仿学习通常只是模仿在 state 上出 action 的 decision 能力,我们能不能模仿一个更加 genreral 的 plan 能力?
比如在自动驾驶的时候,虽然一个司机开不同的车的时候可能采取的油门刹车力度不一样,但是其实对道路规划的能力是同样共享的。有了这种 high-level 的 plan 能力,我们就可以 transfer 到不同的 action space 的情况中去。但是传统的 policy 建模,对于 action 是 ad-hoc 的,无法训练一次迁移多次。
通过观察我们可以发现如果把 policy 拆成两个模块,他们拼起来也是一个策略,但是我们先用一个规划模块从 s 去 plan 到 s',再由一个 inverse dynamcis model(IDM)去输出此时应该采取的动作 a,这样连起来不就是一个 policy 了吗?通过 formally 的表示,我们也可以得到这样一个拆解的表示。
策略解耦
下面的图展示了一种这样的策略结构。
这里由于我们是从 imitation 出发的,所以也推了一下要 match 专家的状态分布 也可以通过 match 一个 plan 模块来得到,但是前提是,这个 inverse dynamics 是给定而且提前学好的!
这时候如果我们可以训练得到这两个模块,他们拼在一起可以得到一个完整的 policy,而分开之后上层的 plan 模块其实可以直接用于一个新的 action space 不同的任务(只需要学一个底层的 IDM)。如果底层的 IDM 是一个给定的 ground truth,这样的 policy 也可以直接工作;如若不然,则需要通过学习得到。
怎么办呢?我们如果加一个额外的约束让前面的 planner 是输出合法的 next state 是不是就可以了?最直观的就是加一个 MLE,但是在我们的推导中我们推导了一个所谓的 CDePG 来更新,其实 PG 就是 weighted 的 MLE,用这样一个目标来更新也是更符合优化目标,这点在文中有相关推导和证明。但是在实验中,我们测试的 MLE 和 CDePG 的效果其实差不多。
但是如果只优化 CDePG,由于 s,a,s' 都是策略采集的,单纯这么做反而限制了 action 的探索。注意原本的 PG 的探索,通过 Q 值的高点不同,输出不同的 action 和环境交互再修正 Q 值。但是在我们这种方式下,action 不是直接得到的,而是先得到一个 plan,再由一个底层的 IDM 得到 action。因此,如果这里的 plan 都是见过的,底层的 action 也不会有什么变化。但是 DePG 没有对 s' 的约束,因此天然有着 explore 的能力(通过输出一个不合法的 s' 来得到一个想要的 a)。因此在实际中,我们是同时优化这两个目标(加上监督学习)。
怎么办呢?我们如果加一个额外的约束让前面的 planner 是输出合法的 next state 是不是就可以了?最直观的就是加一个 MLE,但是在我们的推导中我们推导了一个所谓的 CDePG 来更新,其实 PG 就是 weighted 的 MLE,用这样一个目标来更新也是更符合优化目标,这点在文中有相关推导和证明。但是在实验中,我们测试的 MLE 和 CDePG 的效果其实差不多。
但是如果只优化 CDePG,由于 s,a,s' 都是策略采集的,单纯这么做反而限制了 action 的探索。注意原本的 PG 的探索,通过 Q 值的高点不同,输出不同的 action 和环境交互再修正 Q 值。但是在我们这种方式下,action 不是直接得到的,而是先得到一个 plan,再由一个底层的 IDM 得到 action。因此,如果这里的 plan 都是见过的,底层的 action 也不会有什么变化。但是 DePG 没有对 s' 的约束,因此天然有着 explore 的能力(通过输出一个不合法的 s' 来得到一个想要的 a)。因此在实际中,我们是同时优化这两个目标(加上监督学习)。
实验
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·