深度强化学习落地方法论(4)——动作空间篇

目录

  • 前言
  • 对动作空间的三个要求
    • 完备性
    • 高效性
    • 合法性
  • 结语

前言

在将DRL应用于实际项目时,可能最轻松愉快的部分就是动作空间定义了。倒不是因为这项工作简单,而是agent的控制方式往往早就定死了,留给我们发挥的空间很小,就好像我们无法决定DOTA里允许多少种操作,也无法改变一台机器人的关节数量和各自的角度范围,Gym用户甚至从来都不用为这个问题操心,action空间有多少维,连续还是离散,各种domain早就都定义好了,我们根据这些性质判断任务的难度,仅此而已。选择困难症患者表示松了一口气有木有~~~当然咯,如果运气足够好,agent提供了多种控制选项并允许我们自由选择时,一定要珍惜这种机会。

对动作空间的三个要求

完备性

动作空间首先要提供实现预期目标的可能性,避免在任务解空间中出现无法触及的“状态盲区”,尤其是要保证高性能区域的充分可达性。这一方面要求动作空间要具有功能完备性,比如一辆汽车必须具备加减速、转弯和刹车等基本功能才可以实现导航和防撞任务;另一方面还要求动作空间具有时效完备性,即使一辆汽车具备了正常行驶所需的全部功能,但如果这些功能的响应速度过慢,或者决策周期过长,都会严重影响高速行驶下

你可能感兴趣的:(深度强化学习落地方法论,人工智能,深度强化学习,AI落地)