Policy invariance under reward transformations- Theory and application to reward shaping基于势能的塑形奖励函数
这个是摘要哦本文研究了对马尔可夫决策过程的奖励函数进行修改以保持最优策略的条件。结果表明,除了效用理论(utilityutilityutilitytheorytheorytheory)中常见的正线性变换外,还可以为状态之间的转换添加奖励,该奖励可以表示为应用于这些状态的任意势能函数的值的差。此外,这被证明是不变性的必要条件,因为任何其他转换都可能产生次优策略,除非对基础MDP做出进一步假设。这些结