【论文阅读】保守和适应性惩罚+基于模型的安全强化学习

【论文阅读】保守和适应性惩罚+基于模型的安全强化学习

Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Learning

这是今年发表在AAAI 2022关于安全强化学习的一篇文章。基于模型的RL算法使用来自自学习模型的模拟样本来合成遵守约束的策略,减少RL在现实世界不安全的行为,例如超速,超过机器所能达到的最大转矩。但是,不完美的建模还是会产生违规动作,即使动作被预测能满足约束条件。

因此,本文中提出了一种基于模型的安全RL框架(CAP),通过捕获模型的不确定性并自适应地利用它来平衡汇报和成本目标,从而解释潜在的建模错误。主要分为两个步骤:

  1. 使用基于不确定的惩罚来提高预测的成本,这保证了保守性成本约束条件,使其能适应真实的环境,在RL的训练阶段中间步骤的安全性;
  2. 考虑到固定惩罚项适应性较弱(过高,RL只能被迫找到次优策略;过低,可能对成本的约束力不强,造成违规动作),使用来自环境的真实成本回报来自适应地调节成本惩罚项。

最后,在基于状态和图像的环境中,评价了这种基于惩罚的保守自适应(conservative and adaptive cost penalty,CAP)安全RL方法。

具体方法步骤

首先,基于模型的安全RL学习框架
建模为有限制的马尔可夫决策过程(CMDP),其转化为找出存在约束条件的最佳决策的优化问题:
Image
其中, C C C是一个不应超过的累积成本约束阈值。
通常是将式(1)转换为:
【论文阅读】保守和适应性惩罚+基于模型的安全强化学习_第1张图片
其中,Image
Image
同时,状态转移函数T未知,最优策略不能直接通过动态规划的方法计算出,MBRL中通过数据来学习转移函数的估计值。MBRL框架迭代过程:
Image

接着,介绍了保守适应性惩罚项(CAP)
运用了一类概率距离度量——积分概率度量(integral probability metric,IPM),定义了某类函数 f f f使得真实和学习到的转换函数差异最大,该最大差异定位为两个分布的距离:
Image
由上式可得,使用真实和预测的转移函数的策略成本的差异(具体证明可以见论文的附录部分):
Image
上述上界说明了在安全关键设置中不修改直接运用MBRL的风险,因为一般的基于模型的优化没有考虑模型误差对策略成本估计的影响。

为了使MBRL模型能在现实环境中可行,对于一个固定的已学习的转移函数,设置一个成本惩罚函数:
Image
若这个函数存在,能解这个动态规划的问题:
【论文阅读】保守和适应性惩罚+基于模型的安全强化学习_第2张图片
(后面就是证明:在一定概率下对式(5)可行对于式(2)也可行)

然后,介绍了自适应成本惩罚
上节中推导的上界在实践中可能过于保守。为此,提出了一种基于环境反馈的自适应惩罚函数,使其更有实用性。
【论文阅读】保守和适应性惩罚+基于模型的安全强化学习_第3张图片
(文中说更新参数 κ \kappa κ使用了PI控制器,但是感觉就是简单的更新参数的方式。。。)
当累积成本没超过阈值,参数更新是负的,那么成本惩罚可以不那么保守,充分探索最优的策略。

最后,将CAP扩展到连续的状态和动作空间
解决高维的RL问题,设计基于学习转移模型统计的启发式惩罚函数:
Image
运用受限的交叉熵方法:
【论文阅读】保守和适应性惩罚+基于模型的安全强化学习_第4张图片

实验结果

【论文阅读】保守和适应性惩罚+基于模型的安全强化学习_第5张图片
【论文阅读】保守和适应性惩罚+基于模型的安全强化学习_第6张图片
【论文阅读】保守和适应性惩罚+基于模型的安全强化学习_第7张图片


✔️ 网络安全研究小白,如有问题和建议,欢迎指正

你可能感兴趣的:(算法,安全,深度学习)