【论文随笔】Reinforcement Learning for Signal Temporal Logic using Funnel-Based Approach

D. Muniraj, K. G. Vamvoudakis, and M. Farhood, “Enforcing Signal Temporal Logic Specifications in Multi-Agent Adversarial Environments: A Deep Q-Learning Approach,” in 2018 IEEE Conference on Decision and Control (CDC), 2018, pp. 4141–4146. doi: 10.1109/CDC.2018.8618746.

Outline

  • 用funnel-based解决tractability问题,同时顾及了robustness

  • 适用于任意非线性系统

  • 使用DQN强化学习算法

  • 适用于以下STL约束F/G/FG
    【论文随笔】Reinforcement Learning for Signal Temporal Logic using Funnel-Based Approach_第1张图片

(Saxena et al., 2022, p. 4)


Remark

  • 不用把所有的历史信息放入决策过程中,只用到了当前状态的鲁棒度和时间

  • Funnel相当于是用一种启发式的方法限制了robustness的大小,对于eventually这样的算子强行启发出了过零点,有一点点扯

  • 强化学习的作用不是很清晰,reward看起来给的是单步reward,但是funnel函数中存在需要整条轨迹才能确定的参数

  • 所谓的time-aware不过是reward函数中存在与时间相关的参数


Formulation

寻找满足以下关系的controller

信号相对于公式的鲁棒度需要随时间逐渐趋近于 ρ m a x \rho_{max} ρmax,也就是说当前信号的鲁棒值需要处于以下的funnel内
在这里插入图片描述

(Saxena et al., 2022, p. 4)


Details

Funnel function

在这里插入图片描述

(Saxena et al., 2022, p. 4)

  • 单调非增的、连续可导、非负的一个函数

  • 每种STL公式有对应的funnel函数参数

  • 其中 l l l是一个随时间变化的量

  • 其中 γ 0 \gamma_0 γ0 γ ∞ \gamma_\infty γ是根据整条轨迹上鲁棒度的极值确定的

    在这里插入图片描述

    (Saxena et al., 2022, p. 5)

  • 这个极值怎么拿到?文章没有解释清楚

Funnel

这期区分funnel和funnel函数两个概念,上面的这个指数函数成为funnel函数,formulation中的不等式成为funnel.

用图片说明就非常形象了,两条红线中间的部分构成漏斗
【论文随笔】Reinforcement Learning for Signal Temporal Logic using Funnel-Based Approach_第2张图片

(Saxena et al., 2022, p. 5)

Reward Shaping

  • DQN的奖励函数与funnel function的值有关
    在这里插入图片描述
    (Saxena et al., 2022, p. 5)

  • 设置为原子命题鲁棒度和funnel函数的组合

  • funnel越宽,说明鲁棒度的容差越大;funnel越小,说明鲁棒度的容差越小

你可能感兴趣的:(时序逻辑,人工智能,学习)