[翻译]一种基于学习的脉冲机动轨道追逃博弈的高效算法

[翻译]一种基于学习的脉冲机动轨道追逃博弈的高效算法

PRD-MADDPG: An Efficient Learning-Based Algorithm for Orbital Pursuit-Evasion Game with Impulsive Maneuvers
摘要: 本文利用基于人工智能的方法全面研究了脉冲轨道追逃博弈(Orbital Pursuit-Evasion Games, OPEGs)的问题。首先,构建了追逐者和逃避者都通过施加脉冲速度增量来执行轨道机动的脉冲OPEG数学模型。其次,将脉冲OPEG问题转化为在终端时间方面具有最小-最大优化指数和机动性、总燃料消耗、任务时间等多重约束的双边优化问题。为了确定双方的最优脉冲动作,在多智能体强化学习框架中设计了一种PRD-MADDPG(预测-奖励-检测多智能体深度确定性策略梯度)算法。该算法利用基础MADDPG实现策略训练和学习,并应用补充PRD预测两个相邻脉冲动作间隔期间博弈状态的变化,并将这些信息以预测奖励的形式纳入算法训练中。最后,对地球同步轨道附近的一些追逃任务进行了数值分析,验证了该算法的有效性。结果表明,即使考虑相当复杂的约束,PRD-MADDPG算法也能非常有效地找到适用的策略。研究还表明,基于学习的策略可以有效地应用于训练过程中看不到的扩展场景。

创新点

  • 构建了脉冲轨道追逃博弈(OPEG)的多约束模型。
  • 设计了一种基于学习的脉冲OPEG算法(即PRD-MADDPG)。
  • 建立了预测-奖励-检测(PRD)训练框架,改进MADDPG。
  • PRD-MADDPG在脉冲OPEG中的表现优于传统MADDPG。
  • 分析了多因素作用下双方的获胜机制。

1. 引言

  轨道追逃博弈用于描述一种对抗性或非合作性轨道运动场景,其中追逐者试图捕获或会合逃避者,而逃避者则试图避免被捕获或会合(Zhao 等人,2021 年)。自1960年代以来,对OPEG的研究一直受到学者的广泛关注(Billik,1964,Wong,1967,Woodward,1972)。第一个OPEG问题于1964年研究。当Billik研究低加速度会合问题时,使用微分博弈论讨论并解决了考虑目标非合作行为的扩展案例(Billik,1964)。然后,Wong(1967)研究了在面内运动和恒定引力场的假设下,追击拦截器用机动卫星拦截的问题,并用微分博弈论解决了这个问题。后来,伍德沃德(Woodward,1972)在他的硕士论文中利用微分博弈论研究了为在近地轨道上从事追击和规避的两个恒定质量和恒定推力航天器开发最佳推力角程序的问题。
  前面提到的微分博弈论其实是Isaacs(1954)更早提出的,在过去的几十年里,它已经成为解决OPEGs问题的有效方法(Ho et al., 1965)。通过使用汉密尔顿-雅可比-贝尔曼方程,微分博弈论通常将OPEGs问题转换为两点边界值问题(TPBVP)。Menon和Calise (1988)和Menon and Duke (1992)利用微分博弈和最优控制理论定性分析了航天器的追逐边界门,但该方法难以求解汉密尔顿-雅可比方程。为了求解微分博弈的TPBVP,通常采用多目标遗传算法估计初始值,然后结合多射击法优化解(秋华等,2014),但该方法的计算消耗相对较高。为了得到OPEG问题的鞍点平衡解,Pontani和Conway(2009)提出了一种半直接配置非线性规划方法,该方法需要遗传算法进行初步猜测以进一步获得近似解。然后受到比例导航的启发,Carr等人(2018)提出了一种替代方法,用于生成半直接配置非线性规划方法所需的初始猜测。
  上述研究中使用的这些传统方法通常需要几秒钟或几十秒才能获得数值解,甚至可能导致进一步的收敛问题(Zhang等人,2022b)。这是因为在OPEG问题中考虑轨道动力学给计算带来了额外的复杂性。此外,上述任何一种传统方法所获得的控制策略的适应性都不够,单一的控制策略实际上无法应用于不同的博弈场景,说明当OPEG问题的初始状态和约束发生变化时,必须重新计算控制动作。因此,这些传统方法无法满足OPEG实际任务中的实时性要求。
  OPEG问题模型得到了进一步分析。由于微分博弈论更适合于连续控制系统,目前对OPEG问题的研究大多基于连续控制模型,大致可分为以下两种。第一种类型是假设航天器的推力大小是恒定的,并且通过不断调整推力的输出方向来实现轨道机动(Billik,1964,Qichang和Zhang,2019)。第二种类型假设航天器可以通过连续控制推力大小和方向来实现轨道机动(Li 等人,2021 年,Jagat 和 Sinclair,2017 年)。连续推力的输出通常很小,可能无法应用于快速但不合作的轨道机动。然而,输出比较大的脉冲推力可能更适合远距离交会场景下的追逃任务。因此,一些学者已经意识到这个问题,并开始探索脉冲的OPEG问题。
  所谓的脉冲OPEG是一种OPEG,其中追逐者和逃避者都应用脉冲机动来执行其轨道转移。Venigalla 和 Scheeres(2021)针对航天器之间初始距离较大的脉冲OPEG问题提出了一种基于δ-V的分析方法,并假设航天器采用双脉冲转移。Yang等人(2021)将轨道脉冲追击-规避任务建模为两阶段博弈问题,其中采用顺序二次规划(SQP)方法将远距离追击-逃避问题转化为多脉冲会合轨迹优化问题,并应用DDPG算法将近距离追击-规避问题建模为策略强化学习问题。然而,现有的研究很少从博弈建模的角度考虑航天器脉冲机动的特点。此外,上述研究经常将研究主题限制在特殊的脉冲OPEG任务场景中。因此,如何以更通用的形式对脉冲OPEG问题进行建模仍有待探索和研究。
  随着近年来人工智能理论的发展,深度神经网络(DNN)和深度强化学习(DRL)在机器人控制,游戏智能和航天器控制等领域得到广泛应用。因此,一些研究人员尝试使用人工智能方法将OPEG问题转化为学习问题。目前解决这个学习问题主要有两种思路:第一个是将 DNN 和微分博弈论结合起来解决 OPEG 问题(Zhang et al., 2022a)。由于轨道动力学的强非线性,很难在OPEG问题中找到汉密尔顿-雅可比方程的解。因此,一些学者使用 DNN 来拟合方程的解。然而,由于该方法在建模和策略设计中均基于微分博弈论,仅使用深度神经网络来求策略的数值解,因此存在计算效率低、对脉冲OPEG问题适用性差的缺点。另一种是使用 DRL 方法,例如 DQN、演员评论家算法和 DDPG 来解决 OPEG 问题。该方法将 OPEG 建模为马尔可夫决策过程(MDP),并应用反复训练以逐步学习最佳策略。但是,基本的DRL算法是为单个智能体开发的,不太适合至少有两个玩家的OPEG问题。因此,有必要找到一种可以应用于多个玩家游戏的多智能体深度强化学习(MARL)算法。
  2017 年,OpenAI 针对多智能体协作和多智能体博弈的场景提出了多智能体深度确定性策略梯度(MADDPG)算法。近年来,MADDPG 算法已成功应用于智能电网、集群通信、路径规划和机器人追逃博弈。MADDPG 算法是一种独立于模型的方法,这意味着环境可以被视为一个黑盒,以响应智能体在训练过程中的动作。在实际应用中,MADDPG算法的训练过程需要与环境进行大量的交互来生成训练样本,这强烈要求将环境视为静态。但由于物理实验难度大、成本高,很多任务场景并不适合在物理环境中直接训练。因此,通过对任务场景进行分析建模来构建相应的虚拟场景是一个很好的解决方案。在无人机,机器人和其他无人系统领域,研究人员创建了算法训练所需的各种虚拟环境,不仅可以降低实验成本,还可以缩短训练时间。
  综上所述,在分析了现有的相关研究成果后,可以发现现有的OPEG问题研究存在两个不足。第一个与OPEG的问题建模有关。大多数现有研究假定轨道机动是通过连续的小推力轨迹转移来实现的。然而,在实际的空间任务中,轨道机动也可以通过一系列离散的速度变化来进行,称为由 δ − v \delta-v δv 表示的脉冲速度变化(或增量)。针对这一缺陷,本文创新性地利用相对轨道运动的状态转移矩阵(STM)和双边优化理论,推导了一种可以描述一对卫星在追逃场景中的博弈模型。第二个是关于OPEG的求解方法。OPEG现有的求解方法可分为两类:基于优化的方法和基于人工智能(AI)的方法。自1964年以来,基于优化的方法得到了广泛的研究,但存在计算量大、耗时长、适用性差的缺点。基于AI的方法有望应用于解决脉冲OPEG问题,但具体的探索仍然相当不足。为了缓解这种情况,该文提出PRD-MADDPG算法来解决脉冲OPEG问题。设计 PRD 训练框架和相应的奖励函数设计方法,避免脉冲区间内的信息丢失,降低稀疏奖励的负面影响。此外,针对多重约束(即机动性、终端时间和燃料储备)的问题,本文综合分析了多因素下多因素的影响和博弈的获胜机制。
  本文的其余部分组织如下。第2节,利用航天器相对运动动力学和非合作博弈论,构建了多约束脉冲OPEG的问题模型。第3节提出了预测-奖励-检测训练框架来改进MADDPG算法,最终形成一种新的算法,即PRD-MADDPG算法,旨在解决多约束脉冲OPEG问题。第4节介绍了一些使用PRD-MADDPG算法求解具有代表性的多约束脉冲OPEG问题的仿真案例,并将性能与MADDPG算法进行了比较。此外,本节还设计了实验来验证PRD-MADDPG算法在未经训练和未知场景中的适应性。第5节给出了论文的结论。

2. 问题描述

  在现有的OPEG问题研究中,人们普遍认为航天器的控制是连续的,但在实际任务中,航天器可能采用脉冲轨道机动,机动性、终端时间和燃料储备都是有限的。因此,首先基于相对轨道动力学和博弈论建立了多约束脉冲OPEG问题模型。

2.1 场景描述

  考虑以下两个脉冲推力航天器在机动性、终端时间和燃料储备等约束下的平面OPEG问题。此外,飞船的两次冲动控制之间有一个时间间隔,追逐者和躲避者都会在追击-逃避游戏中尽快做出决定。脉冲OPEG的过程如图1所示。本文对所研究的问题有三个假设。
假设1: 这两个航天器之间的相对距离远小于轨道半径,满足CW方程条件。
假设2: 脉冲机动的速度增量在机动点瞬间获得。
假设3: 双方的脉冲间隔时间相同且固定。
  此外,考虑到实际工程的限制,航天器的机动性和燃料储备有限。因此,本文认为,对于航天器的单个脉冲控制获得的速度增量存在一个上限,称为最大单个 δ v \delta v δv。并且航天器的总燃料储备还有一个上限,称为最大总 δ v \delta v δv。此外,OPEG不能无限期地继续,因此假设任务具有最大终止时间, t max ⁡ t_{\max} tmax

2.2 脉冲轨道机动控制模型

  从轨道动力学的角度来看,OPEG是两个航天器之间特殊的相对运动。将逃避者在回合时间的初始轨道定义为参考轨道。采用与参考轨道固连的LVLH坐标系作为描述每个航天器轨道运动的坐标系。利用LVLH坐标系中CW方程的状态转移矩阵,可以建立追逐者或逃避者的脉冲轨道机动模型:
x ⃗ ( t ) = Φ ( t , t 0 ) x ⃗ ( t 0 ) + ∑ i = 1 N Φ v ( t , t i ) Δ v ⃗ i \vec{x}(t)=\Phi(t,t_0)\vec{x}(t_0)+\sum_{i=1}^N\Phi_v(t,t_i)\Delta \vec{v}_i x (t)=Φ(t,t0)x (t0)+i=1NΦv(t,ti)Δv i
其中 x ⃗ ( t ) \vec{x}(t) x (t) 是LVLH坐标系中追逐者或逃避者的状态向量, Δ v ⃗ i \Delta \vec{v}_i Δv i 是第 i i i 次脉冲机动的速度增量向量, t 0 t_0 t0 为任务初始时间, t i t_i ti 为第 i i i 次脉冲机动的时间。本文中,因为所有航天器都会在初始时刻进行机动,所以 t 0 = t 1 = 0 t_0=t_1=0 t0=t1=0 Φ ( t , t i ) \Phi(t,t_i) Φ(t,ti) Φ v ( t , t i ) \Phi_v(t,t_i) Φv(t,ti) 是CW方程的状态转移矩阵,一个给定的表达式如下:
⋯ \cdots
其中 i = 1 , 2 , ⋯   , N i=1,2,\cdots,N i=1,2,,N
多脉冲轨道机动根据脉冲机动顺序可以看作多个阶段。航天器总共执行 N N N 次脉冲机动,第 i i i 个机动记录为 t i t_i ti i = 1 , 2 , ⋯   , N i=1,2,\cdots,N i=1,2,,N。使用 x ⃗ ( t i − ) \vec{x}(t_i^-) x (ti) x ⃗ ( t i + ) \vec{x}(t_i^+) x (ti+) 分别表示航天器在 t t t 时刻进行脉冲控制前后的状态,于是航天器在 t i t_i ti 时刻的变化可以写作
x ⃗ ( t i + ) = x ⃗ ( t i − ) + [ 0 ⃗ 2 × 1 Δ v ⃗ i ] \vec{x}(t_i^+)=\vec{x}(t_i^-) +\begin{bmatrix}\vec{0}_{2\times 1} \\ \Delta \vec{v}_i\end{bmatrix} x (ti+)=x (ti)+[0 2×1Δv i]
航天器在 t i t_i ti t i + 1 t_{i+1} ti+1 时刻之间无动力滑行,这一过程的状态变化可以通过下式计算
x ⃗ ( t i + 1 − ) = Φ ( t i + 1 , t i ) x ⃗ ( t i + ) \vec{x}(t_{i+1}^-)=\Phi(t_{i+1},t_i)\vec{x}(t_i^+) x (ti+1)=Φ(ti+1,ti)x (ti+)
  注释1: 多脉冲轨道机动的控制属于由强化学习中的马尔可夫决策过程(MDP)组成的顺序决策过程。因此,航天器的脉冲轨道机动可以建模为MDP,并进一步使用强化学习算法来训练控制策略。

2.3 脉冲轨道追逃博弈模型

  与机器人、UAV和导弹的追逃问题不同,由于轨道动力学和发动机推力的强约束,脉冲OPEG问题有以下5个特点:卫星高速运动,可预测,空间很大,轨道转移时间很长,机动性能有限。这些特点需要在脉冲OPEG的问题建模和策略设计中充分考虑。 ⋯ \cdots

2.3.1 脉冲OPEG过程

  本文研究的脉冲OPEG问题中,博弈玩家集合为 G = ( P , E ) G=(P,E) G=(P,E),追逃双方在 t t t 时刻LVLH坐标系下的状态向量分别为 x ⃗ P ( t ) \vec{x}_P(t) x P(t) x ⃗ E ( t ) \vec{x}_E(t) x E(t) ,脉冲OPEG过程如图2所示。航天器双方同步地在每个 Δ t \Delta t Δt 间隔内执行脉冲控制 Δ v ⃗ P t i \Delta\vec{v}_P^{t_i} Δv Pti Δ v ⃗ E t i \Delta\vec{v}_E^{t_i} Δv Eti,其中 t t t_t tt 表示双方执行第 i i i 次脉冲控制的时刻。追逃双方的动作分别是它们自己的脉冲速度增量
⋯ \cdots
其中 N N N 是OPEG任务结束之前追逃双方执行的脉冲机动总次数。需要强调的是 N N N 不是一个固定的常数,而是一个跟双方的策略、初始状态、约束有关的正整数。

2.3.2 时间约束

   ⋯ \cdots
  注释2: 值得注意的是 t f ≠ t N t_f\neq t_N tf=tN ⋯ \cdots

2.3.3 航天器机动性约束

  这一研究中,利用单脉冲控制获得的速度增量来表征航天器的可操纵性。航天器可操纵性的约束意味着通过单脉冲控制可以获得的速度增量有一个上限 Δ v ˉ \Delta\bar v Δvˉ。追逐者航天器的单一脉冲速度增量需要满足下式
∣ Δ v P , x t i ∣ + ∣ Δ v P , y t i ∣ ≤ Δ v ˉ P , ∀ i ∈ [ 1 , 2 , ⋯   , N ] \left|\Delta v_{P,x}^{t_i}\right|+\left|\Delta v_{P,y}^{t_i}\right| \leq\Delta\bar v_P,\forall i\in[1,2,\cdots,N] ΔvP,xti + ΔvP,yti ΔvˉP,i[1,2,,N]
类似地,逃避者需要满足下式
∣ Δ v E , x t i ∣ + ∣ Δ v E , y t i ∣ ≤ Δ v ˉ E , ∀ i ∈ [ 1 , 2 , ⋯   , N ] \left|\Delta v_{E,x}^{t_i}\right|+\left|\Delta v_{E,y}^{t_i}\right| \leq\Delta\bar v_E,\forall i\in[1,2,\cdots,N] ΔvE,xti + ΔvE,yti ΔvˉE,i[1,2,,N]
(这里为什么是绝对值而不是平方?)

2.3.4 航天器燃料剩余约束

   ⋯ \cdots
  追逐者航天器的燃料剩余约束可以用下式表示
∑ i = 1 N ( ∣ Δ v P , x t i ∣ + ∣ Δ v P , y t i ∣ ) ≤ Δ V ˉ P \sum_{i=1}^N\left(\left|\Delta v_{P,x}^{t_i}\right|+\left|\Delta v_{P,y}^{t_i}\right|\right)\leq\Delta\bar V_P i=1N( ΔvP,xti + ΔvP,yti )ΔVˉP
类似地,逃避者需要满足下式
⋯ \cdots

2.3.5 终止条件

  首先,OPEG的终止条件集合的定义为
{ Λ = { x ⃗ P ( t ) , x ⃗ E ( t ) ∣ ψ ( t , x ⃗ P ( t ) , x ⃗ E ( t ) ) ≤ 0 } ψ ( t , x ⃗ P ( t ) , x ⃗ E ( t ) ) = ∣ ∣ r ⃗ P ( t ) , r ⃗ E ( t ) ∣ ∣ 2 − Δ r max ⁡ (14) \begin{cases} \Lambda=\{\vec x_P(t),\vec x_E(t)|\psi(t,\vec x_P(t),\vec x_E(t))\leq 0\} \\ \psi(t,\vec x_P(t),\vec x_E(t))=||\vec r_P(t),\vec r_E(t)||_2-\Delta r_{\max} \end{cases}\tag{14} {Λ={x P(t),x E(t)ψ(t,x P(t),x E(t))0}ψ(t,x P(t),x E(t))=∣∣r P(t),r E(t)2Δrmax(14)
  其中 Δ r max ⁡ \Delta r_{\max} Δrmax 是一次成功追逐的最大距离误差, r ⃗ p \vec r_p r p r ⃗ E \vec r_E r E 分别为追逃双方在LVLH坐标系下的向量坐标。
  OPEG任务在航天器在第一次满足终止条件式(14)时成功,因此终止时间可以通过下式定义
t f = min ⁡ { t ∈ R + , t ∣ x ⃗ P ( t ) , x ⃗ E ( t ) ∈ Λ } (15) t_f=\min\{t\in R^+,t|\vec x_P(t),\vec x_E(t)\in\Lambda\} \tag{15} tf=min{tR+,tx P(t),x E(t)Λ}(15)
  在本文中,终端时间 t f t_f tf 表示追逐者航天器成功赶上逃避者航天器所需的时间。此外,由于本文考虑了终端时间和燃料储备的约束,当式16或17成立时,任务失败。
⋯ \cdots
  在判断任务是否失败时,我们只关注追逐者的燃料储备的原因如下。可以肯定的是,一旦自身的燃料储备耗尽,追逐者将无法继续完成追击任务。然而,当躲避者的燃料储备耗尽时,追逐者能否成功抓获躲避者还不确定。

2.3.6 追逃双方的目标函数

  在脉冲OPEG中,追逐者的目标是在约束条件下在尽可能短的时间内捕获逃避者。换句话说,追逐者努力寻找脉冲控制序列 u ⃗ P = [ Δ v ⃗ P t 1 , Δ v ⃗ P t 2 , ⋯   , Δ v ⃗ P t N ] \vec{u}_P=[\Delta\vec{v}_P^{t_1},\Delta\vec{v}_P^{t_2},\cdots,\Delta\vec{v}_P^{t_N}] u P=[Δv Pt1,Δv Pt2,,Δv PtN] 来最小化与博弈的初始状态、控制策略和其它参数有关的结束时间 t f t_f tf。因此追逐者的目标函数可以表示为
min ⁡ u ⃗ P t f = f ( x ⃗ P ( t 0 ) , x ⃗ E ( t 0 ) , u ⃗ P , u ⃗ E , para ) (18) \min_{\vec{u}_P}{t_f}=f(\vec{x}_P(t_0),\vec{x}_E(t_0),\vec{u}_P,\vec{u}_E,\text{para}) \tag{18} u Pmintf=f(x P(t0),x E(t0),u P,u E,para)(18)
  相反,逃避者的目标函数是在约束下尽可能延长自己的存活时间,也就是说,寻找脉冲控制序列 u ⃗ E = [ Δ v ⃗ E t 1 , Δ v ⃗ E t 2 , ⋯   , Δ v ⃗ E t N ] \vec{u}_E=[\Delta\vec{v}_E^{t_1},\Delta\vec{v}_E^{t_2},\cdots,\Delta\vec{v}_E^{t_N}] u E=[Δv Et1,Δv Et2,,Δv EtN] 来最大化结束时间
max ⁡ u ⃗ E t f = f ( x ⃗ P ( t 0 ) , x ⃗ E ( t 0 ) , u ⃗ P , u ⃗ E , para ) (19) \max_{\vec{u}_E}{t_f}=f(\vec{x}_P(t_0),\vec{x}_E(t_0),\vec{u}_P,\vec{u}_E,\text{para}) \tag{19} u Emaxtf=f(x P(t0),x E(t0),u P,u E,para)(19)
其中 para = [ Δ r max ⁡ , Δ v ˉ P , Δ v ˉ E , Δ V ˉ P , Δ V ˉ E , t max ⁡ ] \text{para}=[\Delta r_{\max},\Delta\bar{v}_P,\Delta\bar{v}_E,\Delta\bar{V}_P,\Delta\bar{V}_E,t_{\max}] para=[Δrmax,ΔvˉP,ΔvˉE,ΔVˉP,ΔVˉE,tmax] 是会影响结束时间 t f t_f tf 的参数集合。
  注释3: 式(18)和式(19)中的 f f f 与式 (15)近似等价,都用于解释哪些参数影响 t f t_f tf

2.3.7 脉冲OPEG模型

  综上所述,基于追击航天器和躲避航天器的博弈目标,在综合考虑轨道动力学、推力产生机制、操纵性、燃料储备和终端时间等约束条件后,本文建立了一个通用的多约束脉冲OPEG模型,即
⋯ \cdots
  注释4: 考虑到脉冲机动特性和推进系统的性能(即在实际工程任务中,本文提出了多约束脉冲OPEG的问题模型。与基于微分博弈论的OPEG模型的连续控制版本相比,OPEG模型中的脉冲控制版本更接近太空任务的实际工程场景。该模型更适用于追逃双方都采用脉冲机动的OPEG问题。

3. PRD-MADDPG 算法的设计与分析

  本节提出PRD-MADDPG算法来求解式(20)中的脉冲OPEG问题。首先,在分析脉冲OPEG过程的基础上,结合多智能体理论和MDP理论,建立了脉冲OPEG的MDP模型。然后,针对脉冲OPEG任务,分析了基于MADDPG算法的网络训练过程。然后,提出了一种预测奖励检测(PRD)训练框架来改进脉冲OPEG的MADDPG算法,并在PRD-MADDPG方法中为脉冲OPEG模型设计了相应的奖励函数。

3.1 脉冲OPEG的MDP模型

  强化学习的基本原理是模仿动物学习的过程:智能体以试错的方式与环境互动,并获得相应的奖励。我们可以通过设计奖励来指导智能体的动作选择策略,算法的目标是通过训练获得能够使智能体获得最大奖励的控制策略。
  现有的人工智能在航空航天中的应用研究大多基于单智能体强化学习算法(即DQN、DDPG)。单航天器强化学习的原理如图所示。在时间 t i t_i ti,航天器根据环境(即系统)反馈的状态信息 S ( t i ) S(t_i) S(ti) 选择动作(即控制指令) a ( t i ) a(t_i) a(ti),并执行与环境交互的动作。然后,环境的状态被改变为状态 S ( t i + 1 ) S(t_{i+1}) S(ti+1),并且环境还反馈与动作 a ( t i ) a(t_i) a(ti) 相对应的奖励 R ( t i ) R(t_i) R(ti)。通过重复上述过程,航天器根据获得的奖励调整其控制策略,直到能够获得最大的累积奖励。上述过程就是MDP,它是序列决策问题的数学模型。单个航天器的MDP模型可以表示为
⟨ S , A , P , R , γ ⟩ \langle S,A,P,R,\gamma\rangle S,A,P,R,γ

5. 结论

  本文在实际工程任务中考虑机动性、燃料储备、终端时间等约束因素,提出了一种多约束脉冲OPEG问题模型。针对该问题,该文结合MADDPG算法和预测-奖励-检测训练框架,进一步提出了一种PRD-MADDPG算法。在仿真实验部分,应用PRD-MADDPG算法求解GEO附近多约束脉冲OPEG问题。实验结果表明,与MADDPG算法相比,PRD-MADDPG算法具有更快的收敛速度、更好的收敛效果和更高的追踪成功率,验证了PRD-MADDPG算法的可行性和效率。此外,与传统数值算法相比,航天器可以依靠自身的策略网络,根据自身对环境的实时观测,直接输出控制命令,效率非常高,不需要重新求解非线性方程、积分计算等复杂的计算操作。此外,测试实验结果进一步证明,PRD-MADDPG算法训练得到的策略网络具有良好的适应性,可应用于不同初始和约束条件下的游戏场景。然而,应该指出的是,本文的一个局限性是假设追逐者和逃避者需要同时推力。未来,针对每个玩家的决策时间不同的情况,将研究追逃博弈的问题。

你可能感兴趣的:(强化学习,算法,学习,机器学习)