MADDPG

文章目录

  • 杂项知识点
    • Agent学不到东西
  • MA的体现
    • 策略集合优化(policies ensemble)
  • 公式与代码
  • 看论文不懂的句子(自己英语渣吧)
  • 1 DDPG
  • 预备知识
    • LSTM
    • Hierarchy RL
  • 重要句子

杂项知识点

Agent学不到东西

  像DQN一样,在使用神经网络进行值估计的时候,神经网络的相关性都太强了,梯度更新相互依赖,导致网络将会学不到东西。

MA的体现

策略集合优化(policies ensemble)

  1. sub-policy(子策略), 对于 sub-policy 来说,只需要专注于自己易于优化的目标,降低了学习难度。

公式与代码

在这里插入图片描述
MADDPG_第1张图片

with tf.variable_scope('policy_grads'):
    # 这是在计算 (dQ/da) * (da/dparams)
    self.policy_grads = tf.gradients(
        ys=self.a, xs=self.e_params, # 计算 ys 对于 xs 的梯度
        grad_ys=a_grads # 这是从 Critic 来的 dQ/da, grad_ys相当于ys的初始值(常量),也就相当于(dQ/da) * (da/dparams)
    )
with tf.variable_scope('A_train'):
    opt = tf.train.AdamOptimizer(-self.lr)  # 负的学习率为了使我们计算的梯度往上升, 和 Policy Gradient 中的方式一个性质
    self.train_op = opt.apply_gradients(zip(self.policy_grads, 
    self.e_params)) # 对 eval_net 的参数更新

看论文不懂的句子(自己英语渣吧)

  1. Since a centralized critic is learned independently for each agent
       由于一个集中的批评者是为每个智能体独立学习的
  2. visibly 明显的, 明白的
  3. struggle to learn in multiagent environments
      struggle to learn 难以学习
  4. Agent modeling 智能体建模
  5. T(time horizon)

1 DDPG

图片来源

MADDPG_第2张图片

预备知识

LSTM

Hierarchy RL

词根arch,archy= government,to rule统治参考文献
FeUdal Networks for Hierarchical Reinforcement Learning
Usefulness: which lets us force the listener to incorporate the utterances of the speaker in its decision-making process

重要句子

It seems that considering the actions of others during training is important for learning collaborative strategies.

你可能感兴趣的:(MA)