第五章 模型和训练 | 多智能体强化学习

第五章 模型和训练

1、多智能体强化学习

为什么需要多智能体(multi-agent)学习

梯度下降算法寻优方法类似从山顶放置小球向下滚,希望寻找最快最好的路径,到达最低的谷底。
每个智能体每次只使用一个小球,学习训练并使用一条路径,重复多次。而多个智能体类似放置一群小球,同时分别学习训练并使用各自的多条路径,向下滚动过程中互相联系通信,相互告知自己的位置及状态,团队合作,引导共同到达最低的谷底。
第五章 模型和训练 | 多智能体强化学习_第1张图片
参见上图,多智能体(multi-agent)学习,相比单智能体:

  1. 多智能体智能体保持各自独特性和总体多样性
  2. 多智能体协同学习互通信息,效率更高,梯度下降速度更快
  3. 多智能体更易到达全局更优(右图)
  4. 多智能体收敛性提高

Actor-Critic和MADDPG

Google DeepMind 提出Actor-Critic,多个agent各自训练,分别更新主结构中的参数,协同进行寻优

你可能感兴趣的:(人工智能.量化投资,深度学习,神经网络,tensorflow,机器学习,数据挖掘)