2020联合作战智能博弈挑战赛之(二)探索

2020年8月9日笔记

最近各种乱七八糟的事情实在太多了,三天半时间毫无进展。直到8月9日17点才能又看看竞赛方面的资料。要想改进智能体,要么制定更加好的规则,要么用机器学习的方法在自我博弈的过程中学习更好的模型。

需要注意的是,举办方提供的虚拟机仅限于选手熟悉开发环境或者开发规则智能体使用;如果是开发训练基于神经网络的智能体,因为要用到GPU资源,仍然需要选手在安装有Linux物理机/服务器上配置开发环境。

接下来就是读源码的过程,顺便增加一些注解,方便后续使用。

晚上偶然机会获得了一个星际争霸的强化学习开源框架,该项目中的一些算法值得学习。

QMIX:深度多智能体强化学习的单调值函数分解。

COMA反事实多智能体策略梯度

VDN:多智能体协作学习的价值分解网络。

你可能感兴趣的:(机器学习,机器学习,人工智能)