关于DRL

DRL: deep reinforcement learning
DRL = DL (deep learning) + RL (reinforcement learning)

大多数情况下,reward既不为正,也不为负,为0,导致RL非常难训练。
Alpha Go是监督学习+增强学习。在一开始,学习按照人的棋谱下棋,然后学到一定程度,再自己跟自己下。

你可能感兴趣的:(关于DRL)