强化学习与深度,神经网络的结合随记

84*84*4表示一个state,4表示4帧图像。

每个像素点都有0-255种可能取值,256的84*84*4次幂表示4张图全部像素点的总共可能性取值。说明如果全部像素点都拿来做state,那Q-table就太大了。

可不可以借助神经网络来做?

改变每个像素点的值,转换为黑白图像:0代表黑色,255代表白色。黑色是可以走的区域,白色是不可以走的区域。每4帧图像为一个state

每个位置都有一个当前最优解,但是不是全局最优解呢?我们之前的解都是根据贪心的选择做最优的解,如果加上一些探索(比如10%可能性不走当前最优解,在最优解和其他解当中随机的选一个),尝试全局最优解。

开发:每次按贪心的选择去走最好的一个方向。但是要让网络泛化能力更强,因为神经网络有时会过拟合,所以要加上一些探索,使得网络能够去发现一些新的东西。

例如贪心为10%,那么它有90%按正常去走,10%按随机去走。

你可能感兴趣的:(强化学习与深度,神经网络的结合随记)