Deep Q Learning伪代码分析及翻译

伪代码

Deep Q Learning伪代码分析及翻译_第1张图片

代码翻译及分析

初始化记忆体D中的记忆N
初始化随机权重θaction值的函数Q(Q估计)
初始化权重θ-=θ target-action值的函数^Q(Q现实)
循环:
    初始化第一个场景s1=x1并且预处理场景s1对应的场景处理函数Φ
    循环:
        根据可能性ε选择一个随机动作at,or
        或者选择一个最大值at从函数Q中在场景st下
        执行动作a在模拟器中并且获取一个奖励rt和下一个场景xt+1
        令st+1=st,at,xt+1并且处理Φt+1=Φ(st+1)(Φt,at,rt,Φt+1)存储在D中
        采样一个随机的小批训练在D中
        设置yj值:
            如果 下一个场景yj+1是中止:则只返回rj
            否则 返回rj+ (gamma ^Q(Φj+1,a,θ)函数最大a值的值)
        #思路还是和Q-learning一样,如果有奖励则激励权重θ,如果每奖励则由gamma值来衰减权重θ
        执行一个(Q现实-Q估计)平方梯度回归来更新权重θ
        每执行多少步就执行一个^Q=Q(Q现实=Q估计,主要是权重拷贝)

你可能感兴趣的:(DQN)