关于Q-learning 中的Q的含义

状态(state)的价值(value)用v表示,(状态,动作)(state,action)的价值(value)用q表示
(Reinforcement Learning:an Introduction)里头就是这么记的。然后这个q就一直延续到了Q-learning里了。

也即Q值表示状态-动作对的值

你可能感兴趣的:(关于Q-learning 中的Q的含义)