两个交互对象:
基本要素:
如果状态和动作都是离散的时候,可以把智能体与环境的交互看成一个离散的序列。
s 0 , a 0 , s 1 , r 1 , a 1 , s 2 . . . . . . s t , r t , a t . . . s_0,a_0,s_1,r_1,a_1,s_2......s_t,r_t,a_t... s0,a0,s1,r1,a1,s2......st,rt,at...
如下图所示:
此时,将智能体与环境的交互看成一个马尔可夫决策过程
p ( s t + 1 ∣ s t , a t , s t − 1 , . . . . . s 0 , a 0 ) = p ( s t + 1 ∣ s t , a t ) p(s_{t+1}|s_t,a_t,s_{t-1},.....s_0,a_0)=p(s_{t+1}|s_t,a_t) p(st+1∣st,at,st−1,.....s0,a0)=p(st+1∣st,at)
其决策过程如下图所示:
以上图片来源:《神经网络与深度学习》
用的马尔可夫决策过程定义强化学习任务
区别