不考虑动作 | 考虑动作 | |
状态完全可见 | 马尔可夫链(MC) | 马尔可夫决策过程(MDP) |
状态不完全可见 | 隐马尔可夫模型(HMM) | 部分可观察马尔可夫决策(POMDP) |
当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么这个随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。
简单地说,就是系统的下个状态只与当前状态信息有关,与更早之前的状态无关,即“无记忆性”。
如果X(t),t>0为一个随机过程,则马尔可夫性质就是指 P r [ X ( t + h ) ] = y ∣ X ( s ) = x ( s ) , s ≤ t ] = P r [ X ( t + h ) = y ∣ X ( t ) = x ( t ) ] , ∀ h > 0. Pr[X(t+h)]=y|X(s)=x(s),s \le t] = Pr[X(t+h)=y|X(t)=x(t)], \forall h>0. Pr[X(t+h)]=y∣X(s)=x(s),s≤t]=Pr[X(t+h)=y∣X(t)=x(t)],∀h>0.
数学中具有马尔可夫性质的离散时间随机过程。状态空间中经过一个状态到另一个状态的转换的随机过程。这个过程要求具备马尔可夫性质。实际上这样干脆的过程可能是很少的,但很多时候在满足要求的前提下使用马尔可夫链的可以大大简化模型的复杂度。
假设状态序列为 . . . , x t − 2 , x t − 1 , x t , x t + 1 , x t + 2 , . . . ...,x_{t-2},x_{t-1},x_{t},x_{t+1},x_{t+2},... ...,xt−2,xt−1,xt,xt+1,xt+2,...,由马尔可夫链定义可知,时刻 x t + 1 x_{t+1} xt+1的状态只与状态 x t x_{t} xt有关,用数学公式来描述: P ( x t + 1 ∣ . . . , x t − 2 , x t − 1 , x t ) = P ( x t + 1 ∣ x t ) P(x_{t+1}|...,x_{t-2},x_{t-1},x_{t}) = P(x_{t+1}|x_{t}) P(xt+1∣...,xt−2,xt−1,xt)=P(xt+1∣xt)既然某一时刻状态转移的概率只依赖前一个状态,那么只要求出系统中任意两个状态之间的转移概率,这个马尔可夫链的模型就定了。
是统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。
具体实例:
假设你有一个住得很远的朋友,他每天跟你打电话告诉你他那天做了什么。你的朋友仅仅对三种活动感兴趣:公园散步,购物以及清理房间。他选择做什么事情只凭天气。你对于他所住的地方的天气情况并不了解,但是你知道总的趋势。在他告诉你每天所做的事情基础上,你想要猜测他所在地的天气情况。
你认为天气的运行就像一个马尔可夫链,它有两个状态 “雨"和"晴”,但是你无法直接观察它们,也就是说,它们对于你是隐藏的。每天,你的朋友有一定的概率进行下列活动:“散步”、“购物”、“清理”。因为你朋友告诉你他的活动,所以这些活动就是你的观察数据。这整个系统就是一个隐马尔可夫模型HMM。
在每个时间步,该过程处于某种状态 s s s ,决策者可以选择任何一个在状态 s s s可得到的行动 a a a。该过程通过随机移动到下一个状态 s ′ s' s′来响应下一个时间步骤,并给决策者一个相应的奖励 R a ( s , s ′ ) R_a(s,s') Ra(s,s′)
MDP: ( S , A , P a , R a ) (S, A, P_a, R_a) (S,A,Pa,Ra)
MDP是马尔可夫链的延伸,不同之处在于增加了行动(允许选择)和奖励(给予动力)。可以使用MDP来搜索最大化随机奖励的策略,即选择最优策略。
POMDP,部分可观马尔可夫决策过程,特点是 A g e n t Agent Agent的当前状态不完全可观,即不能直接检测到。定义信念状态空间,描述当前所处可能状态的概率分布,记为 b b b。离散时间的POMDP可以用以下七元组来表示 ( S , A , T , R , Ω , O , γ ) (S,A,T,R,Ω,O,γ) (S,A,T,R,Ω,O,γ),其中: