强化学习——基本概念

什么是强化学习

  • 强化学习关注与智能体(agent)如何与环境交互中不断学习以完成特定的目标。
  • 与有监督学习相比, 不需要告诉智能体数据以及对应的标签,学习相应的模型。
    而是需要智能体在环境中一次次学习(哪些数据对应哪些标签),从而学习规律知道策略。
  • 强化学习是希望智能体在环境中根据当前状态,采取行动,转移到下一个状态,获得回报。不断进行这样的过程,从而学习到一个策略(状态到动作的映射,即当前状态下,采取什么样的行动,能使得我最终获得的回报最大【不仅只是当前状态的而回报,一个策略π的长期影响才是至关重要的】)

强化学习中的基本概念

两个交互对象:

  • 智能体(agent):可以感知外界环境的状态(State)和反馈的奖励(Reward),并进行学习和决策.智能体的决策功能是指根据外界环境的状态来做出不同的动作(Action),而学习功能是指根据外界环境的奖励来调整策略.
  • 环境:是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。

基本要素:

  • 状态(state):对环境的描述,可以是离散的或连续的。状态空间 S S S
  • 动作(action):是对智能体行为的描述,可以是离散的或连续的,动作空间 A A A
  • 策略 π ( a ∣ s ) \pi(a|s) π(as):智能体根据当前状态s,决定下一步做出的动作a。
    • 确定性策略: π \pi π是一个函数映射, S → A S→A SA
    • 随机性策略: π \pi π是一个概率分布, ∑ a ∈ A π ( a ∣ s ) = 1 \sum_{a\in A}\pi(a|s)=1 aAπ(as)=1
  • 状态转移概率 p ( s ′ ∣ a , s ) p(s'|a,s) p(sa,s):智能体根据当前状态 做出一个动作 之后,环境在下一个时刻转变为状态′ 的概率。
  • 即时奖励 r ( s ′ , s , a ) r(s',s,a) r(s,s,a):是一个标量函数,即智能体根据当前状态 做出动作 之后,环境会反馈给智能体一个奖励,这个奖励也经常和下一个时刻的状态′ 有关.

什么是马尔可夫决策过程

  • 如果状态和动作都是离散的时候,可以把智能体与环境的交互看成一个离散的序列。
    s 0 , a 0 , s 1 , r 1 , a 1 , s 2 . . . . . . s t , r t , a t . . . s_0,a_0,s_1,r_1,a_1,s_2......s_t,r_t,a_t... s0,a0,s1,r1,a1,s2......st,rt,at...
    如下图所示:
    强化学习——基本概念_第1张图片

  • 此时,将智能体与环境的交互看成一个马尔可夫决策过程
    p ( s t + 1 ∣ s t , a t , s t − 1 , . . . . . s 0 , a 0 ) = p ( s t + 1 ∣ s t , a t ) p(s_{t+1}|s_t,a_t,s_{t-1},.....s_0,a_0)=p(s_{t+1}|s_t,a_t) p(st+1st,at,st1,.....s0,a0)=p(st+1st,at)
    其决策过程如下图所示:
    强化学习——基本概念_第2张图片

  • 马尔可夫决策过程的轨迹:
    强化学习——基本概念_第3张图片

以上图片来源:《神经网络与深度学习》

强化学习中Model-based与Model-free的区别

的马尔可夫决策过程定义强化学习任务

  • Model-based:如果四元组的元素都已知,而且状态集合、动作集合在有限步数内是有限集,则机器可以对真实的环境建模,构建一个虚拟世界来模拟真实环境的状态和交互反应。
    换句话说,如果及其中能够到状态转移函数和奖励函数,就可以直接在虚拟的环境中学习和规划策略即可。
  • Model-free:但实际中,很难知道马尔可夫决策过程的所有元素,对于状态转移和奖励函数都不好估计,甚至环境都是未知的,所以就要采用model free的方法,智能体只能在真实环境中通过一定策略来执行动作,等待奖励和状态转移,然后根据反馈的信息来更新行为策略,从而反复迭代学习到最优策略。

区别

  • model free:

你可能感兴趣的:(强化学习,强化学习)