强化学习基础概念

深度强化学习 Deep Reinforcement Learning基本概念

  • 视频课程出自王树森
    https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU

1基本概念

  • Random Variable 随机变量

  • Probability Density Function 概率密度函数

  • Expection 数学期望

  • Random sampling 随机抽样

  • state 状态(当前的游戏状态)

  • action 行为

  • agent 智能体,操作主体

  • policy pi 策略函数(概率密度函数, )

简言之:超级玛丽游戏中,观察当前的场景(state),操作马里奥(agent)做出相应的动作(action),这一套可以理解为policy。

  • reward R 奖励
    强化学习的目标是获得的奖励尽可能多。
  • state transition状态转移


观察到当前的状态s以及动作a之后, 下一个状态p‘的概率

强化学习中随机性的来源

1 策略函数具有随机性,策略函数本身是一个概率密度函数
2 状态转移具有随机性

游戏中的轨迹:trajectory
s1,a1,r1,s2,a2,r2,s3,a3,r3,…
状态,动作,奖励。。。

  • Return 未来时刻的累积奖励(cu lulative future reward)

Rt与R(t+1)的重要性

理解(现在给你100,一年后给你100你选哪个?)
现在给你80,一年够给你160你选哪个?

综合,Rt应该是更重要一些
那么对将来预期的回报就会打一个折扣

  • Discounted return 折扣率,超参数,需要自己调

强化学习基础概念_第1张图片

  • 总而言之,目标就是让Ut越大越好

  • Ut是个随机变量,取决于将来的环境与动作,t时刻并不知道Ut是什么,因此为了量化Ut,就对Ut求期望,将未知数用积分消除,得到的就是一个实数。

  • Qpi 动作价值函数

  • 强化学习基础概念_第2张图片

动作价值函数Qpi的直观意义

在policy动作函数下,在St环境下做动作At是好还是坏
Qpi就是一个打分函数,不同的pi就有不同的Qpi
我们有无数种policy函数,但是我们应该选择一个最好的策略价值函数

  • 最优动作价值函数

  • Q*可以告诉当前动作的评价
    强化学习基础概念_第3张图片

  • 状态价值函数 可以对当前的形势进行观察

  • 只与s与pi有关

强化学习基础概念_第4张图片强化学习基础概念_第5张图片

总结

Qpi给动作打分
Vpi给当前局势打分
强化学习基础概念_第6张图片

强化学习基础概念_第7张图片

你可能感兴趣的:(人工智能,强化学习)