强化学习(一)——专业术语及OpenAI Gym介绍

强化学习(一)——专业术语及OpenAI Gym介绍

  • 1. 专业术语
    • 1.1 Agent(智能体)
    • 1.2 Environment(环境)
    • 1.3 State *s*(状态)
    • 1.4 Action *a*(动作)
    • 1.5 Reward *r*(奖励)
    • 1.6 Policy *π*(策略函数)
    • 1.7 State transition *p*(*s*’ |*s*, *a*)(状态转移函数)
    • 1.8 Return *U*(回报)
    • 1.8 Action-value function(动作价值函数)
    • 1.9 Optimal action-value function(最优动作价值函数)
    • 1.10 State-value function(状态价值函数)
  • 2. OpenAI Gym
    • 2.1 安装
    • 2.2 简单使用

1. 专业术语

强化学习(一)——专业术语及OpenAI Gym介绍_第1张图片

1.1 Agent(智能体)

强化学习的控制对象。

1.2 Environment(环境)

与智能体交互的对象。

1.3 State s(状态)

智能体所处状态。

1.4 Action a(动作)

智能体所能执行的操作。

1.5 Reward r(奖励)

智能体执行动作后获得奖励。

1.6 Policy π(策略函数)

动作的抽样函数。

1.7 State transition p(s’ |s, a)(状态转移函数)

Agent执行动作后获得的新状态。

1.8 Return U(回报)

未来的累计折扣奖励: U t = R t + γ R t + 1 + γ 2 R t + 2 + ⋅ ⋅ ⋅ U_t = R_t+\gamma R_{t+1}+ \gamma ^2R_{t+2} + ··· Ut=Rt+γRt+1+γ2Rt+2+

1.8 Action-value function(动作价值函数)

Q π ( s t , a t ) = E [ U t ∣ a t , s t ] Q_π(s_t,a_t)=E[U_t|a_t,s_t] Qπ(st,at)=E[Utat,st]

1.9 Optimal action-value function(最优动作价值函数)

Q π ∗ ( s t , a t ) = max ⁡ π Q π ( s t , a t ) Q_π^*(s_t,a_t)=\displaystyle\max_{π}Q_π(s_t,a_t) Qπ(st,at)=πmaxQπ(st,at)

1.10 State-value function(状态价值函数)

V π ( s t ) = E A [ Q π ( s t , A ) ] V_π(s_t)=E_A[Q_π(s_t,A)] Vπ(st)=EA[Qπ(st,A)]

2. OpenAI Gym

2.1 安装

conda create -n gym python=3.6.0
pip install gym matplotlib -i  https://pypi.tuna.tsinghua.edu.cn/simple

2.2 简单使用

import gym
import time

env = gym.make("CartPole-v0")

state = env.reset()

for epoch in range(100):
    env.render()
    time.sleep(1)
    action = env.action_space.sample()
    state,reward,done,info = env.step(action)
    if done:
        print("Finish!")
        break
env.close()

本文为参考B站学习视频书写的笔记!

by CyrusMay 2022 03 28

青春是挽不回的水
转眼消失在指尖
——————五月天(疯狂世界)——————

你可能感兴趣的:(强化学习,强化学习,OpenAI,Gym,python,算法)