强化学习是什么?
简单来说就是通过感知周围环境而行动,以取得最大化收益的一个过程。
其中Q-learning算法的感知状态为离散,无规律。
华丽的分割线---------------------------------------------------------------------------
一. 组成
首先介绍一下强化学习最重要的几个部分:
智能体(agent):可以是一个简单的算法,通常输入为state,输出为policy(规则)
状态集(states): 为智能体的输入
动作集(actions):智能体的动作,比如左右移动
奖励(rewards): 环境根据智能体的动作 反馈回来的一个奖惩信号,可以为正奖励也可以为负奖励
环境(environment): 接收智能体的动作action,回馈reward和state
华丽的分割线---------------------------------------------------------------------------
二.结构
结构简图如下:
这张图表示:智能体agent对环境environment执行一个动作action后,环境接收动作并把当前状态state和奖励reward回馈给智能体;然后智能体agent根据环境返回的状态和奖赏执行下一个动作.
华丽的分割线------------------------------------------------------------------------------------
三. 相关概念
强化学习依据马尔代夫决策过程,智能体的探索(exploration)是向环境发散的,其探索过程不是直接选择,而是随机选择;开发过程(exploitation)则是选择最优解。 马尔达夫决策过程:你下一步的行动与决策取决于你当前状态的行动与决策。
那么怎么理解强化学习呢, 举个例子:
首先你是一个生活在一维平面内的婴儿,也就是智能体agent,你饿了,想吃东西。但你妈站在距离你6米远的地方,你必须找到你妈才能吃到东西(即寻宝过程)。
你只能左右上下移动(这里简化为左右移动),每次只能移动一米,你的移动就是动作action,而你妈刚好站在你右边6米。你所处的位置就是你的输入states。
这时候开始找你妈,往左边移动了一米即你发生了action, 但是与你妈更远了,你妈大喊:“乖宝宝,怎么还不过来呀,你走错啦,真笨”;当你往右移动一米,你妈说:“真聪明”,这时候“真笨”和“真聪明”这两个词恰好你听懂了,放进了心里,也就是reward负奖励和正奖励。
最终你通过不断左右左右移动,来到了你妈这里并吃上了热乎的食物,整个过程就是训练你的过程,也就是训练agent的过程。
华丽的分割线-----------------------------------------------------------------------------------------
四.推导
Q-learning是强化学习中的一种算法,Q即为Q(steat,action)就是在某一时刻的 s 状态下(s∈S),采取 动作action (action∈A)动作能够获得收益的期望,也就是行为值value。该算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。Q是一个列表,我一般当矩阵看,当然实际中由于探索过程的发散,这个表将很大很大,因此需要将表做成神经网络来储存,也就是深度强化学习(DQN),当然这是后话。
直接看一下伪代码:
图是拿来的,所以不是很清晰。
倒数第三行可以看出是贝尔曼函数,即回报累积的过程。也就是更新公式,学习公式。
Q(St,At)表示当前状态的Q表, α表示学习率,Rt+1表示当前奖励,这玩意表示奖励递减率乘以最大Q,加上Rt+1后即为TD目标。
这玩意表示偏差,称为为TD偏差。
这个公式总体解释就是 新Q(s,a)=老Q+学习率*偏差
华丽的分割线----------------------------------------------------------------------------------------------
五. 举例说明(附代码)
-u—T: 看一下这个符号,一共6个字符。有没有想到什么,对如之前所说的,你额你妈距离6米,u是你,T是你妈,即宝藏的位置,你只能左右左右移动,慢慢找到她。
# 作者:是最强的冰哥
#强化学习 Q—learning算法
# -u---T u是你的位置,T是你的最终目标
import pandas as pd
import random
import time
#首先设置参数
want = 0.9 #设置你的渴望即贪婪率
efficiency = 0.1 #学习效率
reward_decrease = 0.8 #奖励递减值
# 定义你目前所处的状态(位置)和环境
states = range(6) #设置状态集0-6 即你距离你妈6个步长
actions = ['left','right'] #设置动作集,一维只有两个方向,即向左和向右
rewards = [0, 0, 0, 0, 0, 1] #设置奖励集, 即第6位时你爬到你妈那里时,才给你奖励
Q_table = pd.DataFrame(data=[[0 for _ in actions] for _ in states],index = states,columns = actions)# 创建一个表格
# DataFrame函数创建一个表格,index为行,这里用状态集赋值;columns为列,这里用动作集赋值;Q为某一时刻下状态state中采取动作action能获得收益的期望,即行为值
# 定义环境更新函数,实时更新且打印状态
def updata_environment(state): #
global states #状态设为全局变量,可以整个环境内引用
environment = list('-----T') #环境设为一个6字符长的字符串
if state != states[-1]: #如果不在最后一个位置
environment[state] = 'u' #确定你所处的位置
print('\r{}'.format(''.join(environment)), end='')#打印
time.sleep(0.1)#调用线程推迟执行该函数0.1S
#你动作之后,定义下一状态函数
def get_next_state(state, action):
global states
# left,right,none = -1,+1,0
if action == 'right' and state != states[-1]: #如果你不在最后一个位置,则向你妈移动一位
next_state = state +1
elif action == 'left' and state != states[0]: #如果你不在最开始的一个位置,则远离你妈移动一位(elif表示否则如果,如果if步骤执行成功,那么elif步骤就不会执行)
next_state = state -1 #如果if和elif都判断失败,则执行else语句
else:
next_state = state #否则+0,就是你没动的意思
return next_state #把下一状态值返回带出
#定义当前状态下合法的动作集合函数
def get_vaild_actions(state):
global actions
vaild_actions = set(actions)
if state == states[-1]: # 如果你在最后一个位置
vaild_actions -= set(['right']) #则不能再向右了
if state == states[0]: #如果你在最初的位置
vaild_actions -= set(['left']) #则不能再向左了
return list(vaild_actions) #把当前状态值返回带出为一个列表格式
for i in range(13): #i在0-13内依次取值,这里的i是episode,即从action开始到结束的一个过程
current_state = 0 #设置Q估计表内的状态位置为0
# current_state = random.choice(states)
updata_environment(current_state) #与绑定环境相关
total_steps = 0
while current_state != states[-1]:# 创建一个循环,直到你到达最后一个位置,这里是重复状态动作的执行
if (random.uniform(0,1) > want) or ((Q_table.loc[current_state] == 0).all()): #random.uniform(0,1)表示在0-1内随机生成一个随机数,loc通过行/列标签索引到状态矩阵,(iloc通过行/列号索引矩阵这里没用到),all()表示索引到的状态矩阵与0的比对结果再作一次与运算
current_action = random.choice(get_vaild_actions(current_state)) #random.choice可以从定义()里随机选取内容,并将选取结果放入赋值中返回
# 该if语句意思为:如果你的渴望(贪婪)小于这个随机数或者索引到的估计状态为0,则你目前探索到的状态是正确的行动
else:
current_action = Q_table.loc[current_state].idxmax()#否则利用你的渴望逼近正确的行动,idmax()表示索引最大值
next_state = get_next_state(current_state,current_action) #调用你下一动作后的状态函数,与估计到的正确状态和动作绑定
next_state_Q_values = Q_table.loc[next_state,get_vaild_actions(next_state)] # 得到现实Q
Q_table.loc[current_state, current_action] += efficiency*(rewards[next_state] + reward_decrease*next_state_Q_values.max() - Q_table.loc[current_state,current_action]) #根据贝尔曼方程更新Q,Q为某一时刻下状态state中采取动作action能获得收益的期望,Q_table.loc[current_state,current_action]为估计的Q
current_state = next_state
updata_environment(current_state) #更新环境
total_steps += 1 #总步骤加1
print('\rEpisode {}: total_steps = {}'.format(i, total_steps), end='')
time.sleep(2)
print('\r ',end='')
print('\nQ_table:')
print(Q_table)
最后重点提一下Q的更新公式:
λ奖励衰变值对Q函数的影响,λ越接近于1代表它越有远见会着重考虑后续状态的的价值,当λ接近0的时候就会变得近视只考虑当前的利益的影响。所以越接近1,算法就会越来越会考虑后续回报reward的影响。