学习笔记(05):决胜AI-强化学习实战系列视频课程-QLearning基本原理

立即学习:https://edu.csdn.net/course/play/4916/88701?utm_source=blogtoedu

Q-Learning

学习笔记(05):决胜AI-强化学习实战系列视频课程-QLearning基本原理_第1张图片

 

 

奖励设置(目标是能够达到5):

学习笔记(05):决胜AI-强化学习实战系列视频课程-QLearning基本原理_第2张图片

 

(暂时设置: 除了能够达到5的动作,都设置为0)

学习笔记(05):决胜AI-强化学习实战系列视频课程-QLearning基本原理_第3张图片

 

通常每一行代表一个state,

每一列代表一个action

-1,代表走不到那个地方

可以走到的地方,用奖励来填充

 

 

做强化学习,第一步把reward的矩阵做好

 

 

 

你可能感兴趣的:(研发管理,机器学习,深度学习,强化学习,tensorflow,人工智能)