强化学习走起

在这里呢,我以一个人的人生来解释,当然涉及到佛教轮回的知识。

首先,每一个人都是智能体,从出生到死亡,我们不断做的就是从周围的环境中收集信息,知道自己的状态state,然后针对某种目的,采取行动action,采取行动后,我们就改变了自己的状态,从而再次根据状态采取行动,如此循环直到死亡,这就是一个episode了。
但是,我们通常的理解人死如灯灭,但是在强化学习中,是有轮回的,但是我们不会喝孟婆汤,于是我们再次出生是会有上一世的记忆。我们这一世,可以结合上一世的记忆,不断修正自己的思想(策略),知道在某种状态采取哪些action才可以达到自己的目标。

强化学习中的aciotn和state上文已经提到了,下面我们了解一下其余的概念。
(1)reward:奖赏说明的是在某个状态下采取某个行为的好坏。比如你初三了,接下来的action包括去市一中或者去县一中,所以采去市一中的reward肯定会比较大。
(2)价值函数v(s):价值函数(Value Function)代表了代理在某一个状态有多好。其在数值上等于代理从初始状态开始之后所受到的总期望奖励。
(3)策略函数:策略定义了代理在环境中的行为,代理会根据策略来决定到底要选择哪一种策略。比如在你的一生中的上学时光,上哪一个小学,上哪一个初中,上哪一高中,上哪一个大学,都是由策略函数决定的。
这里只是简单介绍了一下强化学习中的基本的一些知识,这些知识以后还会遇到,这里只是有一个浅显的理解,有一个简单的印象。
另外,欢迎大家指出其中的不足之处,谢谢!

你可能感兴趣的:(强化学习)