李宏毅机器学习课程-概述增强式学习PolicyGradient0214

 B站 李宏毅2021春机器学习课程 P74

目录

1、如何定义A-不好的方法

2、选择动作之后所有奖励之和

3、Policy Gradient


1、如何定义A-不好的方法

李宏毅机器学习课程-概述增强式学习PolicyGradient0214_第1张图片

         这种方法只看短期结果,没有长远目光,真实情况每一次动作都会影响接下来的环境。

2、选择动作之后所有奖励之和

李宏毅机器学习课程-概述增强式学习PolicyGradient0214_第2张图片

         太长的结果与最初的相关性会较低。

        增加折扣因子:

李宏毅机器学习课程-概述增强式学习PolicyGradient0214_第3张图片

 

        只要是正的就会鼓励采取,可能是不好的举措,所以需要标准化,减掉一个b:

李宏毅机器学习课程-概述增强式学习PolicyGradient0214_第4张图片

 

3、Policy Gradient

        当前收集的数据只适合训练当前的ACTOR,不适合训练下一个:

李宏毅机器学习课程-概述增强式学习PolicyGradient0214_第5张图片

        让后一组模型根据前一组收集的数据来学习:

李宏毅机器学习课程-概述增强式学习PolicyGradient0214_第6张图片

 不同的ACTOR选择不一样:

         在情人节看别人的骚操作进而感受到自己作为孤狼的凄凉!

 

你可能感兴趣的:(机器学习,人工智能)