【RL】ε-贪心算法

文章目录

    • 前言
    • ε-贪心算法
    • 总结

前言

初学者对于贪心算法总是会模棱两可,不懂ε具体代表含义,以至于写代码的时候弄淆概念,特此记录下正确算法概念

ε-贪心算法

ε-贪心的意思是说,我们有 1 − ε 的概率会按照 Q 函数来决定动作,通常 ε 就设一个很小的值,1 − ε
可能是 90%,也就是 90% 的概率会按照 Q 函数来决定动作,但是你有 10% 的机率是随机的。通常在实现上 ε 会随着时间递减。在最开始的时候。因为还不知道哪个动作是比较好的,所以你会花比较大的力气在做探索。接下来随着训练的次数越来越多。已经比较确定说哪一个 Q 是比较好的。你就会减少你的探索,你会把 ε 的值变小,主要根据 Q 函数来决定你的动作,比较少随机决定动作,这是 ε-贪心。

总结

利用:1 − ε 90%
探索:ε 10%
通常 ε 就设一个很小的值,且 ε 会随着时间递减,即探索越来越小

你可能感兴趣的:(笔记,贪心算法,算法,强化学习,python)