第三节:强化学习中的套路

本专栏是强化学习运用在买卖股票之上的入门学习内容。
主要解决强化学习代码落地和代码实践,不需要学习相关数学原理,直观简单的带领读者入门强化学习炒股。
查看本专栏完整内容,请访问:https://blog.csdn.net/windanchaos/category_12391143.html
本文发布地址:https://blog.csdn.net/windanchaos/article/details/132190515

本文作为理论基础、套路和方法论,了解即可。

使用强化学习时的一般套路

  • 了解强化学习和所使用的开发框架
  • 如果需要,进行定量实验和超参数调整
  • 使用单独的测试环境评估性能

首先要对强化学习有一个基本了解。这个在各类视频网站、书籍当中都有很多的资料。不是本专栏的重点。

其次,要选择使用一个强化学习的开发框架,并需要学习框架本身的基本使用。

强化学习在很多方面与其他机器学习方法不同。用于训练代理的数据是通过代理本身与环境的交互来收集的(例如,与拥有固定数据集的监督学习相比)。这种依赖性可能会导致恶性循环:如果代理收集质量差的数据(例如,没有奖励的轨迹),那么它就不会改进并继续按预期进行学习。

除其他因素外,这一因素解释了 RL 的结果可能因一次运行而异(即,当仅伪随机生成器的种子发生变化时)。因此,您应该始终进行多次运行以获得可信任的定量结果。

强化学习的良好结果通常取决于找到合适的超参数。最近的算法(PPO、SAC、TD3)通常需要很少的超参数调整,但是,不要指望默认算法可以在任何环境下

你可能感兴趣的:(强化学习和股票,股票,量化交易,深度学习,程序员创富,机器学习)