强化学习

强化学习_第1张图片

s - state, a - action, r - reward
长期持有(或持有多头, holding long)是一种状态, 告诉我们股票是否是长期持有的, 也可能是持有空头(holding short)
每日回报既可以作为状态作为参考, 也可以作为奖励

马尔科夫决策问题包含:

  • 一组潜在状态S
  • 一组潜在行动A
  • 转移函数T[s, a, s'] # s'概率分布之和必须是1, 代表下一个状态, 其概率分布能带来有用的信息.
  • 奖励函数R[s, a]
    强化学习属于马尔科夫决策问题, 其任务是找出使奖励最大化的策略π(s), 最优策略称为π*(s), 其中两个算法是策略迭代和值迭代

当转移函数和奖励函数未知时:

强化学习_第2张图片

称为一个体验元组(experience tuple)
有两种方法得到策略π:

  • 模型相关的强化学习
    通过查看转移统计数据构建模型T[s, a, s'], 以及对奖励求均值构建模型R[s, a], 获得这些模型后通过策略迭代或值迭代解决问题
  • 模型无关的强化学习
    Q-Learning

折扣回报

强化学习_第3张图片

考虑到1美元的未来价值(货币贬值), 无穷步数的回报是逐渐减少的, 要乘系数λ, 系数λ和利率类似, 表示回报是折扣的.

强化学习_第4张图片

无限步数后可以获取, 有限步数10步也可以获取, 设置折扣回报仍可以获取

你可能感兴趣的:(强化学习)