强化学习在量化投资中应用(理论简介)

  • 什么是强化学习?

强化学习任务通常用马尔科夫决策过程(MarkovDecision Process,MDP)来描述:机器处于环境E中,状态空间为S,其中每个状态s∈S是机器给你知道的环境的描述;机器能采取的动作构成了动作空间A,若某个动作a∈A作用在当前状态s上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态,在转移到另一个状态的同时,环境会根据潜在的“奖赏”(Reward)函数R反馈给机器一个奖赏。综合起来,强化学习任务对应了四元组

E= ,

其中P:S×A×S ↦ℝ指定了状态转移概率,R: S×A×S ↦ℝ指定了奖赏。在有的应用中,奖赏可能仅与状态转移有关,即R:S×S ↦ℝ。

强化学习过程中,机器要做的就是通过在环境中不断尝试而学得一个“策略”π,根据这个策略,在状态s下就能得知要执行的动作a =π(s)。对于确定性策略,可表示为π:S↦A,表示根据状态可得确定的执行动作;对于随机性策略,可表示为π:S×A ↦ℝ,表示根据状态和可执行的动作,可得执行该动作的概率,这里

策略的优劣取决于长期执行这一策略后得到的累积奖赏,即不仅考虑执行一个动作执行后当前的奖赏,而且考虑随着状态的变化,后续奖赏的综合。强化学习的目的就是要找到能使长期累积奖赏最大化的策略。长期累积奖赏有多种计算方式,最为常用的是“折扣累积奖赏”

其中rt表示第 t 步获得的奖赏,?表示对所有随机变量求期望。

实际上强化学习的策略相当于监督学习中的“分类器”,但是强化学习中没有标记样本,即每一步并不会知晓应该做什么动作,只有等最终结果揭晓,才能通过机器“反思”之前的动作是否正确来进行学习,因此,强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

  • 为什么是强化学习?

最优化动态调整流动资产配置(对单一资产的持仓与否或是对多资产的配置比例)实际上可以看作MDP(Markovian Decision Problem)问题,因此强化学习可以考虑应用于此。

对于流动资产配置可通过如下模型刻画:

即训练出来的策略π*能够在给定状态下,选择出能使长期累积奖赏最高的动作a。在实际应用中,我们希望利用类似方法通过强化学习获得这样一种投资策略,在当前的历史市场信息和已有的资产配置状态下,能够选择出能使长期累积收益最大的资产配置行为。

值得说明的是,多数情况下,市场从$t到$t+1的变化是随机的,并不依赖的选择,从而即使是相同的状态和行为可能获得的收益也不相同。但是,该模型主要目的是获得期望的折扣收益,不管收益如何随机变动,只要折扣收益的期望不变,最优化的策略也并不发生改变。

三、 如何利用强化学习?

参考文献 1. 周国平.《机器学习》 2. Moody, John E., et al. "Reinforcement Learning for Trading Systems and Portfolios." 3. Jian Li, Laiwan Chan., “Adjustment Reinforcement Learning for Risk-averse Asset Allocation” 4. Neuneier.,” Optimal Asset Allocation using Adaptive Dynamic Programming”

转载于:https://www.cnblogs.com/alan-blog-TsingHua/p/9951793.html

你可能感兴趣的:(强化学习在量化投资中应用(理论简介))