No.13
智源社区
强化学习组
强
化
学
习
研究
观点
资源
活动
关于周刊
强化学习作为人工智能领域研究热点之一,它在金融领域中的应用研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第13 期《强化学习周刊》。本期周刊整理了近期强化学习在金融领域相关的最新论文推荐、综述、新工具、学术会议等,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:李明,刘青,陈斌
论文推荐
强化学习近年来取得了令人瞩目的成就,将其应用于金融领域也取得较大的进步。强化学习中,通过状态变化进行金融交易中的策略选择,以使长期累积的奖励和最大。近年来,该方向已经取得了一系列瞩目的进展,比如股票预测及资产交易等。故将强化学习应用于金融领域具有较大的优势。
强化学习在金融领域中的应用越来越多,其在多目标优化、组合优化等方面都有了深入的研究。本次推荐了7篇强化学习在金融领域应用的相关论文,主要涉及股票预测、股票交易自动化、多资产交易组合管理等。
标题:A Novel Deep Reinforcement Learning Based Stock Direction Prediction using Knowledge Graph and Community Aware Sentiments(基于知识图和社区感知的深度强化学习股票方向预测)了解详情
简介:股市预测一直是投资者、研究人员和分析师的重要课题。由于受诸多因素的影响,股市预测是一项艰巨的任务。本文提出了一种基于深度强化学习方法的新方法,用于使用社区情绪和知识图谱来预测股票的发展方向。为此,其首先构造了用户的社会知识图,以此来评价连接之间的关系。然后,将相关股票的时间序列分析和情绪分析与深度强化方法相结合。采用土耳其版本的变压器双向编码器表示法(BerTurk)分析用户情绪,深度Q学习方法用于深度强化学习构建深Q网络。实验中采用Deep-Q网络、社区分析Deep-Q网络、社区分析双Deep-Q网络、社区分析双Deep-Q网络、社区分析双Deep-Q网络和社区分析双Deep-Q网络,比较了各模型的预测性能。以伊斯坦布尔证券交易所的Garanti银行(GARAN)、Akbank银行(AKBNK)、TürkiyeİşBankası(ISCTR)股票为数据集,验证了该模型的有效性。实验结果表明,该模型对股市预测任务具有显著的预测效果。
论文地址:https://arxiv.org/ftp/arxiv/papers/2107/2107.00931.pdf
标题:Application of deep reinforcement learning for Indian stock trading automation(深度强化学习在印度股票交易自动化中的应用)了解详情
简介:在股票交易中,特征提取和交易策略设计是使用机器学习技术实现长期收益的两个重要任务。已经提出了几种方法来通过获取交易信号来设计交易策略以最大化回报。本文将深度强化学习理论应用于印度市场的股票交易策略和投资决策。以自动化交易执行并产生利润。本文还展示了DRL在解决股票市场策略问题方面的表现,并对10个印度sock数据集的三种DRL网络:DQN、DDQL和Dueling-DDQN进行了比较。实验表明,这三种深度学习算法都能很好地解决股票市场策略的决策问题。由于股票市场具有高度的随机性和很快的变化,这些算法对这些变化的响应速度很快,性能优于传统的方法。从本文可知,平均而言,双DDQN网络的性能优于DDQN和DQN,双DQN网络的性能优于DQN。
论文地址:https://arxiv.org/pdf/2106.16088.pdf
标题:Deep reinforcement learning on a multi-asset environment for trading(多资产交易环境中的深度强化学习)
了解详情
简介:几十年来,金融交易一直被广泛分析,市场参与者和学者一直在寻找提高交易绩效的先进方法。深度强化学习 (DRL) 是一种最近在多个领域取得重大成功的重振方法,但仍需在金融市场中展现其优势。本文使用深度 Q 网络 (DQN) 来设计期货合约的多空交易策略。状态空间由波动率标准化的每日回报组成,买入或卖出是强化学习行为,总回报定义为本文行为的累积利润。文中的交易策略在真实和模拟价格系列上都经过训练和测试,本文采用DRL框架和稳定基线DQN模型构建了标普500连续期货合约的多空交易策略。其选择了一个只做多的策略作为基准,并在使用模拟和真实的期货数据时,将其性能与本文的模型的性能进行了比较。针对训练数据不足的问题,采用多路径模拟过程,在一定程度上解决了过拟合问题,提高了样本外性能。其还通过增加状态空间的维数和在滚动的基础上重新训练模型来构造高级策略。
论文地址:https://arxiv.org/pdf/2106.08437.pdf
标题:Portfolio management system in equity market neutral using reinforcement learning使用强化学习的中性股票市场投资组合管理系统了解详情
简介:投资组合管理涉及头寸调整和资源分配。传统的和通用的投资组合策略要求将未来的股票价格作为模型输入进行预测,这并不是一件容易的事,因为在实际应用中很难获得这些值。为了克服上述限制并为投资组合管理提供更好的解决方案,该文章使用两个神经网络(CNN和RNN)的强化学习开发了投资组合管理系统(PMS)。还提出了一种包含夏普比率的新颖奖励函数,以评估已开发系统的性能。实验结果表明,与夏普比率报酬函数相比,具有夏普比率报酬函数的PMS表现突出,回报率提高了39.0%,跌幅下降了13.7%。此外,PMS_CNN模型更适合构建强化学习档案袋,但缩水风险比PMS_RNN高1.98倍。在所进行的数据集中,PMS在TW50和传统股票中的表现优于基准策略,但不如金融数据集中的基准策略。PMS是盈利,有效的,并且几乎在所有数据集中都具有较低的投资风险。
论文地址:https://link.springer.com/article/10.1007/s10489-021-02262-0
标题:DEEP REINFORCEMENT LEARNING FOR OPTIMAL STOPPING WITH APPLICATION IN FINANCIAL ENGINEERING(深度强化学习在金融工程中的最佳止损应用)了解详情
简介:最佳停止是决定在随机系统中采取特定措施以最大化预期回报的正确时间的问题。它在金融,医疗保健和统计等领域有许多应用。在本文中,采用深度强化学习(RL)来学习两种金融工程应用中的最佳止损策略:期权定价和最佳期权行使。首次展示了由三种最先进的深度RL算法确定的最佳停止策略质量的全面经验评估:双深度Q学习(DDQN),分类分布RL(C51)和隐式分位数网络(IQN) )。在期权定价的情况下,发现在理论上的Black-Schole环境中,IQN成功地确定了接近最优的价格。另一方面,当面对涉及标准普尔500指数资产的认沽期权行使问题中的实际库存数据变动时,C51的表现要稍好。更重要的是,C51算法能够确定最佳的停止策略,该策略比四个自然基准策略中的最佳策略获得了8%的样本外回报。
论文地址:https://arxiv.org/pdf/2105.08877.pdf
标题:Learning to trade in financial time series using high-frequency through wavelet transformation and deep reinforcement learning(通过小波变换和深度强化学习,使用高频学习金融时间序列的交易)了解详情
简介:基于深度学习的金融方法受到了投资者和研究者的关注。这项研究展示了如何优化投资组合,资产配置和交易系统的基础上深入强化学习使用三个框架。在所提出的深度学习结构中,首先对输入数据进行小波变换(WT)以去除股价时间序列数据中的噪声。然后,只使用母小波(高频)数据作为输入。其次,利用高频数据进行强化学习。强化学习网络采用长短时记忆(LSTM)。行动由LSTM网络或随机决定。第三,利用给定的交易行为和适当的报酬,学习最优的投资交易系统。通过所提出的深度强化学习结构得到的最优投资交易系统结构在不需要构建预测模型的情况下提高了交易性能。
论文地址:https://link.springer.com/content/pdf/10.1007/s10489-021-02218-4.pdf
标题:Diversity-driven knowledge distillation for financial trading using Deep Reinforcement Learning(通过小波变换和深度强化学习,使用高频学习金融时间序列的交易)了解详情
简介:深度强化学习(RL)越来越多地用于开发金融交易代理来执行各种任务。但是,优化深层RL智能体非常困难且不稳定,尤其是在嘈杂的金融环境中,这严重阻碍了交易代理的绩效。文章提出了一种新颖的方法,该方法以众所周知的神经网络方法为基础,提高了DRL商业经纪人的培训可靠性。在提出的方法中,在RL环境的不同子集中对教师智能体进行培训,从而使他们学习的政策多样化。然后,使用经过培训的教师的提炼对学生智能体进行培训,以指导培训过程,从而更好地探索解决方案空间,同时“模仿”教师模型提供的现有策略/交易策略。所提方法的有效性的提高来自使用训练有素的执行不同货币交易的教师的多元化组合。这使得能够转移关于对学生而言最有利可图的政策的共识,进一步改善了在嘈杂的财务环境中培训的稳定性。
论文地址:https://www.sciencedirect.com/science/article/pii/S0893608021000769
综述
量化算法交易中的深度强化学习:综述了解详情
简介:算法股票交易已经成为当今金融市场的一种主要交易方式,大多数交易现在已经完全自动化。深度强化学习(DRL)代理被证明是一种力量,在许多复杂的游戏,如国际象棋和围棋不可忽视。本文将股票市场的历史价格序列和走势看作是一个复杂的、不完全的信息环境,在这个信息环境中,本文试图实现收益最大化和风险最小化。本文回顾了金融人工智能子领域的深度强化学习,更准确地说,自动低频定量股票交易的进展。许多被审查的研究只有在不现实的环境中进行的实验的概念证明理想,没有实时的交易应用程序。对于大多数工程而言,尽管与既定的基线战略相比,所有工程都显示出在统计上显著的绩效改进,但没有获得像样的盈利水平。此外,在实时在线交易平台上缺乏实验测试,在基于不同类型DRL或人类交易员的代理之间缺乏有意义的比较。本文的结论是,DRL在股票交易中显示出巨大的适用性,在强有力的假设条件下,其潜力可与专业交易者媲美,但研究仍处于非常早期的发展阶段。
新工具
标题: FinRL: A Deep Reinforcement Learning Library for Quantitative Finance(一个用于量化金融的深度强化学习库)
了解详情
简介: FinRL是一个开源库,为从业者提供了一个统一的策略开发框架。在强化学习(或深度强化学习)中,智能体通过与环境不断互动,以试错的方式进行学习,在不确定的情况下做出连续的决定,并在探索和利用之间实现平衡。开源社区AI4Finance(有效实现交易自动化)提供了有关定量金融中的深度强化学习(DRL)的教育资源。现在工具已经迭代两个版本:FinRL 1.0:为初学者提供的入门级教程,具有示范和教育目的。FinRL 2.0:面向全栈开发者和专业人士的中级框架。FinRL为各种市场、SOTA DRL算法、基准金融任务(投资组合分配、加密货币交易、高频交易)、实时交易等提供统一的机器学习框架。
代码地址:
https://github.com/AI4Finance-LLC/FinRL
学术讲座
ICML RL4RealLife|聚焦强化学习落地难题,7.23日学术与商业巨头齐聚-“Reinforcement Learning for Real Life(现实生活中的强化学习)”主题研讨会了解详情
简介:7月23日,针对强化学习落地难题,ICML 2021将举办“Reinforcement Learning for Real Life(现实生活中的强化学习)”主题研讨会。此次研讨会主题设置为“RL for Real Life”,彰显了强化学习领域长期存在的困境:强化学习在现实世界中迟迟无法完成落地。为此Workshop邀请了DeepMind,Google、Polixir(南栖仙策)、Facebook,Microsoft,MathWorks、Nvidia、Adobe、Didi(美国)等众多商业公司,共同探讨强化学习落地难题,寻找突破路径。研讨会围绕Real Life(现实世界)主题设置讨论小组,议题包括“Foundation”(基础)、“Research-to-RealLife Gap”(研究与现实世界的差距)、“Recommender Systems”(推荐系统)、“Robotics”(机器人)、“Explainability & Interpretability”(可解释性)和“Operations Research”(运筹学)。其中“Research-to-RealLife Gap”专门关注强化学习当前的研究与现实应用之间的鸿沟、聚焦强化学习落地的关键问题,受邀参加主题讨论的有来自MathWorks(出品Matlab)的Craig Buhr、微软的Jeff Mendenhall、滴滴出行(美国)的Xiaocheng Tang、创业企业Borealis AI的Kathryn Hume,以及Polixir(南栖仙策)创始人、南京大学教授俞扬(Yang Yu)。俞扬教授也是本次Workshop中唯一来自大陆地区的讨论成员。
如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,加入强化学习兴趣群。