尝试用决策树做多因子量化投资

尝试用决策树做多因子量化投资

  • 1.为什么要尝试量化投资
  • 2.多因子研究的依据
  • 3.多因子研究的基本流程与关键内容
    • 3.1多因子研究基本流程
    • 3.2关键内容和注意事项
  • 4.多因子研究的工程实践
    • 4.1确定待研究因子
    • 4.2因子数据获取与存储
    • 4.3因子数据预处理
    • 4.4因子研究
      • 4.4.1单因子研究
      • 4.4.2多因子研究
        • 4.4.2.1 利用决策树进行数据挖掘
        • 4.4.2.2 对决策树的解释
        • 4.4.2.3 策略回测
  • 5.总结
  • 说明

1.为什么要尝试量化投资

量化分析是继基本面分析,技术分析后的一种较新的证券分析方法。量化分析的兴起主要得益于计算机算力提升与金融数据收集的便利化。其基本内容是将投资问题(投资择时,投资标的选择,投资组合构建,风险度量与控制,交易执行等)数量化,以数据分析,机器学习等方法为工具,发现投资规律,并利用概率优势实现盈利。在实际应用中,量化分析仍然需要以市场规律,市场逻辑,行为心理学为根,仍然需要借助人类交易经验,并非完全抛弃传统理论,实际上是对传统分析方法的加强,是“艺术”与“科学”的融合。

多因子模型是量化分析众多领域中的一支,主要解决投资组合构建问题。所谓的因子就是在做投资选择时的一个思考维度,例如格雷厄姆,巴菲特等价值投资大师使用的是长期价值因子,而杰西利佛莫尔则使用的是短期动量因子。在量化分析中必须将因子量化、数值化才能进行后续分析,综合多个因子进行投资分析就是多因子量化研究。事实上,很多投资人有意无意中都在使用多因子研究,如投资人常说的“好行业、好公司、好时机”就是结合了基本面因子,价值因子和动量因子的多因子投资。
目前多因子模型已经成为量化研究领域中应用最广,接受程度最高的研究方法[1],本文将介绍该方法的基本研究流程并进行系统开发实践。

2.多因子研究的依据

自从马克威茨在1952年提出现代资产组合理论(MPT),人们对投资收益从何而来的认识不断深入,1964年夏普等提出资本资产定价模型(CAPM),人们认识到投资收益源于无风险收益和对市场风险的暴露,如果说将市场风险作为一种因子来看,CAPM也就成为最早的单因子模型。1992年Fama-French在CAPM的基础上引入了市值因子(SMB)和账面市值比因子(HML)成为三因子模型。后续人们研究的因子数更多,范围也更广,可见,多因子模型的发展是人们对收益影响因素不断深入理解的过程,而且未来也必然会继续深入下去。

3.多因子研究的基本流程与关键内容

3.1多因子研究基本流程

多因子研究的基本流程如下图所示:
尝试用决策树做多因子量化投资_第1张图片

1.确定待研究的因子:多因子研究的起点,也是最核心的部分就是确定待研究的因子,因子可以分为行业因子和风格因子,风格因子又细分为市值因子、估值因子、成长因子和动量因子等。因子不是凭空想出来的,而是以市场规律、市场逻辑、行为心理学和交易经验为基础确定的。

2.采集和计算因子数据:确定待研究的因子后,需要通过各数据源收集数据从而实现因子的度量和计算。数据源可以采用开放的数据接口(API),可以采用券商行情软件保存的数据,也可以通过网络爬虫收集各类数据。完成横截面数据和时间序列数据的收集后就需要将数据保存在数据库中,以便后续研究的快速调用。

3.数据前处理:前处理包括剔除无效数据,数据归一化,剔除偏离较大的极值数据。其中剔除偏离较大的极值数据是为了防止后续回归分析或机器学习时受极值影响过大,使得模型泛化能力变差。使用特征的排序值可以很好的避免极值数据的影响。

4.因子研究:因子研究的目标是找到因子变化与资产未来收益率之间的关系。最基本的因子研究方法是分组法,即每期根据因子值排序后进行分组,持续N期,期末观察各个分组的收益率,如果因子的确能解释未来收益,那么各分组的收益率变化应具有显著的单调性。多因子研究方法包括回归分析和机器学习,目标是研究多因子与未来收益的相关性。

5.回测验证:在数据前处理时就可将实验数据分为训练集和测试集,因子研究在训练集上进行,然后将研究结论应用于测试集上从而检验研究结论的有效性和泛化能力。

3.2关键内容和注意事项

4.多因子研究的工程实践

4.1确定待研究因子

4.2因子数据获取与存储

4.3因子数据预处理

4.4因子研究

4.4.1单因子研究

4.4.2多因子研究

4.4.2.1 利用决策树进行数据挖掘

4.4.2.2 对决策树的解释

4.4.2.3 策略回测

5.总结

量化多因子研究是目前接受程度和应用最广的量化研究方法,其核心内容是因子的选择,而因子选择仍然需要依靠市场规律,市场逻辑和投资行为心理,因此多因子量化研究并非对传统理论的颠覆,而是增强,是科学与艺术的结合。量化多因子研究的步骤包括因子选择,数据收集,数据前处理,单因子研究和多因子研究。数据挖掘是在大数据集合中挖掘潜在的规律,而真正有效的规律需要避免过拟合,需要相当比例样本的支持,更需要与实际交易经验的结合。

说明

作者是计算机专业,但对量化投资感兴趣所以利用业余时间就自学一下量化投资的内容,该文是作者学习的总结,需要查看完整版文章Python源代码的朋友可以从百度网盘下载:

链接: https://pan.baidu.com/s/16gv0gWpftCnaNbP76gqf-Q
提取码: 8kd9

你可能感兴趣的:(尝试用决策树做多因子量化投资)