基于alphalens对qlib的alpha158做单因子分析

本次百天计划第32篇“AI+量化投资”系列。

这个本次100天小目标,要基于qlib打造一个AI量化投研平台基础

今天的重点是“因子分析”。

因子就是机器学习里的特征。

有人说,回测不重要,因子分析更有意义

回测只能证伪,而不能证实。

什么意思,就是回测结果不行,那实盘肯定不行,因为过往历史数据告诉你,你这个策略结果不好;但回测结果很好,实盘不一定行,为什么呢?

这里本质大家要想清楚,即便你的策略的确不包含“未来函数”,没有错误,但很有可能包括了”隐性“未来函数,比如2016年以来,价值因子明显有收益,像消费行业起飞,若你的策略使用的是价值因子,那超额收益一定不错,但这个一定可以持久的嘛?未必。

因子分析简单说就是看因子与结果之间在统计意义上的相关性,尽管是线性的相关性,但至少有统计学意义的数学基础保证,当然更进一步,我们可以对因子进行非线性的归因分析。

tips1:加载alpha158需要的时间比较长,使用jupyter notebook来测试会大幅度提升效率,尤其是需要频繁试验自己的想法。

tip2: xgboost相比lightGBM,无论是CPU还是内存,还是训练时间,都大得多。机器学习量化相对传统量化,对于机器的要求高很多。

01 因子分析神器 alphalens

alphalens是量化平台鼻祖quantopian的三大开源包之一。

使用pip直接安装即可。

pip install alphalens

def get_clean_factor_and_forward_returns(factor,
                                         prices,
                                         groupby=None,
                                         binning_by_group=False,
                                         quantiles=5,
                                         bins=None,
                                         periods=(1, 5, 10),
                                         filter_zscore=20,
                                         groupby_labels=None,
                                         max_loss=0.35,
                                         zero_aware=False,
                                         cumulative_returns=True)

重点关注两个参数,一个是因子factor,二是价格prices。

alphalens使用简单,难在于数据格式整理,

factor的格式与qlib的比较像,它叫asset,qlib叫instrument。

基于alphalens对qlib的alpha158做单因子分析_第1张图片

价格就是每支股票,每天的收盘价:

基于alphalens对qlib的alpha158做单因子分析_第2张图片

从alpha158里直接读出来一个因子:KMID

基于alphalens对qlib的alpha158做单因子分析_第3张图片

通过修改index.names:

基于alphalens对qlib的alpha158做单因子分析_第4张图片

从qlib数据库里读出的数据格式如下:

基于alphalens对qlib的alpha158做单因子分析_第5张图片

使用pandas的处理功能,把它变成alphalens的格式:

基于alphalens对qlib的alpha158做单因子分析_第6张图片

而后调用就非常简单了:

基于alphalens对qlib的alpha158做单因子分析_第7张图片

基于alphalens对qlib的alpha158做单因子分析_第8张图片

因子的收益分析:

基于alphalens对qlib的alpha158做单因子分析_第9张图片

累计收益分析:

基于alphalens对qlib的alpha158做单因子分析_第10张图片

还有好多图就不全贴出来了。

明天结合qlib以及alphalens的代码一并来解读。

小结:

1、当下的模型其实都差不多,核心还是特征工程。

2、对于量化而言,数据预处理都差不多,一则就找更好的数据源,二则找更好的特征。

3、就特征挖掘而言,有两种,一是通过经验,实证,有逻辑的去构建因子,还有一种就是纯粹大数据挖掘。后者更像黑盒,但更符合机器学习的玩法。worldquant的alpha101,一看公式很难想象那是人工设计出来的,应该有机器参与的部分。

4、qlib肯定有不完善的地方,但目前来看,还是值得坚守,自己造一个平台,一开始看似爽,但后面到了大数据,算法阶段,该踩的坑一个不少,都得踩,毕竟微软还是有它的实力在,没有必要从头造轮子。

5、我们今天引入的alphalens就是因子分析很好的补充。

你可能感兴趣的:(建立自己的算法交易事业,机器学习,人工智能,python)