深度剖析为何选取相关性系数评价因子

这篇文章将会结合理论深度剖析为何选取相关性系数作为评价因子有效性的指标之一,以及结合中国期货市场分析不同情况下的因子相关性的最低要求。

在因子投资策略中,经常会选取某因子或合成因子排名靠前的股票投资,那如何评价因子的有效性呢?一个最常用的评价指标就是IC(information correlation),也就是皮尔逊相关性系数。假设y是因子的取值,x是下一个周期的收益率,那么因子的IC计算公式如下:

深度剖析为何选取相关性系数评价因子_第1张图片
其中D(x)表示x的方差。

在查看一些资料中,经常会看到一个因子如果IC值大于0.03,那么这个因子可以称为有效因子,如果IC值大于0.05那么这个因子可以说是非常有效的。当看到这的时候,我之前一直很困惑,虽然对于IC值可以用来评价因子有效性这个很好理解,但是为什么IC值大于0.03就是一个有效因子了呢?这个问题一直困惑了我很久,直到前几天看到了《量化策略开发与可微编程(二):目标函数》这篇文章,彻底打开我心中的疑虑。文章链接:

https://mp.weixin.qq.com/s/cESJKH4bsg0CZxr4XP6JtQ

下文将给出具体的理论推导并结合中国期货市场进行分析。

理论推导

在因子投资策略中,对于不同品种投资的仓位是根据因子值(信号值)来设定的,一些策略会选取排名靠前的进行做多,一些策略选取排名前几和排名后几的进行对冲做多和做空,还有其他很多方式这里不做过多介绍。现在假设仓位分布与因子值成正比,因子的绝对值越大仓位越重,因子值为负数表示做空。则不考虑手续费的情况下,下一周期的收益期望为:

在这里插入图片描述
其中表示x为下一周期的收益率,y为仓位,这个仓位与因子值成正相关关系。

一般来说,下一周期的收益率分布与正态分布相似,现在假设下一周期的收益率服从均值为0标准差为sigma_x的正态分布。而对于因子值的分布的话,如果是用一些机器学习挖掘出来的因子,这个因子值通常也能学习到收益率的分布,所以可也以认为是服从均值为0标准差为sigma_x的正态分布;如果因子是其他方式提取出来的话,经过一些方式变换后的分布也会与收益率分布图像相似。因此我们可以给出一个假设:收益率x与仓位y是服从标准差为sigma_x均值为0的正态分布。

下面给出相关性与E(xy)的计算相关推导:

深度剖析为何选取相关性系数评价因子_第2张图片
深度剖析为何选取相关性系数评价因子_第3张图片
从公式中可以发现,在相关系数一定的情况下,在一定范围内,D(x) 越小,期望的收益率就会越小(与标准差相关的二次函数)。所这也是为什么高频交易特别需要考虑手续费的原因,因为持仓时间越短收益率的方差越小,这就使得期望收益率越小。

下面分析日频调仓和10分钟调仓的交易下,因子相关性的最低要求。

日频调仓(每日进行一次仓位调整)

下图为期货市场第二天的收益率分布直方图,从图上可以看出这个分布与正态分布还是很像的。

深度剖析为何选取相关性系数评价因子_第4张图片
经过计算,收益率的方差为0.0001525,假设单笔交易手续费为0.0001,买入卖出手续费为0.0002,因此有D(x) = 0.0001525,C=0.0002。所以rho(相关性系数)大概在大于等于0.016的情况下,期望是正的。当然实际情况肯定比这复杂,除此之外为了追求低回撤,这个相关性肯定要更高。

10分钟调仓(每10分钟进行一次仓位调整)

下图为期货市场10分钟后收益率分布直方图,从图上可以看出这个分布也与正态分布很像。
深度剖析为何选取相关性系数评价因子_第5张图片
通过统计可得D(x) = 0.0000062131,C=0.0002。所以rho(相关性系数)大概大于等于0.064的情况下,期望是正的,当然实际情况肯定也比这复杂。

总结

这篇文章结合理论与实验分析了不同情况下因子相关性与期望收益率之间的关系。文中的理论部分加了很多假设,其给出最低的因子相关性也是基于这些假设的。因为实际情况很复杂,所以实际要求的相关性往往会比本文给出最低的相关性数值还高。除此之外,不同策略对相关性的要求也是不同的。

通常情况下相关性越高的因子越好,但相关性有时也会误导策略研究员,具体文章可以看石博士的《用 IC 评价因子效果靠谱吗?》,文章链接:

https://zhuanlan.zhihu.com/p/41454197

对量化、数据挖掘、深度学习感兴趣的可以关注公众号,本人不定期分享有关这些方面的研究。
在这里插入图片描述
个人知乎:
https://www.zhihu.com/people/e-zhe-shi-wo/activities

你可能感兴趣的:(量化杂文,机器学习,量化,统计)