先举个例子:
2017上海半程马拉松赛3月16日开始预报名,如果我们想知道哪些选手最终可能会取得比较好的名次,理论上我们可以在开跑前对他们做一个身体测试,比如测一下他们的肺活量、最大摄氧量等指标。并对测试的结果进行排名,排名靠前的选手获得好名次的可能性就比较大。
因子选股模型的原理与此类似,可以利用某些指标也就是因子选择未来可能表现较好的股票。
如此一来,就找到了问题的关键点,选择什么样的因子才能选出这样的股票呢?
我们知道影响股价的因子非常多,宏观经济状况、行业前景、公司经营状况、甚至天气、季节都不是没有可能。而判断这些因子是什么状况,又有一系列可以量化的因子指标,比如:GDP增速、CPI、PPI、行业景气指数、行业集中度、净利 润率、主营业务收入增长率、降雨量、日照指数、温度变化……
看起来有种没完没了的节奏,这么多,指望着10个手指头一一算过来,黄花菜都凉了。
可别忘了我们有计算机。
计算机运算快是众所周知的,可是得知计算机每秒运算几十亿次到上千万亿次,仍然感觉很震惊。理论上讲,什么因子我们都可以拿来验证一下是否有效。很多公司的计算机配置很是超前,算这些都是小意思,只有你想不出,没有算不出。不过理论之外,很多因子还是没法计算,再先进的配置也是枉然,因为没有数据或者数据拿不到。而且,如果一个包罗万象的因子库,很有可能导致过度拟合的情况,导致最终选不出好的股票了。结合我们自己的经验和市场规律以及数据的可得性,我们会得到一个候选因子库。
选取候选因 子的标准应该遵循哪些规则呢?
这主要是由投资者经验和市场规律来决定的,较多的候选因子将为构建投 资组合的全面性做出更强的保证,更有效的候选因子才能保证投 资组合的收 益率。
如果没有经验,可以先看看别人都选了啥:
估值因子:市盈率、市净率、账面市值比、股息率、现金收益率
成长因子:净资产收益率及变动、总资产收益率及变动、主营收入增长率、毛利率及变动、净利率及变动
价量因子:1、3、6个月收益率、1、3、6个月换手率及变动
预期因子:机构覆盖数量、评级调整……
根据相关研究报告整理,有的机构因子库中有数百个候选因子。
这么多因子,只是有经验的人列出来的清单,在一定的时间段内对选股来说未必都有效。
检验候选因子的选股有效性一般采用的检验方法是排序的方法。
简单来说,每一个因子都是一个指标,把股票按每个指标值从小到大的顺序都排一下,然后分别选取每个指标最高、最低极端的2组计算他们的区间收益率(一般为月度,分组目前一般采用5档)及收益率与因子的相关性。
比如:我们认为身高高的力量可能会大,于是身高最高的组和身高最矮的组选出来,看一下身高高的力量是否真大,身高最矮的力量是否就真的小。
为什么不必计算全部?因为如果最大最小的两组收 益率都对因子有相关性,那么中间的组也就无需计算了。
所谓相关性是指:如果因子指标高,收益率也高,那么就是正相关;反之就是负相关。因为选取了两组极端的股票组合,假如跟因子是正相关,那么因子指标高的那组就是“高收益组”,反之亦然。
然后统计“高收 益率组”各月收益率在各种市场状况(牛 市、熊 市)下跑赢 业绩比较基准的概率,这是因为我们选股的目的是跑赢市场,获得正的阿 尔法,如果“高收益率组”收益率超过基准业绩的概率小于50%,那么这个因子就是无效的,应予以剔除。
当然也可以要求更高更苛刻的概率标准,来确保找到更有效的因子。
反复这样操作,我们就找到了有效的因子。
但有可能这些因子之间有很强的相关性,我们可以据此剔除掉一些。什么叫很强的相关性?这个可以自己设置一个阈值,既可以是超过0.5的也可以是超过0.6,根据自己的经验来调整。
那么,接下来怎么通过有效因子选股呢?
还记得我们之前说过的排序了么?排序可以转化成一个分数。既然因子都已经确定了,那么相对于这些因子来说,每个股票都在某一个因子上有了一个分数。遇到最终是负相关的因子,股票的分数需要逆向转换一下。
最后将这些分数按因子加权加总(也可以等权),找出若干分数高的股票,选股就算完成了。若干设置为多少比较合适呢?这个我们可以放在以后讨论。
在实际操作过程中,各个环节的设置可能会有些出入,但是基本逻辑大致相当。
当然在最后确认是如何加权时,直接采用打分的方法设置的权重会有更多的主观色彩,还有一种方法是通过回归得到系数避免这个问题。在此我们不再展开。
模型建立不是一劳永逸的,曾经有效的模型也可能由于市场突然变化而失效。适时的调整是必须的。
我们再来回顾一下整个流程吧:先是弄一堆候选因子,然后找到候选因子的具体数据,再把有效因子筛选出来,通过打分筛选出股 票,适时调整,大功告成!
这就是经典的因子选股的线性模型,然而现在更流行的是非线性模型,就是我们多次说到的机器学习的方法来确定和调整因子,实际过程比这个要复杂的多,离开大数据和计算机寸步难行。
阅读原文:http://t.cn/RKtYaeP