量化选股就是利用数量化的方法选择股票组合,期望该股票组合能够获得超越基准收益率的投资行为。量化选股策略总的来说可以分为两类:第一类是基本面选股,第二类是市场行为选股。
基本面选股主要有多因子模型、风格轮动模型和行业轮动模型。市场行为选股主要有资金流模型、动量反转模型、一致预期模型、趋势追踪模型和筹码选股模型。
多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列的因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。多因子模型相对来说比较稳定,因为在不同市场条件下,总有一些因子会发挥作用。
风格轮动模型是利用市场的风格特征进行投资,比如有时候市场偏好小盘股,有时候偏好大盘股,如果是风格转换的初期介入,则可以获得较大的超额收益。
行业轮动与风格轮动类似,由于经济周期的原因,总有一些行业先启动,有的行业跟随。在经济周期过程中,依次对这些轮动的行业进行配置,则比买入持有策略有更好的效果。
资金流选股的基本思想是利用资金的流向来判断股票的涨跌,如果资金流入,股票应该会上涨,如果资金流出,则股票应该下跌。所以将资金流入流出的情况编成指标,则可以利用该指标来判断在未来一段时间股票的涨跌情况了。
动量反转模型是指股票的的强弱变化情况,过去一段时间强的股票,在未来一段时间继续保持强势,过去一段时间弱的股票,在未来一段时间继续弱势,这叫做动量效应。过去一段时间强的股票在未来一段时间会走弱,过去一段时间弱势的股票在未来一段时间会走强,这叫做反转效应。如果判定动量效应会持续,则应该买入强势股,如果判断会出现反转效应,则应该买入弱势股。
一致预期是指市场上的投资者可能会对某些信息产生一致的看法,比如大多数分析师看好某一个股票,可能这个股票在未来一段时间会上涨;如果大多数分析师看空某一个股票,可能这个股票在未来一段时间会下跌。一致预期策略就是利用大多数分析师的看法来进行股票的买入卖出操作。
趋势追踪是属于图形交易的一种,就是当股价出现上涨趋势的时候,则追涨买入;如果出现下跌趋势的时候,则杀跌卖出,本质上是一种追涨杀跌策略。判断趋势的指标有很多种,包括MA,EMA,MACD等,其中最简单也是最有效的是均线策略。
筹码选股是另外一种市场行为策略,基本思想是,如果主力资金要拉升一支股票,会慢慢收集筹码,如果主力资金要卖出一支股票,则会慢慢分派筹码,所以根据筹码的分布和变动情况,就可以预测股票的未来是上涨还是下跌。
有关量化选股业绩评价要从两个方面来考虑,一个是收益率,一个是风险指数,只是收益率高的策略并不能成为最好的策略,应该综合考虑收益率和风险情况才能判断一个选股的策略的好坏。量化选股需要考虑的是在承担多大的风险情况下的收益率情况。
量化选股模型—多因子模型
多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列的因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。
基本概念
举一个简单的例子:如果有一批人参加马拉松,想要知道哪些人会跑到平均成绩之上,那只需在跑前做一个身体测试即可。那些健康指标靠前的运动员,获得超越平均成绩的可能性较大。多因子模型的原理与此类似,我们只要找到那些对企业的收益率最相关的因子即可。
各种多因子模型核心的区别第一是在因子的选取上,第二是在如何用多因子综合得到一个最终的判断。
一般而言,多因子选股模型有两种判断方法,一是打分法,二是回归法。
打分法就是根据各个因子的大小对股票进行打分,然后按照一定的权重加权得到一个总分,根据总分再对股票进行筛选。回归法就是用过去的股票的收益率对多因子进行回归,得到一个回归方程,然后再把最新的因子值代入回归方程得到一个对未来股票收益的预判,然后再以此为依据进行选股。
多因子选股模型的建立过程主要分为候选因子的选取、选股因子有效性的检验、有效但冗余因子的剔除、综合评分模型的建立和模型的评价及持续改进等5个步 骤。
候选因子的选取
候选因子的选择主要依赖于经济逻辑和市场经验,但选择更多和更有效的因子无疑是增强模型信息捕获能力,提高收益的关键因素之一。
例如:在2011年1月1日,选取流通市值最大的50支股票,构建投资组合,持有到2011年底,则该组合可以获得10%的超额收益率。这就说明了在2011年这段时间,流通市值与最终的收益率之间存在正相关关系。
从这个例子可以看出这个最简单的多因子模型说明了某个因子与未来一段时间收益率之间的关系。同样的,可以选择其他的因子,例如可能是一些基本面指标,如 PB、PE、EPS 增长率等,也可能是一些技术面指标,如动量、换手率、波动等,或者是其它指标,如预期收益增长、分析师一致预期变化、宏观经济变量等。
同样的持有时间段,也是一个重要的参数指标,到底是持有一个月,还是两个月,或者一年,对最终的收益率影响很大。
选股因子有效性的检验
一般检验方法主要采用排序的方法检验候选因子的选股有效性。例如:可以每月检验,
具体而言,对于任意一个候选因子,在模型形成期的第一个月初开始计算市场中每只正常交易股票的该因子的大小, 按从小到大的顺序对样本股票进行排序,并平均分为n个组合,一直持有到月末,在下月初再按同样的方法重新构建n个组合并持有到月末,每月如此,一直重复到模型形成期末。
上面的例子就已经说明了这种检验的方法,同样的可以隔N个月检验,比如2个月,3个月,甚至更长时间。还有一个参数是候选组合的数量,是50支,还是100支,都是非常重要的参数。具体的参数最优的选择,需要用历史数据进行检验。
有效但冗余因子的剔除
不同的选股因子可能由于内在的驱动因素大致相同等原因,所选出的组合在个股构成和收益等方面具有较高的一致性,因此其中的一些因子需要作为冗余因子剔除, 而只保留同类因子中收益最好,区分度最高的一个因子。例如成交量指标和流通量指标之间具有比较明显的相关性。流通盘越大的,成交量一般也会比较大,因此在选股模型中,这两个因子只选择其中一个。
冗余因子剔除的方法:假设需要选出k 个有效因子,样本期共m 月,那么具体的冗余因子剔除步骤为:
(1)先对不同因子下的n个组合进行打分,分值与该组合在整个模型形成期的收益相关,收益越大,分值越高
(2)按月计算个股的不同因子得分间的相关性矩阵;
(3)在计算完每月因子得分相关性矩阵后,计算整个样本期内相关性矩阵的平均值
(4)设定一个得分相关性阀值 MinScoreCorr,将得分相关性平均值矩阵中大于该阀值的元素所对应的因子只保留与其他因子相关性较小、有效性更强的因子,而其它因子则作为冗余因子剔除。
综合评分模型的建立和选股
综合评分模型选取去除冗余后的有效因子,在模型运行期的某个时间开始,例如每个月初,对市场中正常交易的个股计算每个因子的最新得分并按照一定的权重求得所有因子的平均分。最后,根据模型所得出的综合平均分对股票进行排序,然后根据需要选择排名靠前的股票。例如,选取得分最高的前20%股票,或者选取得分最高的 50 到 100 只股票等等。
举个例子:可以构建一个多因子模型为(PE,PB,ROE),在月初的时候,对这个几个因子进行打分,然后得分最高的50个股票作为投资组合,在下个月按照同样的方法进行轮换替换。持续一段时间后,考场该投资组合的收益率是否跑赢比较基准,这就是综合评分模型的建立和后验过程。
当然这个例子是一个最简单的例子,实战中的模型可能会比较复杂,比如沃尔评分法就是一个复杂的多因子模型,它是对股票进行分行业比较,算个每个行业的得分高的组合,然后再组合成投资篮子。
模型的评价及持续改进
一方面,由于量选股的方法是建立在市场无效或弱有效的前提之下,随着使用多因子选股模型的投资者数量的不断增加,有的因子会逐渐失效,而另一些新的因素可能被验证有效而加入到模型当中;另一方面,一些因子可能在过去的市场环境下比较有效,而随着市场风格的改变,这些因子可能短期内失效,而另外一些以前无效的因子会在当前市场环境下表现较好。
另外,计算综合评分的过程中,各因子得分的权重设计、交易成本考虑和风险控制等都存在进一步改进的空间。因此在综合评分选股模型的使用过程中会对选用的因子、模型本身做持续的再评价和不断的改进以适应变化的市场环境。
多因子的模型最重要是两个方面:一个是有效因子,另外一个是因子的参数。例如到底是PE有效还是ROE有效;到底是采用1个月做调仓周期还是3个月做调仓周期。这些因子和参数的获取只能通过历史数据回测来获得。但是在回测过程中,要注意,不能过度优化,否则结果可能反而会不好。
影响股价走势的主要因子包括市场整体走势(市场因子,系统性风险)
估值因子(市盈率、市净率、市销率、市现率、企业价值倍数、PEG等)
成长因子(营业收入增长率、营业利润增长率、净利润增长率、每股收益增长率、净资产增长率、股东权益增长率、经营活动产生的现金流量金额增长率等)
盈利能力因子(销售净利率、毛利率、净资产收益率、资产收益率、营业费用比例、财务费用比例、息税前利润与营业总收入比等)
杠杆因子(负债权益比、资产负债率等)
动量反转因子(前期涨跌幅等)
交易因子(前期换手率、量比等)
规模因子(流通市值、总市值、自由流通市值、流通股本、总股本等)
股价因子(股票价格)
红利因子(股息率、股息支付率)
股价波动因子(前期股价振幅、日收益率标准差等)
市场预期因子(预测净利润增长率、预测主营业务增长率、盈利预测调整等)。
量化选股模型—风格轮动
市场上的投资者是有偏好的,有时候会偏好价值股,有时候偏好成长股,有时候偏好大盘股,有时候偏好小盘股。由于投资者的这种不同的交易行为,形成了市场风格,因此在投资中,利用市场风格的变化,进行轮动投资会比一直持有的效果好很多。
基本概念
投资风格是针对股票市场而言的,是指投资于某类具有共同收益特征或共同价格行为的股票,即某类投资风格很受欢迎,并且在某一个时间段内具有持续性和连续性(譬如,价值投资和成长型投资两种风格,或者大盘股和小盘股这两种风格总是轮流受到市场追捧).
由于投资风格的存在,从而产生一种叫做风格动量的效应,即在过去较短时期内收益率较高的股票,未来的中短期收益也较高;相反,在过去较短时期内收益率较低的股票,在未来的中短期也将会持续其不好的表现。
比如:在2009年是小盘股风格,小盘股持续跑赢沪深300指数;而在2011年,则是大盘股风格,大盘股跌幅远远小于沪深300指数。如果能事先通过一种模型判断未来的风格,进行风格轮动操作,则可以获得超额收益。
晨星风格箱判别法
晨星风格箱法是一个3×3矩阵,从大盘和小盘、价值型和成长型来对基金风格进行划分,介于大盘和小盘之间的为中盘,介于价值型和成长型之间的为混合型,共有9类风格,如表所示。
(1)规模指标:市值。通过比较基金持有股票的市值中值来划分,市值中值小于10 亿美元为小盘;大于50亿美元为大盘;10亿~50亿美元为中盘。
(2)估值指标:平均市盈率、平均市净率。基金所持有股票的市盈率、市净率用基金投资于该股票的比例加权求平均,然后把两个加权平均指标和标普500成份股的市盈率、市净率的相对比值相加,对于标普500来说,这个比值和是2。如果最后所得比值和小于1.75,则为价值型;大于2.25为成长型;介于1.75~2.25之间为混合型。
这也就是我们经常看到的基金的分类,比如:华夏大盘、海富小盘等名称的由来。
风格轮动的经济解释
宏观经济表现强劲时,小市值公司有一个较好的发展环境,易于成长壮大,甚至还会有高于经济增速的表现,因此,小盘股表现突出的概率高于大盘股。而当经济走弱时,由于信心的匮乏和未来市场的不确定性,投资者可能会倾向于选择大盘股,起到防御作用,即使低通货膨胀、货币走强,也不足以冒险去选择小盘股。
研究发现,经济名义增长率是用来解释规模效应市场周期的有力变量。当名义增长率提高时,小市值组合表现更优,因为小公司对宏观经济变动更为敏感,当工业生产率提高、通货膨胀率上升时,小公司成长更快。
案例大小盘风格轮动策略
大小盘轮动最为投资者所熟知,本案例就A股市场的大小盘风格轮动进行实证研究,通过建立普通的多元回归模型来探寻A股的大/小盘轮动规律。
1、大小盘风格轮动因子如下:
(1)M2同比增速:M2同比增速为货币因素,表征市场流动性的强弱。当流动性趋于宽松时,小盘股相对而言更容易受到资金的追捧。
(2)PPI同比增速:PPI反映生产环节价格水平,是衡量通胀水平的重要指标;且PPI 往往被看成CPI的先行指标。
(3)大/小盘年化波动率之比的移动均值:波动率表征股票的波动程度,同时也在一定程度上反映投资者情绪;可以认为大/小盘年化波动率之比能够反映出一段时间内大/小盘风格市场情绪的孰强孰弱,而经过移动平滑处理后的数值则更加稳定。
2、预测模型
基于上面所讲的风格因子建立如下回归模型:
D(Rt)=α+β1·MGt-1+β2·PGt-3+β3·σt-3+εt
其中,D(Rt)为当月小/大盘收益率差(对数收益率);MGt-1为上月M2同比增速;PGt-3为3个月前PPI同比增速;σt-3为3个月前小/大盘年化波动率之比的移动平滑值;εt为误差项。
本案例采用滚动78个月的历史数据对模型进行回归,得到回归系数后对后一期的D(Rt)进行预测,由修正预测值的正负来进行大/小盘股的投资决策。数据预测期为2004年6月至2010年11月。
3、实证结果
在78个月的预测期中,准确预测的月数为42个月,准确率约为53.85%,并不十分理想。但值得一提的是,2009年10月至2010年12月,模型的预测效果非常好,
若从2004年6月开始按照轮动策略进行投资,则截至2010年11月底轮动策略的累计收益率为307.16%,同期上证综指的收益率为81.26%,小盘组合的累计收益率为316.97%;轮动策略稍逊于小盘组合,但仍较大幅度地跑赢了市场指数。
轮动策略在2007年的大牛市中能够很好地跟随大盘股的节奏,而在2009年以来的结构性行情中又能较好地捕捉小盘股的投资机会。
若从2007年初开始采用轮动策略进行投资,则截至2010年11月底累计收益率可达458.65%,大幅超越同期上证综指及大、小盘组合的收益率。
量化选股模型—行业轮动
与风格轮动类似,行业轮动是另外一种市场短期趋势的表现形式。在一个完整的经济周期中,有些是先行行业,有些是跟随行业。例如,对某个地方基础设施的投资,钢铁、水泥、机械属于先导行业,投资完后会带来房地产、消费、文化行业的发展,这就属于跟随行业。研究在一个经济周期中的行业轮动顺序,从而在轮动开始前进行配置,在轮动结束后进行调整,则可以获取超额收益。
国外许多实证研究表明,在环球资产配置中,行业配置对组合收益的贡献的重要性甚至超过了国家配置,而且认为行业配置的重要性在未来相当长一段时间内也将保持。行业轮动策略的有效性原因是,资产价格受到内在价值的影响,而内在价值则随着宏观经济因素变化而波动。
研究表明,板块、行业轮动在机构投资者的交易中最为获利的盈利模式是基于行业层面进行周期性和防御性的轮动配置,这也是机构投资者最普遍采用的策略。此外,周期性股票在扩张性货币政策时期表现较好,而在紧缩环境下则支持非周期性行业。行业收益差在扩张性政策和紧缩性政策下具有显著的差异。
在国内目前情况下,根据货币供应量的变化来判断货币政策周期,是一个不错的选择。而M2正是广义的货币,反映了社会总需求的变化和未来通货膨胀压力。M2同比增速则可以反映流通中的货币供应量变化,即货币政策效果的实际反应。因此,可以用M2来判断货币政策或者货币供应处于扩张还是紧缩的周期。
通过移动平均线平滑后的M2增速,将2007年6月至2011年12月划分成表所示的几个货币周期。
行业分类:周期性VS非周期性行业
为了将行业划分为周期性行业和非周期性行业,这里选取沪深300行业指数,并且以沪深300 指数作为市场组合,利用CAPM 模型计算行业的Beta值和均值方差。
从Beta 值来对行业的周期性和非周期性进行区分,周期性行业有能源、材料、工业和金融;非周期性行业有可选、消费、信息、医药、电信和公用。
年均收益率最高的行业为医药,其次是金融和公用,收益率最低的行业是可选。
案例 M2行业轮动策略
针对上述对周期性和非周期行业的划分,构建周期性行业和非周期性行业的轮动策略。
数据与轮动策略的建立
(1)信息的同步性:考虑到M2 的披露时间及信息的传导时间,所有投资时段都滞后了一个月的时间。
(2)组合的构建策略:在货币政策处于扩张时等权配置周期性行业,紧缩时等权配置非周期性行业。
策略配置
按照顺周期策略(即策略1)构建投资组合并查看组合的收益及对应的逆向投资(扩张时投资非周期性行业,紧缩时投资周期性行业,初始资金1000万)。
后验结果
从2007年6月至2011年12 月的策略收益来看,不考虑交易成本,顺周期行业轮动策略获得最高的累积收益(-19.65%)远胜于行业平均(-40.50%)和逆周期策略(-59.13%),逆周期策略表现最差。
此期间业绩基准为沪深300 指数的收益为-37.57%,顺周期的行业轮动策略则战胜沪深300 指数达到17.92%,年化超额收益超过3.6%。即便扣除2%的单次换仓成本,行业轮动策略同样远远战胜同期沪深300 指数和行业平均投资策略的表现。
该策略具有如下优点:理念容易理解,且符合自上而下的投资理念,适合机构投资者进行行业配置;将行业划分为周期性和非周期性进行投资,这种分类标准与实际投资中对行业属性的认识也非常接近,减少了对行业基本面和公司信息的依赖;在紧缩时由于选择投资于非周期性行业能够避免较大的不确定性,使得整个组合的风险大大降低,抗风险能力得到增强;依据货币供应增速M2进行轮动,使得策略具有较强的可操作性。
--------------------------
拓展阅读:
1.一个量化策略师的自白(好文强烈推荐)
2.市面上经典的量化交易策略都在这里了!(源码)
3.期货/股票数据大全查询(历史/实时/Tick/财务等)
4.干货| 量化金融经典理论、重要模型、发展简史大全
5.从量化到高频交易,不可不读的五本书
6.高频交易四大派系大揭秘