关于统计套利的文献综述
思考篇
思考1:尝试别的类型的距离,更适合股票的距离
思考2:关于量化策略,什么时候可以对策略开仓,什么时候不开,策略什么时候失效:小心单边行情
思考3:价格回归的周期是多久,多久价格会回归到均值上,一次开仓要多久才会有收益
思考4: 如何思考一个策略的容量大小呢?
思考5:如何确定一个交易区间?
答:Vidyamurthy (2004) [10] 在“Pairs Trading:Quantitative Methods and Analysis”一书中介绍了如ARMA模型、混合正态分布等方法,并且通过随机模拟得到以下结论:假设去均值后的价差波动是一个白噪声序列,那么最大收益的交易边界条件是±0.75σ
思考6:关于策略优化的步骤·?
国信证券_20140630_金融工程专题研究-基于协整方法与因子模型的配对交易策略给出了一个使用因子模型做筛选配对,然后和协整方法相互补充的办法——当股票的因子收益强相关,且股票 特殊收益的积分序列是平稳序列时,即满足协整关系。该方法效率较高,可对 所有股票同时进行检验,所筛选的配对也不限于同一行业。 但是因子模型筛选配对也有自身劣势。实证发现,因子模型的配对数量要大大 少于传统协整检验的方法,且收益率也要略低于传统协整检验方法所筛选出的 配对。
方法篇
距离法(Distance Approach)
优势:算法简单;避免数据挖掘;在传统风险因子上无暴露,且适用于不同类别的资产;
改进方向:改进筛选标准,例如结合协整法可以选出更加稳定的配对;
最经典的GGR方法
最小化偏差平方和法则(最小距离法) (Gatev, E., Goetzmann, W. N., and Rouwenhorst, K. G. (2006). Pair strading: Performance of a relative-value arbitrage rule. Review of Financial Studies, 19(3): 797-827.)
1999 年 Gatev, Goetzmann 和 Rouwenhorst(GGR)使用基于 Distance Method 的 Pair Trading 策略,对美国股票市场1962年到1997年的数据进行测试,结果显示非常好的盈利效果(12% annually)。2006年GGR 再次使用同样的方法对1998至2002年的数据进行测试,结果依然稳定(11% annually)。
文章给了一种非参数方法的最小距离法,选择合适的形成期,在样本期内,将股票进行标准化,然后计算标准化的股票价格序列的平方距离,用此距离来度量价差,即股票价格序列之间的错误定价程度。再设置合适的交易规则,选择平方距离最小的股票对进入交易期进行实证检验,当发现两支股票的标准化价格序列的差值超过了预先设定的临界值则进行交易,结果发现最小距离法能够盈利。
选择一个回溯时间区间,给定12个月的时间区间,计算n只股票n(n-1)/2个两两配对的欧几里得距离(SSD),将SSD最小的配对构建投资组合,当配对资产价格大于回溯期的2个标准差时入场,回复到均值时平仓,6个月后再更换备选配对资产。
(SSD_ijt)┴¯=1/T ∑_(t=1)^T▒ (P_it-P_jt )^2=V(P_it-P_jt )+(1/T ∑_(t=1)^T▒ (P_it-P_jt ))^2
上图为SSD的推导公式,等式右方第一项(记为a)表示价格偏离均值的程度,第二项(记为b)表示均值的漂移程度,如果最小化SSD,则a和b都要最小。但理性投资者希望的是保持均值不漂移的情况使得波动更大,并且稳定,因此要求a大一点,b小一点。但是距离法最终实证结果表明,选出的配对往往是a小b大,因此距离法是一个次优解(suboptimal)
缺点:高相关不等同于协整关系(Alexander,2001),价格不收敛,均值回复性不够强,有较大的分离风险(价格不收敛)。Do and Faff(2010)发现,GGR文中的方法得到的配对中,32%并不收敛。而协整法得到的配对收敛性更强(Huck 2015)。
改进方法:
方法改进
考虑更多的配对机会:只做行业内两两股票配对可以提高配对效果(Do and Faff 2010,2012),但忽略了行业间配对的机会,例如供应链两端的买卖双方,消费者-供应链关系暗含了配对的收益机会(Cohen and Frazzini,2008)。在形成期阶段,均值回复经过0的次数越多,样本外均值回复可能越强,能提高距离法的策略收益(Do and Faff 2010,2012),但面临样本内数据挖掘的风险。
Chen et al. (2012) 使用Pearson相关系数作为形成期内相关性的度量,算法为:
D_ijt=β(R_it-R_f )-(R_jt-R_f )
其中Dijt为t时刻股票i收益率Rit偏离股票j收益率Rjt的程度,Rf为无风险收益率。进一步考虑伪多元配对(quasi-multivariate pairs),即股票i与其相关性最高的50只股票配对。未来一个月,根据Dijt的分离度,做多分离度最高组股票,做空分离度最低组股票,保持做多与做空的资金相等。Chen et al. (2012)基于此模型的超额收益达到了1.7%/月,显著高于GGR方法。而其超额收益的来源在于构造50只股票的comver组,如果将50减少到1,则超额收益降低1/3。
Perlin(2007,2009)发现,GGR方法中将价格序列Pit标准化(减均值除方差)后,与Pearson相关系数法的结果相同。另外关于伪多元配对,作者构建了一个与5只票的配对组合:
P_it=∑_(k=1)^5▒ w_k P_kt+ϵ_it
权重w可以用不同的算法得到(等权,OLS,相关性)。结果发现伪多元配对法收益更高且更稳健。
提高交易频率
Nath(2013)将GRR策略应用在美国债券上,并且提高了交易频率,尽管获得了不错的夏普和盈亏比,但配对间的分离风险较高。Bowen et al. (2010)运用小时级别数据将配对策略应用到富时100成分股中,但收益很难覆盖交易成本。
关于股票对协整的检测方法
协整策略是在协整理论的基础上建立起来的,协整描述的是非平稳时间序列之间存在的长期稳定均衡关系。所谓均衡是指这些序列的线性组合所得序列是平稳的,即序列的均值和方差为常数。平稳时间序列(协整)的特性:mean-reverting的性质(思考:别的特性会有用么?)
另外有一个说法是 非平稳序列很可能出现伪回归,协整的意义就是检验它们的回归方程所描述的因果关系是否是伪回归,即检验变量之间是否存在稳定的关系。所以,非平稳序列的因果关系检验就是协整检验。
相关论文:
最经典文献 Vidyamurthy, G. (2004). Pairs trading: Quantitative methods and analysis. John Wiley & Sons, Hoboken, N.J.
买入1手股票i,卖空r手股票j,配对收益mijt等于
█(m_ijt=p_it-γp_jt=n_it-γn_jt+ϵ_it-γϵ_jt@Δm_ijt=r_ijt=r_itc-γr_jtc+r_its-γr_jts )
其中n是一个非平稳的趋势因子,e是平稳的特质成分,rc是趋势收益,rs是特质收益。上式为协整的条件是第二个等式右边前两项的和为0。Vidyamurthy(2004)使用套利定价模型APT来确定配对股票具有相同(比例为r)的趋势因子rc,即配对股票的因子载荷需要满足固定的比例r。因此一个完美的协整配对关系为:
r_ijt=r_it-γr_jt=β_i^’ f_t-γβ_j^’ f_t+ϵ_it-γϵ_jt=ϵ_it-γϵ_jt
因此寻找协整配对的过程,简化为筛选具有相同因子暴露的股票的过程。Vidyamurthy(2004)构建了一个基于公共因子收益的Pearson相关系数来度量股票间的绝对值距离,距离绝对值越高,协整配对性越好。
但是其实这个有一些问题:美股市场股票收益需要至少30个因子才能解释50%的收益变动(Avellaneda and Lee 2010)。所以其实并不完善
Avellaneda, M. and Lee, J.-H. (2010). Statistical arbitrage in the US equities market. Quantitative Finance, 10(7):761–782.
当然还有一些别的度量协整性的方法如下所示:
(Dickey Fuller) test方法
对于一个简单的一阶自回归AR(1)模型
x_t=cx_(t-1)+e_t
其中e(t)是白噪声,t是时间, xt是要检验的变量;如果c=1则说明单位根是存在的。
DF检验是用来测试一个自回归模型是否存在单位根,把上面的回归模型改写为:
x_t-x_(t-1)=(c-1) x_(t-1)+e
c=1也就意味着零假设c-1=0。 我们还可以添加截距或趋势项,并根据假设测试系数等于零的零假设。
Augumented Dickey-Fuller test检验
把DF检验中用到的AR(1)自回归改为高阶自回归AR§,那么就是ADF检验。
AR§:x_t=c_1 x_(t-1)+⋯.+c_p x_(t-p)+⋯
残差形式:x_t-x_(t-1)=(∑_(i=1)^p▒ c_i-1) x_(t-1)-∑_(j=i+1)^p▒ c_i x_(t-j) 〖⋯e〗_t
Engle-Granger两步检验法
(1)首先对变量进行平稳性检验。注意:变量必须是相同阶数的单整过程才可以,比如说其中一个变量差分一次就平稳,即为一阶单整,其他变量也要求应该是一阶单整
(2)构建经典的线性回归模型
(3)对残差的平稳性进行检验。
(4)构建误差修正模型
(5)在协整检验和误差修正之后,需要运用相关的诊断检验进一步验证误差修正模型是否完备,比如说各个滞后项的滞后期数是否合理,并给出合理的解释。
Jonhamson 协整检验方法
(1)确定协整向量的个数(准确来讲,就是确定这N个变量组成的N*N维矩阵的秩)
(2)构建VAR模型,Johansen协整检验是建立在非平稳序列下构建VAR模型基础上的
(3)看迹(trace)统计量,(它的检验是一个联合显著性检验,靠谱)
(4)构建向量误差修正模型(VECM) 注意:变量间协整方程要在向量误差修正模型构建完之后才能获得。
(5)诊断检验与结果分析
其他的论文:
Girma, P. B. and Paulson, A. S. (1999). Risk arbitrage opportunities in petroleum futures spreads. Journal of Futures Markets, 19(8):931–955.
Caldeira, J. F. and Moura, G. V. (2013). Selection of a portfolio of pairs based on cointegration: A statistical arbitrage strategy. Brazilian Review of Finance, 11(1):49–80.
Hong, G. and Susmel, R. (2003). Pairs-trading in the Asian ADR market. Working paper, University of Houston.
Caldeira, J. F. and Moura, G. V. (2013). Selection of a portfolio of pairs based on cointegration: A statistical arbitrage strategy. Brazilian Review of Finance, 11(1):49–80.
国信证券_20140630_金融工程专题研究-基于协整方法与因子模型的配对交易策略
Vidyamurthy (2004)只提出了协整模型的构想,并未用现实金融资产做统计回测模拟。Girma and Paulson(1999),在考虑交易成本后,应用协整模型于原油、汽油、石油期货产品进行套利,年收益达到15%。这一模型的优势来源于其所选标的自身具有生产关系上的强相关性,另外,大豆及其制成品(Simon 1999)、天然气和电价期货(Emery and Liu 2012)这两个配对交易也能获取超额收益,但金银间无套利机会(Wahab and Cohn 1994)。股票上的协整模型产生了33%的年化收益(Hong and Susmel 2003),但其收益部分来自汇率升值(Broumandi and Reuber 2012)。Dunis et al.(2012)将协整法推进到了股票“更高频”交易中,标的选择为欧洲斯托克50成分股,配对股票两两之间的资金配比使用卡尔曼滤波进行估计,但该模型忽略了例如配对公司的杠杆比例差异带来的分离风险。Caldeira and Moura(2013)在巴西股票市场做了测试,其使用Engle-Granger两步法及Johansen法则检验协整关系,但其选择配对股票的依据是样本内套利收益的夏普率而不是相关系数等。这一模型也有其问题,即Engle-Granger两步法及Johansen法则具有相关性,其并没有起到两重检验保护的效果。
《国信证券_20140630_金融工程专题研究-基于协整方法与因子模型的配对交易策略》给出了一些比较实际的可操作的tips:
1.止盈点:设止盈点可以避免出现价差收窄至 0 附近后,掉头又继续扩大的情况。另外,通过这种方法也可以产生更多的交易机会,并且可以显著 的缩短持有时间,降低融资成本。 2. 最大持有市场:限定头寸的最长持有时间可以直接减少融券利息,同时,还能规避价差长期不回归甚至扩大的情况,起到一定的止损 作用。当然,如果最长持有时间设臵过短,也会导致很多交易会未 等到价差回归就被强行平仓,使得单笔交易的平均利润下降。
3. 止损点:止损点的设置思路,并非为了提高收益,而是控制风险,因此 有必要根据不同止损点的损益分布情况来确定合适的止损点。此外, 当配对数量较多,单个头寸权重较小时,可以放宽止损条件;反之, 则应该设臵较为严格的止损
关于开仓点:
机器学习篇
Huck, N. (2009). Pairs selection and outranking: An application to the S&P 100 index. European Journal of Operational Research, 196(2): 819-825.
Huck, N. (2010). Pairs trading and outranking: The multi-step-ahead forecasting case. European Journal of Operational Research, 207(3): 1702-1716.
其模型的基本方法步骤为,预测,排序,交易。在预测阶段,运用神经网络算法预测每只股票的下一周收益;排序阶段,构建了多标准决策方法(MCDM),对每只股票的排序基于多个标准评分,不同的标准评分可以用等权组合。该模型是一个非均衡模型,周度超额收益高达0.8%,但问题在于存在生存者偏差,MCDM的设计方式过于复杂,并且没有一个简单的比较基准。除此之外,有少量的文章涉及到了机器学习算法在统计套利中的应用,但策略涉及不够完善或者数据选取的股票不具有代表性。
随机过程方法
Cummins, M. and Bucca, A. (2012). Quantitative spread trading on crude oil and refined products markets. Quantitative Finance, 12(12):1857–1875.
Ornstein-Uhlenbec过程, OU process分成两部分,第一部分(dt)的叫mean reversion,顾名思义就是过程在mean周边徘徊,diffusion(dWt)部分,就是最基本的布朗运动。
dX_t=Θ(μ-X_t )dt+SdW_t
Bertram(2010)模拟了配对交易入场到出场的时长T1和出场到下一次入场的时长T2:
T=T_1+T_2
使用更新理论估算收益的均值和方差:
█(μ(a,m,c)&=(r(a,m,c))/(E(T))@σ^2 (a,m,c)&=(r^2 (a,m,c)VAR(T))/(E^3 (T)))
其中a是入场点参数,m是出场点参数,c是交易成本,函数r是每次交易的费后收益。因此基于最优化夏普的模型能够解出最优参数a和m。Bertram(2010)承认该模型的主要问题在于实际金融数据并不满足高斯Ornstein-Uhlenbeck过程,但优势在于有闭合解,利于高频建模。Cummins and Bucca(2012)应用上述模型发现日度收益率能达到0.07%到0.55%,夏普率大于2。Kim(2012)将该模型应用于韩国股市。
基于CUSCORE 模型的配对交易方法
光大证券 股指期货量化交易策略研究 ——基于价差交易的高频统计套利 03:CUSCORE 模型(2012-08-28)
CUSCORE 模型针对股指期货当月合约和次月合约构建价差套利结合, 在从 2010 年 4 月 16 日至 2012 年 6 月 15 日,共 498 个交易日期间,在考虑 交易成本和滑价影响的前提下,无杠杆,获得 179.96%的绝对收益,年化绝 对收益率为 73.06%,年化 SHARPE 比率达到 8.19,最大回撤只有 3.73%。
cuscore 统计量源于工业过程控制中,用于对趋势变化的监控。顾名思义,该统计量 取累计(cumulate)和分值(score)之意,即通过引入时间变量 t 对偏差进行加权,cuscore 统计量可以迅速揭示机器的磨损。
"cuscore “=∑_t▒ (p1-” ema2 ")∙t
其中,pl 为价差,ema2 为周期为 20 秒的价差 ema 曲线,t 为时间权重。价差交易cuscore 统计量可以非常迅速地对价差趋势的变化作出反应,其数值越大, 表明对原有趋势的偏差越明显
基于Copula函数的配对交易
参考文献:
Ferreira, L. (2008). New tools for spread trading. Futures: News, Analysis & Strategies for Futures, Options & Derivatives Traders, 37(12):38–41.
Liew, R. Q. and Wu, Y. (2013). Pairs trading: A copula approach. Journal of Derivatives & Hedge Funds, 19(1):12–30.
Stander, Y., Marais, D., and Botha, I. (2013). Trading strategies with copulas. Journal of Economic and Financial Sciences, 6(1):83–107
基于copula函数的配对交易 https://mp.weixin.qq.com/s/M8WOUV-P-5k9zu8FoS083w
Copula方法的演算方法为,在形成期内计算配对的相关系数或协整标准,然后计算配对股票收益序列的边际分布函数。对于收益边际分布函数,Stander et al.(2013)讨论了参数和非参数法两种方法来估计边际分布,Ferreira(2008)和Liew and Wu(2013)则偏向于拟合参数分布函数。在得到边际分布函数后,即可确定合适的copula函数。Ferreira(2008)仅使用了一个Copula函数,参数来自经典最大似然估计。Stander et al.(2013)基于22个阿基米德的copula,运用Kolmogorov-Smirnov拟合度测试选出最佳copula。Liew and Wu(2013)则是从5个金融领域常见的copula中选择。3篇文献的交易策略类似,均是使用选出的copula函数C(u,v)计算条件边际分布:
P(U≤u∣V=v)=(∂C(u,v))/∂v;P(V≤v∣U=u)=(∂C(u,v))/∂u
如果条件概率高(低)于0.5,则认为该股票被高(低)估。当条件分布函数超过5%或95%水平下时进行交易,一般一周后平仓,或者条件分布值回复到0.5时。
多策略方法
Burgess, A. N. (1999). A computational methodology for modelling the dynamics of statistical arbitrage. PhD thesis, University of London, London Business School.
多策略:Burgess(1999)将协整法与神经网络、遗传算法相结合,该论文是唯一在统计套利中尝试这类算法结合的文章,因此非常有吸引力。
总结
距离法
优势:算法简介;避免数据挖掘;伪多元配对法优于单配对法;在传统风险因子上无暴露,且适用于不同类别的资产;
缺陷:SSD筛选标准使得配对的方差变动过小,降低了收益的空间,而Pearson标准相对更佳;
改进方向:改进筛选标准,例如结合协整法可以选出更加稳定的配对;全球各类资产的套利收益可能找到共同的解释因素,类似于Asness et al.(2013)发现价值和动量解释全球各类资产收益。
协整法
优势:在确定配对的均衡特性上,使用的计量方法较距离法更加严格和合理;缺陷:目前的实证研究仅基于一部分股票;改进方向:Vidyamurthy(2004)提出的启发式数据检验方法值得进一步的探索;多元统计套利法也值得更多研究
时序法
优势:基于时间序列的动态交易法则具有可操作性;
改进方向:讨论距离法,协整法,和时序法之间的关系会比较有意思;并且时序法的交易算法部分也有改进的空间;
随机控制法
优势:较距离法对收益的获取有提升;
改进方向:使用协整法确定配对,时序法确定入场时机,随机控制法进行仓位的控制,三种方法可以发挥各自的优势。
观点篇
关于统计套利的收益来源:
观点:价格在LOP均衡状态附近波动
GGR策略:Gatev, Goetzmann 和 Rouwenhorst(GGR)在1999年使用基于distance method的pair trading策略,获得了年化12%的策略收益。
关于配对交易收益的来源,《Understanding the profitability of pairs trading》的作者认为,配对交易的盈利来至于给未知买家提供流动性的补偿。
《Pairs trading and accounting information》 的作者Papadakis and Wysocki在2007年利用GGR的方法来分析从1981年到2006年以来,在美国的权益市场上,会计事件(account events)对配对交易盈利的影响;他们发现,配对交易的开仓时间主要发生在盈利公布或者分析师预测,因为盈利公布事件或者分析师预测触发的配对交易远远没有非事件触发的配对交易盈利多,这可以用投资者的反应不足来解释。他们发现,在事件公布三个星期后,消除事件影响了之后,再使用这些方法进行交易,会大大提高超额收益率。但是,《 Does simple pairs trading still work?》的作者Do and Faff (2010)通过采用同样的方法,在不同的数据集上,并没能得到同样的结论。
3. 《An anatomy of pairs trading: the role of idiosyncratic news, common information and liquidity》的作者使用一个GGR算法的变种来测试美国CRSP股票市场在1993到2006年的数据;他们发现配对交易的盈利在以指数的形式逐渐减少,并且配对交易的盈利和价差分离时候的事件息息相关;
4. 《Empirical investigation of an equity pairs trading strategy》作者Chen, H. 认为配对交易盈利的来源部分来至于信息在两腿之间的传播导致的。同时,配对交易在信息传播最差的环境中盈利最高;跟Engelberg et al.相反,他们没有发现短期的流动性跟配对交易的盈利性相关的证据;他们发现他们的策略在2008年金融危机的时候表现很差,而这个时候,往往提供流动性的策略表现很好。
5. 《Losing sight of the trees for the forest? Attention shifts and pairs trading》作者Jacobs and Webe使用一个GGR算法的变体检验了1960年到2008年美国股票市场和几个国际市场,来探寻配对交易盈利的来源;他们认为配对交易的盈利来源于在证券对中,共同的影响信息的传播速度是不一样的,造成价格的不一致,这是盈利的主要来源;
6. 如果进行的是统计套利,比如价差回归均值的价差套利,盈利来源可以认为是极端价差回归均值。可以认为是对对市场进行正常定价活动的风险补偿。
关于相关和协整的关系:
相关性并不等于协整。即使两对股票的相关性是差不多的,但协整关系的概率差别比较大。有时我们可以找到相关但不是协整的价格关系。例如如果两种股票价格随着时间一起上涨,则它们是正相关的; 然而如果这两只股票以不同的速度上涨,价差将继续增长而不是在均衡时振荡,因此是非平稳的。
收益篇
关于各类策略的收益对比:对比了三种策略
Distance,cointegration和copula函数
Rad, Hossein, Rand Kwong Yew Low, and Robert Faff. “The profitability of pairs trading strategies: distance, cointegration and copula methods.” Quantitative Finance 16.10 (2016): 1541-1558.
从这篇研究文献的对比来看,可以看出在美股方面基于copula函数的策略收益比较差,且一直处于一个比较低的水平,而基于距离和基于协整理论的收益相对较为接近
风险篇
风险:legging risk 从比较难交易的先入手
这里有很多思路:https://www.zhihu.com/question/58031732
统计套利的风险敞口:
单边行情:价格回归的时间都很久
从比较难交易的先下手,也就是从流动性相对更差的先入手,也就是trader们说的legging in。Legging in通常在中低频用的多一些,因为trader总需要或多或少的干预,但也未必尽然。这里多说一句,流动性既要考虑长期的流动性水平,也要考虑短期的流动性冲击。后者一般指的是消息驱动的流动性需求增大,因此通常更难下手,要格外注意。
强平问题:继续向对应方向运动
Python:
backtrader:backtrader 优势在于技术指标,还有业绩评测的很完善,缺点在于元编程的模式不是很好上手
vnpy:比较成熟,在A股,以及CTA框架上利用的比较多,缺点在于效率问题,回测运行的比较慢
关于copula函数的一个包:https://github.com/sdv-dev/Copulas
一些值得一看的文献链接:
【量化课堂】协整的直观认识
一个可以用作协整检验的方法:
计量经济学之格兰杰因果关系检验(Granger causality test)