【视频】量化交易陷阱和R语言改进股票配对交易策略分析中国股市投资组合

全文链接：http://tecdat.cn/?p=22034

原文出处：拓端数据部落公众号

计算能力的指数级增长，以及量化社区（日益增长的兴趣使量化基金成为投资者蜂拥而至的最热门领域。

量化交易涵盖了相当广泛的交易策略（从大数据分析到高频交易）。出于本文的目的，我们将重点关注量化分析和数据科学，因为它们被不同类型的交易者广泛使用。

根据我们在量化交易方面的经验，在构建量化交易策略时有几个主要陷阱：

了解统计/概率。
模型实现。
策略回测/模拟。
风险管理。

理解统计和概率

统计分析是数据科学和量化交易的基础。当我们分析数据（尤其是时间序列）时，如果我们对统计/概率（和统计概念）没有很好的理解，我们很容易陷入各种陷阱。

正态分布

到目前为止，正态分布的假设是我们在金融资产动态建模方面所能做出的最弱假设。关于金融资产时间序列的正态性假设已经发表了许多论文，但是，由于缺乏更好的选择，我们使用高斯（正态）分布，因为它使我们能够很容易地分析数据。知道“正态性”的假设是弱的，我们应该以同样的方式对待正态分布的性质（即偏斜收益、肥尾）。假设收益的分布将落在钟形曲线之下，当收益出现 3+ 个标准差时，通常会导致巨大的意外。

正如我们所理解的，“正态性”有时可能是一个弱假设，我们可以使用已实现的分布（采用不同的时间框架）并查看它如何符合正态分布，因此我们可以评估资产的回报分布有多正常.

模型实现

在我们了解了统计分析中可能存在的陷阱之后，我们转向交易的核心——我们的模型。虽然在实施我们的模型/策略时有很多方法可能会失败，但我们将专注于我们可能犯的最常见（也是最关键）的错误。避免这些陷阱将大大有助于确保我们模型的适应性和稳健性。

过拟合/欠拟合

模型拟合既是一门艺术，也是一门科学。在拟合我们的模型时，我们需要在模型过拟合和模型欠拟合之间找到一条细线。这两种偏差最有可能导致我们模型的性能不佳。

_过拟合——_当我们的模型在捕捉动态时非常精确时会导致过拟合。通常过拟合模型会涉及到相对大量的解释变量。

_欠_拟合-欠拟合是过拟合的镜像问题。当模型太简单（变量太少）时会导致欠拟合，这使得它在捕捉动态时不灵活。

USDJPY 1 周 RVol 与 UDSJPY 1 个月 RVol 回归。

在拟合模型时，我们的目标是使用最少的变量，但具有最大的预测能力。其背后的想法是，我们希望将模型校准到最低限度，同时拥有一个能够产生稳健结果的模型。我们添加的变量越多，我们需要进行的校准就越多，它能够快速应对不断变化的市场的能力就越差。

异常值处理

无论我们喜欢与否，异常值观察都是我们数据系列的一部分。我们不能忽略这些异常值，但是，我们需要知道如何处理它们，这样我们的模型才不会因极端观察而出现偏差。显然，我们需要区分异常值的类型——如果我们发现观察明显是错误的（数据错误），我们可以删除它，但是，如果它是有效的观察，我们应该接受它并让我们的模型处理它。

模型模拟

现在我们已经有了一个基于稳健统计/数据分析的健全模型，我们希望对历史（或生成的）数据进行回测（或模拟）。这是我们模型开发的关键部分，因为这是我们可以看到（和分析）我们的模型在受控环境中如何表现的关键。尽管在这个阶段犯错误的方法更少（与之前的阶段相比），但这些错误可能会付出高昂的代价，因为我们将无法发现模型的弱点（或问题）。

测试不同的市场区制状态

当我们构建模型时，我们希望它在 100% 的时间内表现良好。不幸的是，这几乎是不可能的，因为不同的策略将在不同的市场区制中表现良好（想想波动市场中的趋势跟踪策略）。我们可以确定模型表现不佳的点。为了让我们识别这些弱点，我们应该在不同的市场区制下测试我们的策略（区制转换模型是识别这些区制的好方法）