机器学习中，有哪些特征选择的工程方法？

文章来自Ricequant实习生江嘉健，转载需授权

最近一段时间，我们米筐科技量化策略研究团队在自己的策略研究平台上，做了一些量化分析方面的特征工程和特征选择研究。关于它们在量化交易中的应用，我可以分享一下我们团队的经验。

首先，追本溯源，为什么特征工程和特征选择值得讨论？在实际的数据分析和建模中，我们通常要面对两种情况：1 数据集中已有的特征变量不够多，或者已有的特征变量不足以充分表征数据的特点；2 我们拥有大量的特征，需要判断出哪些是相关特征，哪些是不相关特征。特征工程解决的是第一个问题，而特征选择解决的是第二个问题。

对于特征工程来说，它的的难点在于找到好的思路，来产生能够表征数据特点的新特征变量；而特征选择的难点则在于，其本质是一个复杂的组合优化问题（combinatorial optimization）。例如，如果有 30 个特征变量，当我们进行建模的时候，每个特征变量有两种可能的状态：“保留”和“被剔除”。那么，这组特征维度的状态集合中的元素个数就是2的30次方。更一般地，如果我们有 N 个特征变量，则特征变量的状态集合中的元素个数就是2的N次方。因此，从算法角度讲，通过穷举的方式进行求解的时间复杂度是指数级的。当 N 足够大时，特征筛选将会耗费大量的时间和计算资源（图1）。在实际应用中，为了减少运算量，目前特征子集的搜索策略大都采用贪心算法（greedyalgorithm），其核心思想是在每一步选择中，都采纳当前条件下最好的选择，从而获得组合优化问题的近似最优解。

图1：通过穷举法求解特征选择问题的二叉树表示。状态集合中元素的个数随特征变量数目增加而呈现指数增长。

目前很多流行的机器学习的材料，都未能给出特征工程和特征选择的详细论述。其主要原因是，大部分机器学习算法有标准的推导过程，因而易于讲解。但是在很多实际问题中，寻找和筛选特征变量并没有普适的方法。然而，特征工程和特征选择对于分析结果的影响，往往比之后的机器学习模型的选择更为重要。斯坦福大学教授，Coursera上著名的机器学习课程主讲老师Andrew Ng就曾经表示：“基本上，所谓机器学习应用，就是进行特征工程。”

在特征工程和特征选择的在量化交易的应用方面，我们试图回答以下两个问题：

1 如何对沪深300指数进行特征工程？

2如何尽可能减少数据，以及算法本身的局限性给特征选择带来的负面影响？

接下来，就以上两个问题，不揣浅陋，我分享一些我们团队的经验和思考。

1沪深300指数的特征工程

在量化分析中，常见的因子大致可以分为四类：

（1）量价因子，例如成交量，收盘价等；

（2）基本面因子，例如市盈率，所属行业等；

（3）技术分析因子，例如MACD, DIF等；

（4）宏观经济因子（或称外部响应因子），例如利率，各个季度的经济数据等。

1970年，尤金法马（Eugene Fama）提出了有效市场理论，认为证券资产价格包含一切的市场信息。这就是量价因子能够反映市场特征的根本依据。对于一个非有效市场而言，我们认为，量价因子甚至可能更为重要：任何人根据非公开信息进行交易，其交易信息仍然会反映在量价因子中。类似的观点更接近于有效市场理论的强假设版本：市场上一切公开或非公开的信息，都会反映在资产的价格中。

基于这个思路，在四类因子中，我们首先尝试对量价因子实现特征工程。2015年，在一篇名为《WorldQuant Formulaic 101 Alphas》的研究报告中，以数据挖掘能力而闻名业界的对冲基金WorldQuant LLC给出了他们的 101 个阿尔法的数学表达式。在报告中，这些阿尔法表达式被分为了趋势追随，均值回归和混合型三种。既然这 101 个阿尔法表达式在实践中被证明行之有效，且对应明确的市场意义（趋势，反转和混合），在特征工程研究中，我们使用报告中的变换方法和阿尔法表达式为基础，构造了60 个特征变量，用于下一步的机器学习建模。这 60 个特征变量的构建过程，可参看我们第二份报告的附录2。

2集成特征打分器 (Ensemble Feature Grader, EFG)

如上所述，特征选择的本质上是求解一个计算量随特征变量个数呈指数增长的组合优化问题。基于不同的子集搜索和评价标准，不同的方法给出的都只是一个近似最优解，而解的合理性也将受方法本身的局限性所影响。因此，为了系统化地进行特征选择，获得更为合理的相关特征变量子集，在这里我们借鉴机器学习里面的集成学习（ensemble learning）的思想，提出一个集成特征打分器（以下称EFG)。在这个打分器中，我们使用了八种方法（Pearson 相关系数，距离相关系数，简单线性回归，基于AIC的Lasso回归，基于BIC的Lasso回归，随机森林，循环特征剔除和岭回归）对特征变量分别进行打分，并进而计算其总得分，以尽量减少数据和单一特征选择方法引起的问题，进而改善特征选择的效果。

我们进一步使用了 Frideman 训练集对 EFG 进行测试。这个训练集中包含非线性相关项，噪音项，权重不同的线性相关项和引起多重共线性的项，基本上囊括了实际数据处理中可能出现的主要问题，而 EFG 的测试表现令人满意。有兴趣的朋友，可以参看我们第二份研究报告附录1，了解详细的测试过程和结果。

在实际建模中，我们使用 EFG 对上一步获得的 60 个特征变量进行打分，筛选出 14 个得分较高的特征变量，并以此进行了聚类分析。我们发现两个聚类所对应的不同收益率分布，其中第一个聚类所包含的交易日，其下一个交易日的收益率的均值明显高于第二个聚类所对应的均值。基于这个结果，我们实现了一个基准择时策略。其思路是，如果一个交易日和聚类1的距离较近，我们就进行买入；离聚类2较近，则不进行交易。下午为该策略的累计收益率（图2），其表现明显好于长期持有沪深300指数相关的资产。

图2：使用 EFG 进行特征选择后累积收益率曲线计算：(a)沪深300指数；(b) 在聚类1包含的交易日进行交易；(c) 在聚类2包含的交易日进行交易

以上就是我们在利用机器学习算法进行金融量化分析中的经验和尝试。关于下笔为文，古人有一句真知灼见：“结字因时而变，运笔千秋不易。” 对于数据分析和建模来说，道理也不外如是。计算机理论和机器学习算法的发展，使得数据分析和建模成为了这个时代的显学。目前，用

R 或者 Python 等高级编程语言实现一个复杂的模型，所需的可能就是区区几十行代码。但是自问自心，我们是否能够真的对于数据和模型做得了如指掌？是否能保证当模型出现问题时，我们能知其所以然？在一个足够长的时间维度内，我们认为，在数据建模和量化交易中能够出类拔萃的人，始终应该保持着对数据和算法全面，准确，深刻的理解和思考。

概而言之，拨开数据的重重迷雾，理解和预测复杂多变的金融市场，即使不考虑其物质回报，其过程本身也令人着迷。我们走上了这条荆棘丛生，又有壮丽风光的旅途，乐于体认这个过程中一切的艰辛和甘甜。希望我们这里所叙述的经验和思考，也对你有所启发。

研究报告链接：

https://zhuanlan.zhihu.com/p/21337419

https://zhuanlan.zhihu.com/p/21406355

枕书达旦，以争朝夕，与君共勉。

机器学习中，有哪些特征选择的工程方法？

你可能感兴趣的:(机器学习中，有哪些特征选择的工程方法？)