研报复现初探—华泰金工人工智能选股系列之boosting模型

上一篇文章对于华泰金工人工智能选股系列之随机森林模型进行了复现的初探。实际上随机森林模型本身是bagging这一集成学习算法在决策树中的应用,其本质是对训练集的样本进行bootstrap随机抽样n次,建立n棵决策树,让森林中的每一棵树对测试集的新样本进行预测投票,票多者胜(分类问题)或是取均值(回归问题)。

由此可知随机森林的n个分类器是并行的,而boosting与bagging不同,boosting中的分类器的生成是串行的,由第一个分类器的拟合结果生成第二个分类器,依次类推。其实质是一种迭代算法。

常见的Adaboost的迭代是对训练集中的样本的权重进行迭代更新。即每一次拟合的损失函数都根据上一个模型拟合结果的好坏赋予新的权重。对于分类问题来说,错分类的样本将在下一轮拟合的损失函数中赋予更高的权重,以期在下一轮拟合中提高准确率。回归问题思路类似。最终将迭代产生的多个分类器按其表现效果加权得出结果。

而GBDT则是将上一轮拟合的残差作为新的被解释变量,迭代生成下一个模型。最终将迭代的若干个模型线性加总。其结果就是所得模型会不断的降低训练集的误差。

本文将沿用上一篇文章所使用的数据,对研报内容进行复现的尝试。

1.调参和交叉验证:

调参与交叉验证选择了语言包相同的参数进行调整,最终所选参数与研报一致。

2.回测:

选择了模型打分最优的前若干只股票等权配置,月初调仓,结果如下。
研报复现初探—华泰金工人工智能选股系列之boosting模型_第1张图片
研报复现初探—华泰金工人工智能选股系列之boosting模型_第2张图片
研报复现初探—华泰金工人工智能选股系列之boosting模型_第3张图片
研报复现初探—华泰金工人工智能选股系列之boosting模型_第4张图片
值得一提的是,xgboost不仅在回测中表现优于随机森林,在运行速度上远超后者。

另外,xgboost与随机森林在每月选股的重合度上大致约为40%。

你可能感兴趣的:(研报复现,机器学习,xgboost,量化交易,研报复现,多因子选股)