深度学习之利用卷积神经网络预测股票走势

卷积神经网络项目是我在华泰实习的过程中做的一个项目,主要是用卷积神经网络来预测股票的走势,现在对项目做一个总结。

报告详情:

【华泰金工林晓明团队】人工智能选股之卷积神经网络——华泰人工智能系列之十五

测试流程包含如下步骤:

深度学习之利用卷积神经网络预测股票走势_第1张图片

数据获取:

a)股票池:全A股。剔除ST股票,剔除每个截面期下一交易日停牌的股票,剔除上市3个月内的股票,每只股票视作一个样本。

b)回测区间:2011年1月31日至2019年1月31日。

特征和标签提取:每个自然月的最后一个交易日,计算82个因子暴露度,作为样本的原始特征,因子池如图表13和图表14所示。计算下一整个自然月的个股超额收益(以沪深300指数为基准),对于分类模型,选取下月收益排名前30%的股票作为正例(y = 1),后30%的股票作为负例(y = 0),作为样本的标签。对于回归模型,使用下个月的超额收益作为标签。

特征预处理和二维数据生成

a)中位数去极值:设第T期某因子在所有个股上的暴露度序列为 Di,DM为该序列中位数,DM1为序列|Di-DM|的中位数,则将序列Di中所有大于DM+5DM1的数重设为DM+5DM1,将序列Di中所有小于DM-5DM1的数重设为DM+5DM1;

b)缺失值处理:得到新的因子暴露度序列后,将因子暴露度缺失的地方设为中信一级行业相同个股的平均值;

c)行业市值中性化:将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归,取残差作为新的因子暴露度;

d)标准化:将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差,得到一个新的近似服从N(0, 1)分布的序列。

e)要使用卷积神经网络,需要提供二维的特征数据,我们按照图表3的形式,将某只股票多个截面期的因子数据组织成类似于图片的二维数据,总共82行(对应82个因子),5列(对应5个截面期),这样在每个月截面上,就可以得到上千张“股票图片”。

滚动训练集和验证集的合成:由于月度滚动训练模型的时间开销较大,本文采用年度滚动训练方式,全体样本内外数据共分为九个阶段,如下图所示。例如预测2011年时,将2005-2010年共72个月数据合并作为样本内数据集;预测T年时,将T-6至T-1年的72个月合并作为样本内数据。

样本内训练:使用卷积神经网络对训练集进行训练。

交叉验证调参:随机取10%样本内的数据作为验证集,在训练的同时观察卷积神经网络在验证集上的表现,当验证集上的loss达到最小时,停止训练。

样本外测试:确定最优参数后,以T月末截面期所有样本预处理后的特征作为模型的输入,得到每个样本的预测值f(x)。将预测值视作合成后的因子,进行单因子分层回测。

模型评价:我们以分层回测和构建选股策略的结果作为模型评价标准。
深度学习之利用卷积神经网络预测股票走势_第2张图片

你可能感兴趣的:(机器学习,深度学习)