数据的预处理是深度学习的关键

传统量化投资的主要工具方法是统计分析。

读过《量化投资:以Python为工具》,据说它是国内最受欢迎的这类书。

当进入数学公式的堆砌、推导章节时,放弃了继续。

最终的选择是 Deep Learning。

深度学习、神经网络的最大优点是:处理数据的算法由模型自动进行,你无需制造计算方法。

但是,你提供的数据必须适合模型的要求。

从Github上找了些现成“系统”观摩学习。直觉的第一感,它们对数据的预处理都不行。

我怀疑,Deep Learning 在量化投资上不太成功的原因之一,是数据预处理的问题。

用现成的深层网络模型,验证了以上看法。

作业是:根据20个交易日的价格变化,预测其后接连3个交易日的价格。

使用A股10年来全部个股的日线数据。

数据不做预处理,10个回合(Epoch)的训练,神经网络的预测准确度约50%;

经过数据预处理,同样10个回合,神经网络的预测准确度升至65%;

训练次数加大一倍,20 回合的预测准确度为 68 %;

训练次数增大到 50 回合,预测准确度为 72.8 %;

100回合的训练,折腾2个半小时,结果是预测准确度 74.3547 %,比50回合提高了约 1.5 %。

看来、极限、瓶颈这种东西是真实的存在。

我用的模型和数据预处理,只能做到近 75% 的准确。

你可能感兴趣的:(量化投资)