对于adaboost算法的理解

这段时间开始了四月份的量化投资比赛。算是对3月份量投的一个延续。相比于3月份一直在研究的神经网络和支持向量机,这次使用的adaboost算法作为框架来实现smartalpha策略算是一种新的突破。

1.对adaboost算法做一个总结
AdaBoost,是英文”Adaptive Boosting”(自适应增强)的缩写,由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于,前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。
AdaBoost是一种迭代算法,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率。每一个训练样本都被赋予一个权重,表明它被某个分类器选入训练集的概率。如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它被选中的概率就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。
具体流程这里就省略了,在网上都可以搜索到。

2.对smartalpha选股策略的一个总结
粗略的来说,我对smartalpha策略的初步感受是支持向量机和最大熵算法的一个结合。
(1)首先它和svn一样是一个分类器,选择股票池,然后将因子池的数据通过预处理之后带入算法,最终输出分类结果(可以是1、-1)。
(2)而最大熵的思想体现在对股票权值w的迭代训练。

wxil+1=wxileyihi(x)kl

kl=ni=1wxileyihi(x)

kl是为了使每一次迭代股票权重的和均为1。
最大熵模型源于信息论,其思想是:对已知的信息进行建模,对未知的不进行任何假设(Model all that is know and assume nothing about that which is unknow.)而对于股票池中的股票的权值进行的迭代也是运用了这种思想。
(3)对于弱分类器函数的构建,也是有点感受。此次弱分类器函数构建,选择了:
h(x)=12lnw++εw+ε

在机器学习的算法中会经常看到这种类似的公式,或者说经常使用对数函数。我的理解是:首先,这样去对数的函数往往是将一个值处理到(-1,1)的范围,方便观察和简化计算,另外对数函数使得最终得到的所有值的变化趋势放缓,同意也是方便观察和数据处理。
(4)最后,就是我对这次区分度函数的选择的理解:
z=Qj=1w+w

w+代表强势股的权重,w-代表弱势股的权重
而 w+与w-之和为定值。由几何平均值<=算术平均值,即
w+ww++w2

当且仅当w+=w-时取等号,所以说区分度函数z越小,区分度越好。这也就是,我们此次量投sa选股策略选择z函数作为区分度函数的原因。

3.对adaboost不会过拟合的一种粗略有趣思考
有几篇文章都在说adaboost算法有两个特性:
一、训练的错误率上界,随着迭代次数的增加,会逐渐下降
二、adaboost算法即使训练次数很多,也不会出现过拟合的问题。

●对于第一个特性可以利用公式通过计算得到,这里不再提及(网络也可以搜索到)。

●而对于第二个特性,其实用公式和计算对于我们来说还有点抽象难理解。于是我想了一种新的思路来理解为什么adaboost算法不会过拟合。(想法不具有严谨性,但可以在大脑里思考一下这种new idea)(这里采用将adaboost算法与SVN进行对比,我们知道,若SVN处理得不好,会出现过拟合的现象)

(1)
对于adaboost算法的理解_第1张图片
对于如上所示图,将水平方向看成x轴方向,竖直方向看成y轴方向。则可将x轴和y轴看成adaboost算法中的两个因子。且每个因子设定了两个分位数,也就是分成3组。通过adaboost算法的训练,在x轴和y轴方向分别训练出一个弱分类器,最后相加如图所示。adaboost在这个二维平面中,考虑了x、y维点和叉的所有情况,没有再增加多余的限制条件 。

(2)
对于adaboost算法的理解_第2张图片
而SVN训练次数过多以后(过拟合以后),会不断地增加新的约束条件,而这些新增的约束条件是基于训练样本的,这种新的约束条件是一种累赘,会造成过拟合现象。(在图中体现为,阴影部分围成的区域面积要小于adaboost算法中阴影部分围成的区域面积)。

(3)其实对比起来看,觉得adaboost同样有一种最大熵的思想,对已知信息在各个维度(各个因子)下进行约束,而不增加基于训练样本累赘的约束。也就回到了最大熵思想:对已知的信息进行建模,对未知的不进行任何假设。可能正是因为对未知信息不进行任何假设,所以增加训练次数或样本最终不会造成overfitting。

以上便是我对这次sa选股策略方法的一个感受和总结,若读者有任何疑问,欢迎提问,乐于解答。

                              ----------manderous唐

English time:
iteration 迭代
factor 因子
distinction degree区分度
strong stock 强势股
weak stock 弱势股
maxent modeling最大熵模型

你可能感兴趣的:(对于adaboost算法的理解)