NLP中常用的集成学习方法

1、Bagging方法

bagging方法采用的是一种个体学习器之间不存在强依赖关系、可同时生成的并行式结果的集成学习方法。

bagging方法主要 基于自助采样法(bootstrap sampling),也叫有放回重采样法.
即给定包含m个样本的数据集,先随机从样本中取出一个样本放入采样集中,再把该样本返回初始数据集,使得下次采样时该样本仍可以被选中,这样,经过m次随机采样操作,就可以得到包含m个样本的采样集,初始数据集中有的样本多次出现,有的则未出现,其中,初始训练集中约有63.2%的样本出现在采样集中。

照上面的方式进行T次操作,采样出T个含有m个训练集的采样集(即有T组训练集),然后基于每个采样集训练出T个基学习器(每个训练集对呀一个基学习器),再将这些基学习器进行结合(投票或者平均),即可得到集成学习器。

在对输出进行预测时,Bagging通常对分类进行简单投票法,对回归使用简单平均法。若出现形同,则任选其一。

NLP中常用的集成学习方法_第1张图片
bagging方法

2、stacking方法

NLP中常用的集成学习方法_第2张图片
stacking方法

首先把整个数据集分成量训练集(Training Data)和测试集(Test Data)两部分。
上图最左边,然后把训练数据集进行k折,此处k=5,即把训练数据分成5份,在进行第j折时,使用其余的四份进行初级学习器的训练,得到一个初级学习器。并用该初始学习器把该折(即留下用来验证的)数据进行预测,进行完所有折数,把预测输出作为新数据集的特征,即次级学习器的训练数据集,其中标记没变,用该新数据集训练次级学习器,从而得到一个完整的stacking。
最后用原始数据的测试集来对该Stacking进行测试评估。

你可能感兴趣的:(NLP中常用的集成学习方法)