《机器学习技法》第七讲:Blending and Bagging

第七讲:Blending and Bagging


1、Motivation of Aggregation(融合的动机)


《机器学习技法》第七讲:Blending and Bagging_第1张图片

恰当的融合可以得到更好的表现
《机器学习技法》第七讲:Blending and Bagging_第2张图片

2、Uniform Blending(平均融合)

分类
《机器学习技法》第七讲:Blending and Bagging_第3张图片

回归
《机器学习技法》第七讲:Blending and Bagging_第4张图片

理论分析:
    所有误差g的平均  >=  平均的误差G
    但是最好的误差g是否比平均的误差G不知道。
《机器学习技法》第七讲:Blending and Bagging_第5张图片


演算法的平均表现 = 个别与共识的差距(variance) + 共识的表现(bias)
平均的过程:消除个别与共识的差距,从而得到更稳定的表现
《机器学习技法》第七讲:Blending and Bagging_第6张图片


3、Linear Blending(线性融合)

线性融合  = 线性模型 + g当作转换 +条件(a>=0)
《机器学习技法》第七讲:Blending and Bagging_第7张图片

条件(a>=0)这一项可以去除,当a<=0时表示这一项起反效果。
《机器学习技法》第七讲:Blending and Bagging_第8张图片

Linear Blending在Selection时候:
应该通过 Eval而不是Ein;
相应的在Dval上验证的模型应该是g-而不是g(若是选择g,因为这些model在Ddata上训练,Ddata=Dtrain+Dval,所以相当于见过Dval,可能会过拟合)
《机器学习技法》第七讲:Blending and Bagging_第9张图片

《机器学习技法》第七讲:Blending and Bagging_第10张图片


linear Blending 和 any Blending OR Stacking(non-linear):
通过在Dtrain上训练一批模型g-,然后在Dval上验证找出最好的alpha,但是最后返回的模型是alpha和g。
《机器学习技法》第七讲:Blending and Bagging_第11张图片

例举了台大在2011 KDDCup通过Blending拿到冠军的故事,说明Blending确实很有效如果不惜计算量的话。
《机器学习技法》第七讲:Blending and Bagging_第12张图片

4、Bagging(Bootstrap Aggregation)


blending:在得到g后融合。
learning:一边学到g一边融合起来
g是如何得到的呢?
模型的不同、参数的不同、算法随机性的不同、数据随机性的不同
《机器学习技法》第七讲:Blending and Bagging_第13张图片


很多g的共识比单一g好,但是手上没有大量的数据产生不同的g。
boostrapping的思想:从手上有限的数据模拟出不同的数据。
《机器学习技法》第七讲:Blending and Bagging_第14张图片


boostrapping:从N个数据中有放回随机采样N(或少于N)次,每次采样1个样本。意味着同一个数据可能被采样多次。
boostrap aggregation(BAGging):建立在base算法上的meta算法。
《机器学习技法》第七讲:Blending and Bagging_第15张图片


例子:由25条Bagging Pocket产生的线融合得到的一个效果还可以的分类线。
如果base算法对数据随机性敏感的话,Bagging 会得到不错的效果。
《机器学习技法》第七讲:Blending and Bagging_第16张图片

练习:boostrap过程有NN情形产生,里面有N!种会是原来数据的排列组合
《机器学习技法》第七讲:Blending and Bagging_第17张图片
《机器学习技法》第七讲:Blending and Bagging_第18张图片

你可能感兴趣的:(机器学习技法)