集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。
只要单分类器的表现不太差,集成学习的结果总是要好于单分类器的
目标:把下面的圈和方块进行分类
实现过程:
2)训练分类器
3)平权投票,获取最终结果
4)主要实现过程小结
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
随机森林 = Bagging + 决策树
例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True
随机森林够造过程中的关键步骤(M表示特征数目):
1)一次随机选出一个样本,有放回的抽样,重复N次(有可能出现重复的样本)
2) 随机去选出m个特征, m <
在随机森林构造过程中,如果进行有放回的抽样,我们会发现,总是有一部分样本我们选不到。
随机森林的 Bagging 过程,对于每一颗训练出的决策树 gt ,与数据集 D 有如下关系:
g*1 | g*2 | g*3 | …… | g**T* | |
---|---|---|---|---|---|
((x1,y1) | D*1 | * | D*3 | D**T* | |
(x2,y2) | * | * | D*3 | D**T* | |
(x3,y3) | * | D*2 | * | D**T* | |
…… | |||||
(xN,yN) | D1 | D*2 | * | * |
对于星号的部分,即是没有选择到的数据,称之为 Out-of-bag(OOB)数据,当数据足够多,对于任意一组数据 (xn, yn) 是包外数据的概率为:
由于基分类器是构建在训练样本的自助抽样集上的,只有约 63.2% 原样本集出现在中,而剩余的 36.8% 的数据作为包外数据,可以用于基分类器的验证集。
经验证,包外估计( Out-of-Bag Estimate)是对集成分类器泛化误差的无偏估计.
在随机森林算法中数据集属性的重要性、分类器集强度和分类器间相关性计算都依赖于袋外数据。
sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)
n_estimators:integer,optional(default = 10)森林里的树木数量120,200,300,500,800,1200
Criterion:string,可选(default =“gini”)
max_depth:integer或None,可选(默认=无)
max_features="auto”,每个决策树的最大特征数量
max_features=sqrt(n_features)
.max_features=sqrt(n_features)
(same as “auto”).max_features=log2(n_features)
.max_features=n_features
.bootstrap:boolean,optional(default = True)
min_samples_split 内部节点再划分所需最小样本数
min_samples_leaf 叶子节点的最小样本数
这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝, 默认是1。
叶是决策树的末端节点。 较小的叶子使模型更容易捕捉训练数据中的噪声。
一般来说,我更偏向于将最小叶子节点数目设置为大于50。
min_impurity_split: 节点划分最小不纯度
这个值限制了决策树的增长,如果某节点的不纯度(基于基尼系数,均方差)小于这个阈值,则该节点不再生成子节点。即为叶子节点 。
一般不推荐改动默认值1e-7。
上面决策树参数中最重要的包括
# 随机森林去进行预测
rf = RandomForestClassifier()
param = {"n_estimators": [120,200,300,500,800,1200], "max_depth": [5, 8, 15, 25, 30]}
# 超参数调优
gc = GridSearchCV(rf, param_grid=param, cv=2)
gc.fit(x_train, y_train)
print("随机森林预测的准确率为:", gc.score(x_test, y_test))
注意
- 随机森林的建立过程
- 树的深度、树的个数等需要进行超参数调优
Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法
经过上面方式组成的集成学习方法:
奥托集团是世界上最大的电子商务公司之一,在20多个国家设有子公司。该公司每天都在世界各地销售数百万种产品,所以对其产品根据性能合理的分类非常重要。
不过,在实际工作中,工作人员发现,许多相同的产品得到了不同的分类。本案例要求,你对奥拓集团的产品进行正确的分类。尽可能的提供分类的准确性。
链接:https://www.kaggle.com/c/otto-group-product-classification-challenge/overview
本案例中,最后结果使用多分类对数损失进行评估。
上公式中,
随着学习的积累从弱到强
简而言之:每新加入一个弱学习器,整体能力就会得到提升
代表算法:Adaboost,GBDT,XGBoost,LightGBM
1.训练第一个学习器
2.调整数据分布
3.训练第二个学习器
4.再次调整数据分布
5.依次训练学习器,调整数据分布
6.整体过程实现
步骤一:初始化训练数据权重相等,训练第一个学习器。
该假设每个训练样本在基分类器的学习中作用相同,这一假设可以保证第一步能够在原始数据上学习基本分类器H1(x)
步骤二:AdaBoost反复学习基本分类器,在每一轮m=1,2,…,M 顺次的执行下列操作:
步骤三:对m个学习器进行加权投票
如何确认投票权重?
如何调整数据分布?
给定下面这张训练数据表所示的数据,假设弱分类器由xv产生,其阈值v使该分类器在训练数据集上的分类误差率最低,试用Adaboost算法学习一个强分类器。
问题解答:
步骤一:初始化训练数据权重相等,训练第一个学习器:
D 1 = ( w 11 , w 12 , . . . , w 110 , ) D 1 =(w 11 ,w 12 ,...,w 110 ,) D1=(w11,w12,...,w110,)
w 1 i = 0.1 , i = 1 , 2 , . . . , 10 w 1i =0.1,i=1,2,...,10 w1i=0.1,i=1,2,...,10
步骤二:AdaBoost反复学习基本分类器,在每一轮m=1,2,…,M顺次的执行下列操作:
当m=1的时候:
(a)在权值分布为D1的训练数据上,阈值v取2.5时分类误差率最低,故基本分类器为:
6,7,8被分错
(b)计算该学习器在训练数据中的错误率:
ε 1 = P ( h 1 ( x 1 ) ≠ y 1 ) = 0.3 ε 1 =P(h 1 (x 1 )≠y 1 )=0.3 ε1=P(h1(x1)=y1)=0.3
(c)计算该学习器的投票权重:
(d)根据投票权重,对训练数据重新赋权:
D 2 = ( w 21 , w 22 , . . . , w 210 , ) D 2 =(w 21 ,w 22 ,...,w 210 ,) D2=(w21,w22,...,w210,)
根据下公式,计算各个权重值
经计算得,D2的值为:
D 2 = ( 0.07143 , 0.07143 , 0.07143 , 0.07143 , 0.07143 , 0.07143 , 0.16667 , 0.16667 , 0.16667 , 0.07143 ) D 2 =(0.07143,0.07143,0.07143,0.07143,0.07143,0.07143,0.16667,0.16667,0.16667,0.07143) D2=(0.07143,0.07143,0.07143,0.07143,0.07143,0.07143,0.16667,0.16667,0.16667,0.07143)
计算过程:
H_1(x)=sign[0.4236h_1(x)]H1(x)=sig**n[0.4236h1(x)]
分类器H1(x)在训练数据集上有3个误分类点。
当m=2的时候:
(a)在权值分布为D2的训练数据上,阈值v取8.5时分类误差率最低,故基本分类器为:
3,4,5被分错
(b)计算该学习器在训练数据中的错误率:
ε 2 = P ( h 2 ( x 2 ) ≠ y 2 ) = 0.2143 \varepsilon _2 = P(h_2(x_2)\neq y_2)=0.2143 ε2=P(h2(x2)=y2)=0.2143
(c)计算该学习器的投票权重:
(d)根据投票权重,对训练数据重新赋权:
经计算得,D3的值为:
D 3 = ( 0.0455 , 0.0455 , 0.0455 , 0.1667 , 0.1667 , 0.1667 , 0.1060 , 0.1060 , 0.1060 , 0.0455 ) D 3 =(0.0455,0.0455,0.0455,0.1667,0.1667,0.1667,0.1060,0.1060,0.1060,0.0455) D3=(0.0455,0.0455,0.0455,0.1667,0.1667,0.1667,0.1060,0.1060,0.1060,0.0455)
H 2 ( x ) = s i g n [ 0.4236 h 1 ( x ) + 0.6496 h 2 ( x ) ] H 2 (x)=sign[0.4236h 1 (x)+0.6496h 2 (x)] H2(x)=sign[0.4236h1(x)+0.6496h2(x)]
分类器H2(x)在训练数据集上有3个误分类点。
当m=3的时候:
(a)在权值分布为D3的训练数据上,阈值v取5.5时分类误差率最低,故基本分类器为:
(b)计算该学习器在训练数据中的错误率:
ε 3 = 0.1820 \varepsilon _3 = 0.1820 ε3=0.1820
(c)计算该学习器的投票权重:
α 3 = 0.7514 α 3 =0.7514 α3=0.7514
(d)根据投票权重,对训练数据重新赋权:
经计算得,D2的值为:
D 4 = ( 0.125 , 0.125 , 0.125 , 0.102 , 0.102 , 0.102 , 0.065 , 0.065 , 0.065 , 0.125 ) D 4 =(0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,0.065,0.125) D4=(0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,0.065,0.125)
H 3 ( x ) = s i g n [ 0.4236 h 1 ( x ) + 0.6496 h 2 ( x ) + 0.7514 h 3 ( x ) ] H 3 (x)=sign[0.4236h 1 (x)+0.6496h 2 (x)+0.7514h 3 (x)] H3(x)=sign[0.4236h1(x)+0.6496h2(x)+0.7514h3(x)]
分类器H3(x)在训练数据集上的误分类点个数为0。
步骤三:对m个学习器进行加权投票,获取最终分类器
H 3 ( x ) = s i g n [ 0.4236 h 1 ( x ) + 0.6496 h 2 ( x ) + 0.7514 h 3 ( x ) ] H 3 (x)=sign[0.4236h 1 (x)+0.6496h 2 (x)+0.7514h 3 (x)] H3(x)=sign[0.4236h1(x)+0.6496h2(x)+0.7514h3(x)]
GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升树,在传统机器学习算法中,GBDT算的上TOP3的算法。
想要理解GBDT的真正意义,那就必须理解GBDT中的Gradient Boosting 和Decision Tree分别是什么?
首先,GBDT使用的决策树是CART回归树,无论是处理回归问题还是二分类以及多分类,GBDT使用的决策树通通都是都是CART回归树。
对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。
在分类树中最佳划分点的判别标准是熵或者基尼系数,都是用纯度来衡量的,但是在回归树中的样本标签是连续数值,所以再使用熵之类的指标不再合适,取而代之的是平方误差,它能很好的评判拟合程度。
梯度提升树(Grandient Boosting)是提升树(Boosting Tree)的一种改进算法,所以在讲梯度提升树之前先来说一下提升树。
先来个通俗理解:假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。最后将每次拟合的岁数加起来便是模型输出的结果。
提升树算法:
(1)初始化:
f 0 ( x ) = 0 f 0 (x)=0 f0(x)=0
(2)对m=1,2,…,M
(a)计算残差
: r m i = y i − f m − 1 ( x ) , i = 1 , 2 , . . . , N :r_{mi}=y_i-f_{m-1}(x),i=1,2,...,N :rmi=yi−fm−1(x),i=1,2,...,N
(b)拟合残差rmi 学习一个回归树,得到
h m ( x ) hm(x) hm(x)
(3)得到回归问题提升树:
f M ( x ) = ∑ m = 1 M h m ( x ) ( x ) f_M(x)=\sum_{m=1}^Mh_m(x) (x) fM(x)=m=1∑Mhm(x)(x)
上面伪代码中的残差是什么?
在提升树算法中,
假设我们前一轮迭代得到的强学习器是:
f t − 1 ( x ) f_{t-1}(x) ft−1(x)
损失函数是:
L ( y , f t − 1 ( x ) ) L(y,f t−1 (x)) L(y,ft−1(x))
我们本轮迭代的目标是找到一个弱学习器:
h t ( x ) h_t(x) ht(x)
最小化让本轮的损失:
L ( y , f t ( x ) ) = L ( y , f t − 1 ( x ) + h t ( x ) ) L(y,f_t(x))=L(y,f_{t-1}(x)+h_t(x)) L(y,ft(x))=L(y,ft−1(x)+ht(x))
当采用平方损失函数时:
回到我们上面讲的那个通俗易懂的例子中,第一次迭代的残差是10岁,第二 次残差4岁,
当损失函数是平方损失和指数损失函数时,梯度提升树每一步优化是很简单的,但是对于一般损失函数而言,往往每一步优化起来不那么容易。
针对这一问题,Friedman提出了梯度提升树算法,这是利用最速下降的近似方法,其关键是利用损失函数的负梯度作为提升树算法中的残差的近似值。
那么负梯度长什么样呢?
此时我们发现GBDT的负梯度就是残差,所以说对于回归问题,我们要拟合的就是残差。
那么对于分类问题呢?
本文以回归问题为例进行讲解。
上面两节分别将Decision Tree和Gradient Boosting介绍完了,下面将这两部分组合在一起就是我们的GBDT了。
GBDT算法:
(2)对m=1,2,…,M有:
根据如下数据,预测最后一个样本的身高。
编号 | 年龄(岁) | 体重(kg) | 身高(m)(标签值) |
---|---|---|---|
0 | 5 | 20 | 1.1 |
1 | 7 | 30 | 1.3 |
2 | 21 | 70 | 1.7 |
3 | 30 | 60 | 1.8 |
4(要预测的) | 25 | 65 | ? |
(1)初始化弱学习器:
损失函数为平方损失,因为平方损失函数是一个凸函数,直接求导,倒数等于零,得到c。
令导数等于0
所以初始化时,c取值为所有训练样本标签值的均值。
c = ( 1.1 + 1.3 + 1.7 + 1.8 ) / 4 = 1.475 c=(1.1+1.3+1.7+1.8)/4=1.475 c=(1.1+1.3+1.7+1.8)/4=1.475
此时得到初始学习器f0(x):
f 0 ( x ) = c = 1.475 f 0 (x)=c=1.475 f0(x)=c=1.475
(2)对迭代轮数m=1,2,…,M:
由于我们设置了迭代次数:n_trees=5,这里的M=5。
计算负梯度,根据上文损失函数为平方损失时,负梯度就是残差,再直白一点就是 y与上一轮得到的学习器fm-1的差值:
残差在下表列出:
编号 | 真实值 | f*0(*x) | 残差 |
---|---|---|---|
0 | 1.1 | 1.475 | -0.375 |
1 | 1.3 | 1.475 | -0.175 |
2 | 1.7 | 1.475 | 0.225 |
3 | 1.8 | 1.475 | 0.325 |
此时将残差作为样本的真实值来训练弱学习器f1(x),即下表数据
编号 | 年龄(岁) | 体重(kg) | 标签值 |
---|---|---|---|
0 | 5 | 20 | -0.375 |
1 | 7 | 30 | -0.175 |
2 | 21 | 70 | 0.225 |
3 | 30 | 60 | 0.325 |
接着,寻找回归树的最佳划分节点,遍历每个特征的每个可能取值。
从年龄特征的5开始,到体重特征的70结束,分别计算分裂后两组数据的平方损失(Square Error),
SEl左节点平方损失,SEr右节点平方损失,找到使平方损失和:
S E s u m = S E l + S E r SE sum =SE l +SE r SEsum=SEl+SEr
最小的那个划分节点,即为最佳划分节点。
例如:以年龄21为划分节点,将小于21的样本划分为到左节点,大于等于21的样本划分为右节点。左节点包括x0, x1 ,右节点包括样本x2, x3,
S E l = 0.02 , S E r = 0.005 , S E s u m = 0.025 , SE l =0.02,SE r =0.005,SE sum =0.025, SEl=0.02,SEr=0.005,SEsum=0.025,
S E l = [ − 0.375 − ( − 0.275 ) ] 2 + [ − 0.175 − ( − 0.275 ) ] 2 = 0.02 SE l =[−0.375−(−0.275)] 2 +[−0.175−(−0.275)] 2 =0.02 SEl=[−0.375−(−0.275)]2+[−0.175−(−0.275)]2=0.02
S E r = [ 0.225 − 0.275 ] 2 + [ 0.325 − 0.275 ] 2 = 0.005 SE r =[0.225−0.275] 2 +[0.325−0.275] 2 =0.005 SEr=[0.225−0.275]2+[0.325−0.275]2=0.005
所有可能划分情况如下表所示:
|
以上划分点是的总平方损失最小为0.025有两个划分点:年龄21和体重60,所以随机选一个作为划分点,这里我们选 年龄21 现在我们的第一棵树长这个样子:
我们设置的参数中树的深度max_depth=3,现在树的深度只有2,需要再进行一次划分,这次划分要对左右两个节点分别进行划分:
对于左节点,只含有0,1两个样本,根据下表我们选择年龄7划分
划分点 | 小于划分点的样本 | 大于等于划分点的样本 | SE_lSEl | SE_rSEr | SE_{sum}SEsum |
---|---|---|---|---|---|
年龄5 | / | 0,1 | 0 | 0.02 | 0.02 |
年龄7 | 0 | 1 | 0 | 0 | 0 |
体重20 | / | 0,1 | 0 | 0.02 | 0.02 |
体重30 | 0 | 1 | 0 | 0 | 0 |
对于右节点,只含有2,3两个样本,根据下表我们选择年龄30划分(也可以选体重70)
划分点 | 小于划分点的样本 | 大于等于划分点的样本 | SE_lSEl | SE_rSEr | SE_{sum}SEsum |
---|---|---|---|---|---|
年龄21 | / | 2,3 | 0 | 0.005 | 0.005 |
年龄30 | 2 | 3 | 0 | 0 | 0 |
体重60 | / | 2,3 | 0 | 0.005 | 0.005 |
体重70 | 3 | 2 | 0 | 0 | 0 |
现在我们的第一棵树长这个样子:
此时我们的树深度满足了设置,还需要做一件事情,给这每个叶子节点分别赋一个参数 r ,来拟合残差。
这里其实和上面初始化学习器是一个道理,平方损失,求导,令导数等于零,化简之后得到每个叶子节点的参数 r ,其实就是标签值的均值。这个地方的标签值不是原始的 y,而是本轮要拟合的标残差 y - f0(x).
根据上述划分结果,为了方便表示,规定从左到右为第1,2,3,4个叶子结点
此时的树长这个样子:
此时可更新强学习器,需要用到参数学习率:learning_rate=0.1,用 lr 表示。
为什么要用学习率呢?这是Shrinkage的思想,如果每次都全部加上(学习率为1)很容易一步学到位导致过拟合。
结果中,0.9倍这个现象,和其学习率有关。这是因为数据简单每棵树长得一样,导致每一颗树的拟合效果一样,而每棵树都只学上一棵树残差的0.1倍,导致这颗树只能拟合剩余0.9了。
(3)得到最后的强学习器:
(4)预测样本:
最终预测结果:
f ( x ) = 1.475 + 0.1 ∗ ( 0.225 + 0.2025 + 0.1823 + 0.164 + 0.1476 ) = 1.56714 f(x)=1.475+0.1∗(0.225+0.2025+0.1823+0.164+0.1476)=1.56714 f(x)=1.475+0.1∗(0.225+0.2025+0.1823+0.164+0.1476)=1.56714
GBDT算法原理【知道】
(2)对m=1,2,…,M有:
(b)将上步得到的残差作为样本新的真实值,并将数据
( x i , r i m ) , i = 1 , 2 , . . N (x i ,r im ),i=1,2,..N (xi,rim),i=1,2,..N
作为下棵树的训练数据,得到一颗新的回归树fm(x)其对应的叶子节点区域为
R j m , j = 1 , 2 , . . . , J R jm ,j=1,2,...,J Rjm,j=1,2,...,J
其中J为回归树t的叶子节点的个数。
…(img-MzcO5A5j-1667053529812)]
结果中,0.9倍这个现象,和其学习率有关。这是因为数据简单每棵树长得一样,导致每一颗树的拟合效果一样,而每棵树都只学上一棵树残差的0.1倍,导致这颗树只能拟合剩余0.9了。
(3)得到最后的强学习器:
[外链图片转存中…(img-Key532hz-1667053529812)]
(4)预测样本:
最终预测结果:
f ( x ) = 1.475 + 0.1 ∗ ( 0.225 + 0.2025 + 0.1823 + 0.164 + 0.1476 ) = 1.56714 f(x)=1.475+0.1∗(0.225+0.2025+0.1823+0.164+0.1476)=1.56714 f(x)=1.475+0.1∗(0.225+0.2025+0.1823+0.164+0.1476)=1.56714
GBDT算法原理【知道】
(1)初始化弱学习器[外链图片转存中…(img-Ua3dbsNF-1667053529813)]
(2)对m=1,2,…,M有:
(a)对每个样本i=1,2,…,N,计算负梯度,即残差[外链图片转存中…(img-gdBav0QZ-1667053529813)]
(b)将上步得到的残差作为样本新的真实值,并将数据
( x i , r i m ) , i = 1 , 2 , . . N (x i ,r im ),i=1,2,..N (xi,rim),i=1,2,..N
作为下棵树的训练数据,得到一颗新的回归树fm(x)其对应的叶子节点区域为
R j m , j = 1 , 2 , . . . , J R jm ,j=1,2,...,J Rjm,j=1,2,...,J
其中J为回归树t的叶子节点的个数。
(c)对叶子区域j=1,2,…J计算最佳拟合值[外链图片转存中…(img-XejKn5B3-1667053529813)]
(d)更新强学习器[外链图片转存中…(img-HjZFtq8Z-1667053529814)]