对于分类问题,在给定数据集前提下,训练比较粗糙的弱分类器比精确的强分类器容易得多。另外,Schapire证明了强可学习与弱可学习是等价的,因此首先学习简单的弱分类器,并进行组合就可以得到强分类器,这就是组合方法的理论基础。
组合(Ensemble)方法是一种提高分类准确率的方法,是一个由多个弱分类器组合的复合模型,其中每个单个分类器都进行投票,组合分类器返回最终组合的结果,这样分类的结果比单个分类器的结果更准确。
组合分类常见的方式有bagging(套袋)、boosting(提升)、random forest(随机森林)。这些方法使用给定的数据集 D 使用不同的方法创建 k 个训练集 D1,D2...Dk ,对每一个数据集 Di 使用确定的方法创建一个分类器 Mi ,最终组合分类器将学习到的 k 个模型使用不同的方式组合在一起,创建一个复合模型。通过上面的描述,可以发现,组合分类方法的关键点如下:
1. 生成 k 个训练集的方法
2. 每个分类器的训练算法
3. 组合 k 分类器的方式
bagging使用有放回抽样的方式,从训练集中抽取 N 次,形成一个和源数据大小相同的数据集,这样重复进行 k 轮,就可以得到 k 个训练集。由于是有放回抽样,因此原始数据集中有些样本可能不会出现在 Di 中,而有些样本可能出现很多次,一个样本被抽取作为训练集的概率为 1N ,因此不被抽中的为 1−1N ,抽取 N 次都不能被抽中的概率为:
给定训练数据 D={(X1,Y1),(X2,Y2),...(XN,YN)} , Yj∈{+1,−1} 属于二分类问题。初始条件下,赋予每个样本 (Xj,Yj) 相等的权重 w(j)i=1N (下标为训练的轮数,上标为样本标号),也就是数据是均匀分布的。
第 i 轮训练中,得到分类器 Mi ,使用该分类器计算错误率 erri :
根据上述计算,得到了第 i 轮训练时的分类器权重 αi ,因此最终构建分类器的加权和:
AdaBoost是模型为加法模型,学习策略为指数损失函数的经验风险最小化,学习算法为前向分步算法的二分类方法。
加法模型是从前往后,每一轮仅学习一个模型及其系4数,这样逐步逼近最终目标。也就是对应AdaBoost中,每一轮学习一个弱分类器,通过错误率再计算权重 αi 。记第 i−1 轮学习到的模型组合为 fi−1 :
根据上述算法,使用之前的垃圾邮件分类数据进行分类,每个分类器构建的都是一个单节点的决策树,也就是一个树桩,在训练数据集中找出加权错误率最小的一个分割点,然后按照上述方法进行分类器权重计算和每个样本的权值更新。
对数据的每个维度,都要进行查找,在给定维度下,找到最大和最小的数据,每次以给定步骤进行查找,计算错误率,最终找到最佳分割点。具体实现如下:
def findSpliter(ds, labels, weight):
'''find the best spliter for min error rate'''
spliter = {'featIndex': 0, 'thresh': 0, 'cmp': 'le', 'minErr': inf}
cls = None
m,n = ds.shape
steps = 20.0
index = range(n); #random.shuffle(index)
for i in index:
rangeMin = ds[:, i].min(); rangeMax = ds[:, i].max()
step = (rangeMax - rangeMin) / steps
for j in range(-1, int(steps) + 1):
for comp in ['le', 'gt']:
thresh = rangeMin + float(j) * step
splitCls = spliterClassify(ds, i, thresh, comp)
err_i = mat(ones((m, 1)))
err_i[labels == splitCls] = 0
err_rate = sum(err_i.transpose() * weight)
if err_rate < spliter['minErr']:
spliter['minErr'] = err_rate
spliter['featIndex'] = i
spliter['thresh'] = thresh
spliter['cmp'] = comp
cls = splitCls.copy()
return spliter, cls
模型的训练过程就是在给定分类器个数的条件下,每轮寻找最佳分割点构建单节点决策树,同时计算权重 alphai 和样本分布 w ,并进行更新,最后计算出所有基本分类器和权重。
def AdaBoostTrain(ds, labels, maxSteps=200):
weakClassfier = []
alpha = []
savedWeight = []
m,n = ds.shape
weight = mat(zeros((m, 1)))
weight[:,:] = 1.0 / m #initial weight
for i in range(maxSteps):
savedWeight.append(weight)
spliter, cls = findSpliter(ds, labels, weight)
err = spliter['minErr']
alpha_i = 0.5 * log((1 - err) / err)
alpha.append(alpha_i)
weakClassfier.append(spliter)
#update weight
aiYiMi = multiply(-1.0 * alpha_i * labels, cls)
Z = multiply(exp(aiYiMi), weight)
weight = Z / Z.sum()
return weakClassfier, alpha, savedWeight
分类过程就是将训练好的模型对待分类数据进行分类,然后使用训练得到的权重进行加权组合分类结果,最终得到的分类结果由加权组合结果取符号函数得到。实现如下:
def AdaBoostClassify(weak, alpha, ds):
classes = []
for i in range(len(alpha)):
splitCls = spliterClassify(ds, weak[i]['featIndex'], weak[i]['thresh'], weak[i]['cmp'])
cls = splitCls * alpha[i]
classes.append(cls)
predicted = reduce(lambda x,y: x+y, classes)
predicted[predicted >= 0] = 1
predicted[predicted < 0] = -1
return predicted
对垃圾邮件数据进行实际训练和分类,最终得到了训练集和测试集的错误率,并绘制了结果图如下所示:
从图中可以看出,随着基本分类器个数的增加,测试集错误率先减小,得到最小错误率后逐步增大,这正是欠拟合和过拟合的表现,最终需要选择分类器个数为30时的泛化误差最小。