数据挖掘十大算法(七):AdaBoost python和sklearn实现

这里主要记录AdaBoost的(原理、一个代码示例、ROC曲线、sklearn实现)等四个方面。

原理:

AdaBoost算法属于一种迭代算法,它的核心思想是针对同一训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强大的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。与随机森林相似。

AdaBoost是属于boosting中的一种算法。bagging和boosting是两种集成方法,在bagging中是通过随机取样的方法从原数据中得到与原数据规模一样的数据集来获取弱分类器;boosting更进一步,它在数据集上顺序应用了多个不同分类器,如前面说的利用上一个弱分类器的准确率和权重来调整数据,获得下一个分类器。

所以AdaBoost的原理也比较简单,就是通过一些手段获得多个弱分类器,将它们集成起来构成强分类器,综合所有分类器的预测得出最终的结果。这里的弱分类器可以使用任意的分类器如:K-NN分类器、朴素贝叶斯分类器、决策树分类器、logistic回归分类器等等,作为弱分类器,简单分类器的效果更好。在下面的代码中使用的就是单层决策树作为弱分类器。

代码示例:

在代码前补充一些知识:

    错误率:未正确样本数 / 所有样本数

        \varepsilon = \frac{error}{all}

    alpha:每个弱分类器一个权重值α,基于该分类器错误率来计算α

        \alpha = \frac{1}{2}ln(\frac{1-\varepsilon}{\varepsilon })

    权重向量D:每个样本初始化一个权重值,构成向量D,使用α不断更新D到下一个分类器

        D_{i}^{i+1} = \frac{D_{i}^{i}e^{-\alpha }}{sum(D)}

该分类器权重向量D和预测情况 决定了下一个弱分类器的情况,所以这里的三个值是迭代过程中变化的要点。下面看代码示例。

样例数据来自机器学习实战的预测病马疝气病存活率):

数据挖掘十大算法(七):AdaBoost python和sklearn实现_第1张图片

from numpy import *
import matplotlib.pyplot as plt

# 加载数据集
def loadDataSet(fileName):
    numFeat = len(open(fileName).readline().split('\t'))
    dataMat = []
    labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = []
        curLine = line.strip().split('\t')
        for i in range(numFeat - 1):
            lineArr.append (float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))
    return dataMat, labelMat

# 返回分类预测结果  根据阈值所以有两种返回情况
def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):
    retArray = ones((shape(dataMatrix)[0], 1))
    if threshIneq == 'lt':
        retArray[dataMatrix[:, dimen] <= threshVal] = -1.0
    else:
        retArray[dataMatrix[:, dimen] > threshVal] = -1.0
    return retArray

# 返回 该弱分类器单层决策树的信息  更新D向量的错误率 更新D向量的预测目标
def buildStump(dataArr, classLabels, D):
    dataMatrix = mat(dataArr)
    labelMat = mat(classLabels).T
    m, n = shape(dataMatrix)
    numSteps = 10.0
    bestStump = {}      # 字典用于保存每个分类器信息
    bestClasEst = mat(zeros((m, 1)))
    minError = inf  # 初始化最小误差最大
    for i in range(n):  # 特征循环  (三层循环,遍历所有的可能性)
        rangeMin = dataMatrix[:, i].min()
        rangeMax = dataMatrix[:, i].max()
        stepSize = (rangeMax - rangeMin) / numSteps  #(大-小)/分割数  得到最小值到最大值需要的每一段距离
        for j in range(-1, int(numSteps) + 1):  # 遍历步长 最小值到最大值的需要次数
            for inequal in ['lt', 'gt']:  # 在大于和小于之间切换
                threshVal = (rangeMin + float(j) * stepSize)    #最小值+次数*步长  每一次从最小值走的长度
                predictedVals = stumpClassify(dataMatrix, i, threshVal,
                                              inequal)  # 最优预测目标值  用于与目标值比较得到误差
                errArr = mat(ones((m, 1)))
                errArr[predictedVals == labelMat] = 0
                weightedError = D.T * errArr
                if weightedError < minError:    # 选出最小错误的那个特征
                    minError = weightedError    # 最小误差 后面用来更新D权值的
                    bestClasEst = predictedVals.copy()  #最优预测值

                    bestStump['dim'] = i    # 特征
                    bestStump['thresh'] = threshVal # 到最小值的距离 (得到最优预测值的那个距离)
                    bestStump['ineq'] = inequal     # 大于还是小于 最优距离为-1
    return bestStump, minError, bestClasEst

# 循环构建numIt个弱分类器
def adaBoostTrainDS(dataArr, classLabels, numIt=40):
    weakClassArr = []               # 保存弱分类器数组
    m = shape(dataArr)[0]
    D = mat(ones((m, 1)) / m)       # D向量 每条样本所对应的一个权重
    aggClassEst = mat(zeros((m, 1)))    # 统计类别估计累积值
    for i in range(numIt):
        bestStump, error, classEst = buildStump(dataArr, classLabels, D)
        alpha = float(0.5 * log((1.0 - error) / max(error, 1e-16)))
        bestStump['alpha'] = alpha
        weakClassArr.append(bestStump)  # 加入单层决策树

        # 得到运算公式中的向量+/-α,预测正确为-α,错误则+α。每条样本一个α
        # multiply对应位置相乘  这里很聪明,用-1*真实目标值*预测值,实现了错误分类则-,正确则+
        expon = multiply(-1 * alpha * mat(classLabels).T, classEst)
        D = multiply(D, exp(expon))         # 这三步为更新概率分布D向量 拆分开来了,每一步与公式相同
        D = D / D.sum()

        #计算停止条件错误率=0 以及计算每次的aggClassEst类别估计累计值
        aggClassEst += alpha * classEst
        # 很聪明的计算方法 计算得到错误的个数,向量中为1则错误值
        aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T, ones((m, 1))) # sign返回数值的正负符号,以1、-1表示
        errorRate = aggErrors.sum() / m # 错误个数/总个数
        # print("错误率:", errorRate)
        if errorRate == 0.0:
            break
    return weakClassArr, aggClassEst

# 预测 累加 多个弱分类器获得预测值*该alpha 得到 结果
def adaClassify(datToClass, classifierArr):     #classifierArr是元组,所以在取值时需要注意
    dataMatrix = mat(datToClass)
    m = shape(dataMatrix)[0]
    aggClassEst = mat(zeros((m, 1)))
    # 循环所有弱分类器
    for i in range(len(classifierArr[0])):
        # 获得预测结果
        classEst = stumpClassify(dataMatrix, classifierArr[0][i]['dim'],classifierArr[0][i]['thresh'],classifierArr[0][i]['ineq'])
        # 该分类器α*预测结果 用于累加得到最终的正负判断条件
        aggClassEst += classifierArr[0][i]['alpha'] * classEst  # 这里就是集合所有弱分类器的意见,得到最终的意见
    return sign(aggClassEst)    # 提取数据符号

datArr,labelArr = loadDataSet('horseColicTraining2.txt')
classifierArr = adaBoostTrainDS(datArr,labelArr,15)

testArr,testLabelArr = loadDataSet('horseColicTest2.txt')
prediction10 = adaClassify(testArr,classifierArr)
errArr = mat(ones((67,1)))    # 一共有67个样本
cnt = errArr[prediction10 != mat(testLabelArr).T].sum()
print(cnt/67)

得出错误率为20%,这里的代码量稍多,但很多都是数据的转换,核心步骤就前面提到的几步,按着顺序来也不难理解。

ROC曲线:

上面的代码使用错误率来衡量分类器任务的成功程度,事实上,这样的度量错误掩盖了样例如何被分错的事实。有关分类器性能度量指标这个问题可以先参考这篇具体文章了解以下基础知识,这里不说太多直接画出ROC曲线来参考。

下面的代码加入上面即可运行:

def plotROC(predStrengths, classLabels):    # 类别累计值、目标标签
    cur = (1.0, 1.0)  # 每次画线的起点游标点
    ySum = 0.0  # 用于计算AUC的值 矩形面积的高度累计值
    numPosClas = sum(array(classLabels) == 1.0)     # 所有真实正例    确定了在y坐标轴上的步进数目
    yStep = 1 / float(numPosClas)                           # 1/所有真实正例 y轴上的步长
    xStep = 1 / float(len(classLabels) - numPosClas)        # 1/所有真实反例 x轴上的步长
    sortedIndicies = predStrengths.argsort()  # 获得累计值向量从小到大排序的下表index [50,88,2,71...]
    fig = plt.figure()
    fig.clf()
    ax = plt.subplot(111)
    # 循环所有的累计值 从小到大
    for index in sortedIndicies.tolist()[0]:
        if classLabels[index] == 1.0:
            delX = 0                    #若为一个真正例,则沿y降一个步长,即不断降低真阳率;
            delY = yStep                #若为一个非真正例,则沿x退一个步长,尖笑阳率
        else:
            delX = xStep
            delY = 0
            ySum += cur[1]      #向下移动一次,则累计一个高度。宽度不变,我们只计算高度
        ax.plot([cur[0], cur[0] - delX], [cur[1], cur[1] - delY], c='b')    # 始终会有一个点是没有改变的
        cur = (cur[0] - delX, cur[1] - delY)
    ax.plot([0, 1], [0, 1], 'b--')
    plt.xlabel('False positive rate')
    plt.ylabel('True positive rate')
    plt.title('ROC curve for AdaBoost horse colic detection system')
    ax.axis([0, 1, 0, 1])
    plt.show()
    print("the Area Under the Curve is: ", ySum * xStep)  # AUC面积我们以 高*低 的矩形来计算

datArr,labelArr = loadDataSet('horseColicTraining2.txt')
classifierArray,aggClassEst = adaBoostTrainDS(datArr,labelArr,10)
plotROC(aggClassEst.T,labelArr)

数据挖掘十大算法(七):AdaBoost python和sklearn实现_第2张图片

ROC曲线的一个重要参考指标是它的曲线下方面积(一般在0.5-1之间):

sklearn实现AdaBoost:

理解了AdaBoost的实现原理和底层代码,到底可能我们还是需要一种更简化的方法来实现它,提高编码效率,下面简单介绍sikit-learn工具实现AdaBoost。

最简代码:

from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import cross_val_score

datArr,labelArr = loadDataSet('horseColicTraining2.txt')  # 这里使用了上面获取数据的函数得到数据集和目标变量
clf = AdaBoostClassifier(n_estimators=10)    # 指定10个弱分类器
label = array(labelArr)
scores = cross_val_score(clf,mat(datArr),label) # 模型 数据集 目标变量
print(scores.mean())

由于sklearn实现AdaBoost其中调参是很重要的一步,这里仅仅是写下一个主要流程,可以根据此处,通过优化、适应真实环境来完善代码。

可以参考官方文档:http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html

了解该模型参数的意义以及详细方法。

 

最后说一句,在过程中一定需要注意过拟合问题。

 

参考书籍:《机器学习实战》

你可能感兴趣的:(数据挖掘算法,机器学习实战)