python实现基于SVM算法的手写数字识别系统 非常详细!!!!

一家懂得用细节留住客户的3年潮牌老店我必须支持!➕:luyao1931

python实现基于SVM算法的手写数字识别系统 非常详细!!!!_第1张图片

实验知识点:

1、支持向量机SVM相关知识
2、从文本文件中解析和导入数据
3、SMO分类算法
4、归一化数值

SVM算法概述:

支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类(binary classification)的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面。
优点:泛化错误率低,计算开销不大,结果易解释
缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。
适用数据类型:数值型和标称型数据。

SVM的一般流程:

1、 收集数据:提供文本文件
2、 准备数据:基于二值图像构造向量
3、 分析数据:对图像进行目测
4、 训练算法:采用两种不同的核函数,并对径向基核函数采用不同的设置来运行SMO算法
5、 测试算法:编写一个函数来测试不同核函数并计算错误率
6、 使用算法:几乎所有分类问题都可以使用SVM,SVM本身是一个二类分类器,对多类问题应用SVM需要对代码做一些修改

实验步骤:

1、 SOM算法中的辅助函数:

#SNMO算法中的辅助函数
def loadDataSet(fileName):

    """
    loadDataSet(对文件进行逐行解析,从而得到每行的类标签和整个数据矩阵)

    Args:
        fileName 文件名
    Returns:
        dataMat  数据矩阵
        labelMat 类标签
    """

    dataMat = []
    labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = line.strip().split('\t')
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return dataMat, labelMat

def selectJrand(i, m):
    """
    随机选择一个整数
    Args:
        i  第一个alpha的下标
        m  所有alpha的数目
    Returns:
        j  返回一个不为i的随机数,在0~m之间的整数值
    """
    j = i
    while (j == i):
        j = int(random.uniform(0, m))
    return j

# 调整alpha值
def clipAlpha(aj, H, L):
    """clipAlpha(调整aj的值,使aj处于 L<=aj<=H)
    Args:
        aj  目标值
        H   最大值
        L   最小值
    Returns:
        aj  目标值
    """
    if aj > H:
        aj = H
    if L > aj:
        aj = L
return aj

2、完整的Platt SMO的支持函数:

# begin 完整版Platt SMO支持函数
class optStruct:
    def __init__(self, dataMatIn, classLabels, C, toler):
        self.X = dataMatIn
        self.labelMat = classLabels
        self.C = C
        self.tol = toler
        self.m = shape(dataMatIn)[0]
        self.alphas = mat(zeros((self.m, 1)))
        self.b = 0
        self.eCache = mat(zeros((self.m, 2)))# 第一列是有效标志位,第二列是E值

#EK计算较多,所以单独拎出来
def calcEk(oS, k):
    """calcEk(求 Ek误差:预测值-真实值的差)

    该过程在完整版的SMO算法中陪出现次数较多,因此将其单独作为一个方法
    Args:
        oS  optStruct对象
        k   具体的某一行

    Returns:
        Ek  预测结果与真实结果比对,计算误差Ek
    """
    # fXk = float(multiply(oS.alphas, oS.labelMat).T * (oS.X * oS.X[k, :].T)) + oS.b
    fXk = float(multiply(oS.alphas, oS.labelMat).T * oS.K[:, k] + oS.b)
    Ek = fXk - float(oS.labelMat[k])
    return Ek

#在选择第2个alphas参数时(也就是进行SMO的内循环时),不再是随机选择,而是选择最长步长的那个(就是选择|E_i-Ej|最大的)
def selectJ(i, oS, Ei):
    """selectJ(返回最优的j和Ej)

       内循环的启发式方法。
       选择第二个(内循环)alpha的alpha值
       这里的目标是选择合适的第二个alpha值以保证每次优化中采用最大步长。
       该函数的误差与第一个alpha值Ei和下标i有关。
       Args:
           i   具体的第i一行
           oS  optStruct对象
           Ei  预测结果与真实结果比对,计算误差Ei

       Returns:
           j  随机选出的第j一行
           Ej 预测结果与真实结果比对
           ,计算误差Ej
       """

    maxK = -1
    maxDeltaE = 0
    Ej = 0
    # 首先将输入值Ei在缓存中设置成为有效的。这里的有效意味着它已经计算好了。
    oS.eCache[i] = [1, Ei]
    # 非零E值的行的list列表,所对应的alpha值
    validEcacheList = nonzero(oS.eCache[:, 0].A)[0]
    if (len(validEcacheList)) > 1:
        for k in validEcacheList:   # 在所有的值上进行循环,并选择其中使得改变最大的那个值
            if k == i: continue  # don't calc for i, waste of time如果j=i直接跳过
            Ek = calcEk(oS, k)  # 求 Ek误差:预测值-真实值的差
            deltaE = abs(Ei - Ek)
            if (deltaE > maxDeltaE):
                maxK = k    #get max j下标
                maxDeltaE = deltaE  #get max j's deltaE
                Ej = Ek
        return maxK, Ej
    else:     # 如果是第一次循环,则随机选择一个alpha值
        j = selectJrand(i, oS.m)
        Ej = calcEk(oS, j)  # 求 Ek误差:预测值-真实值的差
    return j, Ej

#更新错误率Ek
def updateEk(oS, k):
    """updateEk(计算误差值并存入缓存中。)

     在对alpha值进行优化之后会用到这个值。
     Args:
         oS  optStruct对象
         k   某一列的行号
     """
    #求误差:预测值-真实值的差
    Ek = calcEk(oS, k)
    oS.eCache[k] = [1, Ek]
# end 完整版Platt SMO支持函数

3、完整Platt SMO算法中的优化例程:

# 完整Platt SMO优化例程
def innerL(i, oS):
    """innerL
    内循环代码
    Args:
        i   具体的某一行
        oS  optStruct对象

    Returns:
        0   找不到最优的值
        1   找到了最优的值,并且oS.Cache到缓存中
    """
    # 求 Ek误差:预测值-真实值的差
    Ei = calcEk(oS, i)
    # 约束条件 (KKT条件是解决最优化问题的时用到的一种方法。我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值)
    # 0<=alphas[i]<=C,但由于0C是边界值,我们无法进行优化,因为需要增加一个alphas和降低一个alphas。
    # 表示发生错误的概率:labelMat[i]*Ei 如果超出了 toler, 才需要优化。至于正负号,我们考虑绝对值就对了。
    if ((oS.labelMat[i] * Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or (
            (oS.labelMat[i] * Ei > oS.tol) and (oS.alphas[i] > 0)):
        # 选择最大的误差对应的j进行优化。效果更明显
        j, Ej = selectJ(i, oS, Ei)  #这里在选择j处进行了优化
        alphaIold = oS.alphas[i].copy()
        alphaJold = oS.alphas[j].copy()

        # LH用于将alphas[j]调整到0-C之间。如果L==H,就不做任何改变,直接return 0
        if (oS.labelMat[i] != oS.labelMat[j]):
            L = max(0, oS.alphas[j] - oS.alphas[i])
            H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i])
        else:
            L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C)
            H = min(oS.C, oS.alphas[j] + oS.alphas[i])
        if L == H: print("L==H"); return 0
        # eta = 2.0 * oS.X[i, :] * oS.X[j, :].T - oS.X[i, :] * oS.X[i, :].T - oS.X[j, :] * oS.X[j, :].T
        # eta是alphas[j]的最优修改量,如果eta==0,需要退出for循环的当前迭代过程
        eta = 2.0 * oS.K[i, j] - oS.K[i, i] - oS.K[j, j]
        if eta >= 0: print("eta>=0"); return 0
        # 计算出一个新的alphas[j]值
        oS.alphas[j] -= oS.labelMat[j] * (Ei - Ej) / eta
        # 并使用辅助函数,以及LH对其进行调整
        oS.alphas[j] = clipAlpha(oS.alphas[j], H, L)
        updateEk(oS, j)   # 更新误差缓存
        # 检查alpha[j]是否只是轻微的改变,如果是的话,就退出for循环。
        if (abs(oS.alphas[j] - alphaJold) < 0.00001):
            print("j not moving enough")
            return 0
        # 然后alphas[i]和alphas[j]同样进行改变,虽然改变的大小一样,但是改变的方向正好相反
        oS.alphas[i] += oS.labelMat[j] * oS.labelMat[i] * (alphaJold - oS.alphas[j])
        # 更新误差缓存
        updateEk(oS, j)
        # b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i, :] * oS.X[i, :].T - oS.labelMat[j] * (
        #    oS.alphas[j] - alphaJold) * oS.X[i, :] * oS.X[j, :].T
        # b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i, :] * oS.X[j, :].T - oS.labelMat[j] * (
        #     oS.alphas[j] - alphaJold) * oS.X[j, :] * oS.X[j, :].T
        b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, i] - oS.labelMat[j] * (
                oS.alphas[j] - alphaJold) * oS.K[i, j]
        b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, j] - oS.labelMat[j] * (
                oS.alphas[j] - alphaJold) * oS.K[j, j]
        if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]):
            oS.b = b1
        elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]):
            oS.b = b2
        else:
            oS.b = (b1 + b2) / 2.0
        return 1
    else:
        return 0

4、完整Platt SMO的外循环代码

# 完整版Platt SMO 外循环代码
def smoP(dataMatIn, classLabels, C, toler, maxIter, kTup=('lin', 0)):
    """
    完整SMO算法外循环,与smoSimple有些类似,但这里的循环退出条件更多一些
    Args:
        dataMatIn    数据集
        classLabels  类别标签
        C   松弛变量(常量值),允许有些数据点可以处于分隔面的错误一侧。
            控制最大化间隔和保证大部分的函数间隔小于1.0这两个目标的权重。
            可以通过调节该参数达到不同的结果。
        toler   容错率
        maxIter 退出前最大的循环次数
    Returns:
        b       模型的常量值
        alphas  拉格朗日乘子
    """
    # 创建一个 optStruct 对象
    oS = optStruct(mat(dataMatIn), mat(classLabels).transpose(), C, toler, kTup)
    iter = 0    # 迭代次数的初始化
    entireSet = True    # 违反 KKT 条件的标志符
    alphaPairsChanged = 0   # 迭代中优化的次数

    # 循环遍历:循环maxIter次 并且 (alphaPairsChanged存在可以改变 or 所有行遍历一遍)
    # 循环迭代结束 或者 循环遍历所有alpha后,alphaPairs还是没变化
    '''
    外层循环首先遍历所有满足0C范围内的alpha,即在间隔边界上的支持向量点,
    检验它们是否满足KKT条件。如果这些样本点都满足KKT条件,那么遍历整个训练集,检验它们是否满足KKT条件。
    '''
    # 优化的终止条件:在规定迭代次数下,是否遍历了整个样本或 alpha 是否优化
    while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)):
        alphaPairsChanged = 0
        #  当entireSet=true or 非边界alpha对没有了;就开始寻找 alpha对,然后决定是否要进行elseif entireSet:
            for i in range(oS.m):   # 在数据集上遍历所有的alpha
                alphaPairsChanged += innerL(i, oS)   # 是否存在alpha对,存在就+1
            print("fullSet, iter: %d i %d, pairs changed %d" % (iter, i, alphaPairsChanged))
            iter += 1
        # 对已存在 alpha对,选出非边界的alpha值,进行优化。
        else:
            # 遍历所有的非边界alpha值,也就是不在边界0C上的值。
            nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]
            for i in nonBoundIs:
                alphaPairsChanged += innerL(i, oS)
                print("non-bound, iter: %d i %d, pairs changed %d" % (iter, i, alphaPairsChanged))
            iter += 1

        # 如果找到alpha对,就优化非边界alpha值,否则,就重新进行寻找,如果寻找一遍 遍历所有的行还是没找到,就退出循环。
        if entireSet:
            entireSet = False
        elif (alphaPairsChanged == 0):
            entireSet = True
        print("iteration number: %d" % iter)
return oS.b, oS.alphas

5、核转换函数:

# 核转换函数
def kernelTrans(X, A, kTup):
    m, n = shape(X)
    K = mat(zeros((m, 1)))
    if kTup[0] == 'lin':
        K = X * A.T
    elif kTup[0] == 'rbf':
        for j in range(m):
            deltaRow = X[j, :] - A
            K[j] = deltaRow * deltaRow.T
        K = exp(K / (-1 * kTup[1] ** 2))
    else:
        raise NameError('Houson We Have a Problem-- That Kernel is not recognzed')
    return K


class optStruct:
    def __init__(self, dataMatIn, classLabels, C, toler, kTup):
        self.X = dataMatIn
        self.labelMat = classLabels
        self.C = C
        self.tol = toler
        self.m = shape(dataMatIn)[0]
        self.alphas = mat(zeros((self.m, 1)))
        self.b = 0
        self.eCache = mat(zeros((self.m, 2)))
        self.K = mat(zeros((self.m, self.m)))
        for i in range(self.m):
            self.K[:, i] = kernelTrans(self.X, self.X[i, :], kTup)

6、利用核函数进行分类的径向基测试函数:

# 利用核函数进行分类的径向基测试函数
def testRbf(k1=1.3):
    dataArr, labelArr = loadDataSet('testSetRBF.txt')
    b, alphas = smoP(dataArr, labelArr, 200, 0.0001, 10000, ('rbf', k1))
    datMat = mat(dataArr)
    labelMat = mat(labelArr).transpose()
    svInd = nonzero(alphas.A > 0)[0]
    sVs = datMat[svInd]
    labelSV = labelMat[svInd]
    print("there are %d Support Vectors" % shape(sVs)[0])
    m, n = shape(datMat)
    errorCount = 0
    for i in range(m):
        kernelEval = kernelTrans(sVs, datMat[i, :], ('rbf', k1))
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]): errorCount += 1
    print("the training error rate is: %f" % (float(errorCount) / m))
    dataArr, labelArr = loadDataSet('testSetRBF2.txt')
    errorCount = 0
    datMat = mat(dataArr)
    labelMat = mat(labelArr).transpose()
    m, n = shape(datMat)
    for i in range(m):
        kernelEval = kernelTrans(sVs, datMat[i, :], ('rbf', k1))
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]): errorCount += 1
print("the test error rate is: %f" % (float(errorCount) / m))

7、 基于SVM的手写数字识别

#基于SVM的手写数字识别
def loadImages(dirName):
    from os import listdir
    hwLabels = []
    # 将所有子文件名存放在一个列表中
    trainingFileList = listdir(dirName)
    # 统计子文件个数
    m = len(trainingFileList)
    # 初始化训练数据矩阵
    trainingMat = zeros((m, 1024))
    # 遍历每个子文件
    for i in range(m):
        # 获得子文件名如'0_2.txt'
        fileNameStr = trainingFileList[i]
        # 用'.'将上面获得的字符串切分为2部分,取前面部分'0_2'
        fileStr = fileNameStr.split('.')[0]
        # 用'_'将上面获得的字符串切分为2部分,取前面部分'0'且强转为int型得到类标签
        classNumStr = int(fileStr.split('_')[0])
        if classNumStr == 9:
            hwLabels.append(-1)
        else:
            hwLabels.append(1)
        # 将每幅图像转化为一个1*1024的列向量存放在trainingMat中
        trainingMat[i, :] = img2vector('%s/%s' % (dirName, fileNameStr))
    return trainingMat, hwLabels


def testDigits(kTup=('rbf', 50)):
    dataArr, labelArr = loadImages('trainingDigits')
    b, alphas = smoP(dataArr, labelArr, 200, 0.0001, 10000, kTup)
    datMat = mat(dataArr)
    labelMat = mat(labelArr).transpose()
    svInd = nonzero(alphas.A > 0)[0]
    sVs = datMat[svInd]
    labelSV = labelMat[svInd]
    print('RBF,50')
    print("一共有 %d 个支持向量" % shape(sVs)[0])
    m, n = shape(datMat)
    errorCount = 0
    for i in range(m):
        kernelEval = kernelTrans(sVs, datMat[i, :], kTup)
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]):
            errorCount += 1
    print("训练误差率为: %f" % (float(errorCount) / m))
    dataArr, labelArr = loadImages('testDigits')
    errorCount = 0
    datMat = mat(dataArr)
    labelMat = mat(labelArr).transpose()
    m, n = shape(datMat)
    for i in range(m):
        kernelEval = kernelTrans(sVs, datMat[i, :], kTup)
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]): errorCount += 1
    print("测试错误率为 :%f" % (float(errorCount) / m))

if __name__ == '__main__':
    print("L和H用于将alphas[j]调整到0-C之间。如果L==H,就不做任何改变,直接return 0。\n输出'L==H'")
    print("检查alpha[j]是否只是轻微的改变,如果是的话,就退出for循环。\n输出'j not moving enough'\n")
print(testDigits())

8、 测试结果:
python实现基于SVM算法的手写数字识别系统 非常详细!!!!_第2张图片
9、尝试不同的6值,不同6值的手写数字识别性能:
python实现基于SVM算法的手写数字识别系统 非常详细!!!!_第3张图片python实现基于SVM算法的手写数字识别系统 非常详细!!!!_第4张图片

三、KNN与SVM比较

  • 相同点:两者都是比较经典的机器学习分类算法,都属于监督学习算法,都对机器学习的算法选择有着重要的理论依据。

- 区别:
   1. KNN对每个样本都要考虑。SVM是要去找一个函数把达到样本可分。
   2.朴素的KNN是不会去自助学习特征权重的,SVN的本质就是在找权重。
3. KNN不能处理样本维度太高的东西,SVM处理高纬度数据比较优秀。
4. KNN计算复杂度高,但是需要调的参比较小,SVM需要训练过程,预测效率高。

- 怎么选择使用二者呢?
   1.选择KNN的场景:
   a.准确度不需要精益求精。
   b.样本不多。
   c.样本不能一次性获取。智能随着时间一个个得到。
   2.选择SVM的场景:
   a.需要提高正确率。
   b.样本比较多。
c.样本固定,并且不会随着时间变化。

感谢大家的阅读,有什么问题评论留言,测试数据可扫上面二维码关注小编私发!

你可能感兴趣的:(Date,mining)