机器学习实战:逻辑回归(2)-从疝气病症预测病马的死亡率

1.准备数据:处理数据中的缺失值

可选的做法:

  • 使用可用特征的均值来填补缺失值;
  • 使用特殊值来填补缺失值,如-1;
  • 忽略有缺失值的样本;
  • 使用相似样本的均值添补缺失值;
  • 使用另外的机器学习算法预测缺失值。

我们对要用的数据集进行预处理:

  • 选择实数0来替换所有的缺失值。

       因为更新时不会影响系数。回归系数的更新公式如下:

        如果dataMatrix的某特征对应值为0,那么该特征的系数将不做更新,即: weights=weights

        同时,由于sigmoid(0)=0.5,即它对结果的预测不具有任何倾向性,因此上述做法也不会对            误差项造成任何影响。

  • 若数据集中某些数据类别标签缺失,则直接舍弃这些数据

处理后的数据集下载:horseColicTest.txt和horseColicTraining.txt。

2.测试算法:用Logistic回归进行分类

把测试集上每个特征向量乘以最优化方法 得来的回归系数,再将该乘积结果求和,最后输入到Sigmoid函数中即可。如果对应的Sigmoid值 大于0.5就预测类别标签为1,否则为0。

全部代码为:

import numpy as np

"""
函数说明:sigmoid函数
Parameters:
    inX - 数据
Returns:
    sigmoid函数
"""
def sigmoid(inX):
    return 1.0/(1+np.exp(-inX))


"""
函数说明:改进的随机梯度上升算法
Parameters:
    dataMatrix - 数据数组
    classLabels - 数据标签
    numIter - 迭代次数
Returns:
    weights - 球的的回归系数数组(最优参数)
"""
def stocGradAscent1(dataMatrix,classLabels,numIter):
    m,n = np.shape(dataMatrix)
    weights = np.ones(n)
    for j in range(numIter):
        dataIndex =list(range(m))
        for i in range(m):
            alpha = 4.0/(j+i+1.0) +0.01
            randIndex = int(np.random.uniform(0,len(dataIndex)))
            h = sigmoid(sum(weights*dataMatrix[dataIndex[randIndex]]))
            error = classLabels[dataIndex[randIndex]] - h
            weights = weights+alpha*error*dataMatrix[dataIndex[randIndex]]
            del(dataIndex[randIndex])
    return weights

"""
函数说明:计算对应的sigmoid值
Parameters:
    inX - 数据
    weights - 回归系数
Returns:
    1/0
"""
def classifyVector(inX,weights):
    prob = sigmoid(sum(inX*weights))
    if prob>0.5: return 1.0
    else: return 0.0


"""
函数说明:打开训练集和测试集,并对数据进行格式化处理
Parameters:
    无
Returns:
    errorRate - 错误率
"""
def colicTest():
    frTrain = open('horseColicTraining.txt','r')
    frTest = open('horseColicTest.txt','r')
    # 训练模型
    trainingSet=[]; trainingLabels = []
    for line in frTrain.readlines():
        currntLine = line.strip().split('\t')
        lineArry = []
        for i in range(len(currntLine)-1):
            lineArry.append(float(currntLine[i]))
        trainingSet.append(lineArry)
        trainingLabels.append(float(currntLine[-1]))
    trainingWeights = stocGradAscent1(np.array(trainingSet),trainingLabels,500)
    # 测试模型
    errorCount = 0; numTest = 0.0
    for line in frTest.readlines():
        numTest += 1.0
        currntLine = line.strip().split('\t')
        lineArry = []
        for i in range(len(currntLine)-1):
            lineArry.append(float(currntLine[i]))
        if int(classifyVector(np.array(lineArry),trainingWeights)) != int(currntLine[-1]):
            errorCount += 1
    errorRate = float(errorCount/numTest)*100
    print('分类错误率:%.2f%%'%errorRate)
    return errorRate


"""
函数说明:调用函数colicTest()10次并求结果的平均值
Parameters:
    无
Returns:无
"""
def muliTest():
    numTests = 10; errorSum = 0.0
    for i in range(numTests):
        errorSum += colicTest()
    errorAverage = errorSum/numTests
    print("10次测试结果的平均值:%.2f%%"%errorAverage)

muliTest()

机器学习实战:逻辑回归(2)-从疝气病症预测病马的死亡率_第1张图片

你可能感兴趣的:(机器学习实战,机器学习,逻辑回归,人工智能)