《机器学习实战》阅读笔记(三)

接上篇

2.2.3准备数据:归一化数值

由于数值较大的值会产生较大的影响,所以需要归一化,公式如下:

newValue=(oldValue-min)/(max-min)

归一化函数如下

def autoNorm(dataSet):
    minVals=dataSet.min(0)
    maxVals=dataSet.max(0)
    ranges=maxVals-minVals
    normDataSet=zeros(shape(dataSet))
    m=dataSet.shape[0]
    normDataSet=dataSet-tile(minVals,(m,1))
    normDataSet=normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minVals

在交互式界面

>>> from numpy import *
>>> import kNN
>>> datingDataMat,datingLabels=kNN.file2matrix('datingTestSet2.txt')
>>> normMat,ranges,minVals=kNN.autoNorm(datingDataMat)
>>> normMat

2.2.4测试算法:作为完整程序验证分类器

用已有数据的90%作为训练样本,剩余10%去测试分类器,检验分类器的正确率。10%的样本是随机选择的。

def datingClassTest():
    hoRatio=0.10
    datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
    normMat,ranges,minVals=autoNorm(datingDataMat)
    m=normMat.shape[0]
    numTestVecs=int(m*hoRatio)
    errorCount=0.0
    for i in range(numTestVecs):
        classifierResult=classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print("the classifier came back with: %d,the real answer is %d" %(classifierResult,datingLabels[i]))
        if (classifierResult !=datingLabels[i]):errorCount+=1.0
        print("the total error rate is: %f" %(errorCount/float(numTestVecs)))

测试函数如上,其中遇到了两个问题,一是我用的python3,所以print()要加括号,否则会报错;二是https://blog.csdn.net/tao_627/article/details/44274543

2.2.5 使用算法:构建完整可用系统

def classifyPerson():
    resultList=['not at all','in small doses','in large doses']
    percentTats=float(input("percentage of time spent playing vedio games?"))
    ffMiles=float(input("frequent filer miles earns per year?"))
    iceCream=float(input("liters of ice cream consumed per year?"))
    datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
    normMat,ranges,minVals=autoNorm(datingDataMat)
    inArr=array([ffMiles,percentTats,iceCream])
    classifierResult=classify0((inArr-minVals)/ranges,normMat,datingLabels,3)
    print("You will probably like the person:%s"%resultList[classifierResult-1])

还是要注意print(),python3把raw_input()改为了input()

约会内容到此结束了~

2.3示例:手写识别系统

步骤:

1.收集数据:提供文本文件

2.准备数据:编写函数classify0(),将图像格式转化为分类器使用的list格式。

3.分析数据:在python命令提示符中检查数据,确保它符合要求。

4.训练算法:此步骤不适用于k近邻算法。

5.测试算法:编写函数使用提供的部分数据集作为测试样本,测试样本与非测试样本的区别在于测试样本是已经完成分类的数据,如果预测分类与实际类别不同,则标记为一个错误。

6.使用算法:本例没有完成此步骤。

2.3.1准备数据:将图像转化为测试向量

def img2Vector(filename):
    returnVect=zeros((1,1024))
    fr=open(filename)
    for i in range(32):
        lineStr=fr.readline()
        for j in range(32):
            returnVect[0,32*i+j]=int(lineStr[j])
    return returnVect

2.3.2测试算法:使用k近邻算法识别手写数字

def handwritingClassTest():
    hwLabels=[]
    trainingFileList=listdir('trainingDigits')
    m=len(trainingFileList)
    trainingMat=zeros((m,1024))
    for i in range(m):
        fileNameStr=trainingFileList[i]
        fileStr=fileNameStr.split('.')[0]
        classNumStr=int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:]=img2Vector('trainingDigits/%s' %fileNameStr)
    testFileList=listdir('testDigits')
    errorCount=0.0
    mTest=len(testFileList)
    for i in range(mTest):
        fileNameStr=testFileList[i]
        fileStr=fileNameStr.split('.')[0]
        classNumStr=int(fileStr.split('_')[0])
        vectorUnderTest=img2Vector('testDigits/%s' %fileNameStr)
        classifierResult=classify0(vectorUnderTest,trainingMat,hwLabels,3)
        print("the classifier came back with:%d,the real answer is: %d"%(classifierResult,classNumStr))
        if (classifierResult!=classNumStr):
            errorCount+=1.0
    print("\nthe total number of error rate is %f" %(errorCount/float(mTest)))

2.4本章小结

介绍了k近邻算法,并给出了两个示例。





你可能感兴趣的:(机器学习,python)