转:以logistic Regression为例实现多类别分类及Python实现

   1.第一种简单的方法是一对所有(one-Versus-All,OVA),给定m个类,训练m个二元分类器(将选取任意一类,再将其它所有类看成是一类,构建一个两类分类器)。分类器j使类j的元组为正类,其余为负类,进行训练。为了对未知元组X进行分类,分类器作为一个组合分类器投票。例如,如果分类器j预测X为正类,则类j得到一票。如果他测得X为正类,则类j得到一票。如果测X为负类,则除j以外的每一个类都得到一票(相当于此类的票数减一)。得票最多的指派给X。
    这种方法简单有效,而且使用类似logistic这种有概率值大小可以比较的情况下,类边界其实是个有范围的值,可以增加正确率。而且当K(类别数量)很大时,通过投票的方式解决了一部分不平衡性问题。
[python]  view plain  copy
  1. # -*- coding: utf-8 -*-  
  2.   
  3. from logisticRegression import *  
  4. from numpy import *  
  5. import operator  
  6.   
  7. #知道了Iris共有三种类别Iris-setosa,Iris-versicolor和Iris-virginica  
  8. def loadDataSet(filename):  
  9.     numFeat = len(open(filename).readline().split(','))-1  
  10.     dataMat = []; labelMat = []  
  11.     fr = open(filename)  
  12.     for line in fr.readlines():  
  13.         lineArr = []  
  14.         curLine = line.strip().split(',')  
  15.         for i in range(numFeat):  
  16.             lineArr.append(float(curLine[i]))  
  17.         dataMat.append([1]+lineArr)  #这里是为了使 x0 等于 1  
  18.         labelMat.append(curLine[-1])  
  19.     return dataMat,labelMat  
  20.   
  21. # voteResult = {'Iris-setosa':0,'Iris-versicolo':0,'Iris-virginica':0}#记录投票情况  
  22. voteResult = [0,0,0]  
  23. categorylabels = ['Iris-setosa','Iris-versicolor','Iris-virginica']#类别标签  
  24. opts = {'alpha'0.01'maxIter'100'optimizeType''smoothStocGradDescent'}  
  25. #训练过程  
  26. dataMat,labelMat = loadDataSet('train.txt')  
  27.   
  28. weight1 = []  
  29. for i in range(3):#三类  
  30.     labelMat1 = []  
  31.     for j in range(len(labelMat)):#把名称变成0或1的数字  
  32.         if labelMat[j] == categorylabels[i]:  
  33.             labelMat1.append(1)  
  34.         else:  
  35.             labelMat1.append(0)  
  36.     dataMat = mat(dataMat);labelMat1 = mat(labelMat1).T  
  37.     weight1.append(logisticRegression(dataMat,labelMat1,opts))  
  38.   
  39. #测试过程  
  40. dataMat,labelMat = loadDataSet('test.txt')  
  41. dataMat = mat(dataMat)  
  42.   
  43. initial_value = 0  
  44. list_length = len(labelMat)  
  45. h = [initial_value]*list_length  
  46.   
  47. for j in range(len(labelMat)):  
  48.     voteResult = [0,0,0]  
  49.     for i in range(3):  
  50.         h[j] = float(sigmoid(dataMat[j]*weight1[i]))#得到训练结果  
  51.         if h[j] > 0.5 and h[j] <= 1:  
  52.             voteResult[i] = voteResult[i]+1+h[j]#由于类别少,为了防止同票,投票数要加上概率值  
  53.         elif h[j] >= 0 and h[j] <= 0.5:  
  54.             voteResult[i] = voteResult[i]-1+h[j]  
  55.         else:  
  56.             print 'Properbility wrong!'  
  57.     h[j] = voteResult.index(max(voteResult))  
  58. print h  
  59. labelMat2 = []  
  60. for j in range(len(labelMat)):#把名称变成0或1或2的数字  
  61.     for i in range(3):#三类  
  62.         if labelMat[j] == categorylabels[i]:  
  63.             labelMat2.append(i);break  
  64.   
  65. #计算正确率  
  66. error = 0.0  
  67. for j in range(len(labelMat)):  
  68.     if h[j] != labelMat2[j]:  
  69.         error = error +1  
  70.   
  71. pro = 1 - error / len(labelMat)#正确率  
  72. print pro  
[python]  view plain  copy
  1. class="python" name="code">      
[python]  view plain  copy
  1. "white-space:pre">    "font-family:SimSun;font-size:24px;">没有优化的情况下的准确率:"" alt="" />  
[python]  view plain  copy
  1. 2.第二种多分类方法为所有对所有(All-versus-all,AVA),也就是每次对一类学习一个分类器(one vs on at a time)。假定有M类,那么要构建m(m-1)/2个二元分类器。每一个分类器都使用它应该区分的两个类的元组来训练。为了对未知元组分类,所有的分类器投票表决。该元组被指派到得票数醉倒的类。一般来说‘所有对所有’优于‘一对所有’。解决了不平衡性,但是会占用更大的空间下面的程序主要修改了训练过程:  
[python]  view plain  copy
  1. -*- coding: utf-8 -*-  
  2.   
  3. from logisticRegression import *  
  4. from numpy import *  
  5. import operator  
  6.   
  7. #知道了Iris共有三种类别Iris-setosa,Iris-versicolor和Iris-virginica  
  8. def loadDataSet(filename):  
  9.     numFeat = len(open(filename).readline().split(','))-1  
  10.     dataMat = []; labelMat = []  
  11.     fr = open(filename)  
  12.     for line in fr.readlines():  
  13.         lineArr = []  
  14.         curLine = line.strip().split(',')  
  15.         for i in range(numFeat):  
  16.             lineArr.append(float(curLine[i]))  
  17.         dataMat.append([1]+lineArr)  #这里是为了使 x0 等于 1  
  18.         labelMat.append(curLine[-1])  
  19.     return dataMat,labelMat  
  20.   
  21. # voteResult = {'Iris-setosa':0,'Iris-versicolo':0,'Iris-virginica':0}#记录投票情况  
  22. voteResult = [0,0,0]  
  23. categorylabels = ['Iris-setosa','Iris-versicolor','Iris-virginica']#类别标签  
  24. opts = {'alpha'0.01'maxIter'50'optimizeType''smoothStocGradDescent'}  
  25. #训练过程  
  26. dataMat,labelMat = loadDataSet('train.txt')  
  27.   
  28.   
  29. dataMat2 = dataMat[0:40]+dataMat[80:120]  
  30. dataMat2 = mat(dataMat2)  
  31. dataMat = mat(dataMat)  
  32.   
  33. weight1 = []  
  34. for i in range(3):#三类  
  35.     labelMat1 = []  
  36.     for j in range(len(labelMat)):#把名称变成0或1的数字  
  37.         if labelMat[j] == categorylabels[i]:  
  38.             labelMat1.append(1)  
  39.         else:  
  40.             labelMat1.append(0)  
  41.     if i == 0:  
  42.         weight1.append(logisticRegression(dataMat[0:80,:],labelMat1[0:80],opts))  
  43.     elif i == 1:  
  44.         weight1.append(logisticRegression(dataMat[40:120,:],labelMat1[40:120],opts))  
  45.     else:  
  46.         labelMat12 = labelMat1[0:40]+labelMat1[80:120]  
  47.         labelMat12 = labelMat12  
  48.         weight1.append(logisticRegression(dataMat2,labelMat12,opts))  
  49.   
  50. #测试过程  
  51. dataMat,labelMat = loadDataSet('test.txt')  
  52. dataMat = mat(dataMat)  
  53.   
  54. initial_value = 0  
  55. list_length = len(labelMat)  
  56. h = [initial_value]*list_length  
  57.   
  58. for j in range(len(labelMat)):  
  59.     voteResult = [0,0,0]  
  60.     for i in range(2):  
  61.         h[j] = float(sigmoid(dataMat[j]*weight1[i]))#得到训练结果  
  62.         if h[j] > 0.5 and h[j] <= 1:  
  63.             voteResult[i] = voteResult[i]+1#由于类别少,为了防止同票,投票数要加上概率值  
  64.         elif h[j] >= 0 and h[j] <= 0.5:  
  65.             voteResult[i+1] = voteResult[i+1]+1  
  66.         else:  
  67.             print 'Properbility wrong!'  
  68.     h[j] = float(sigmoid(dataMat[j]*weight1[2]))#得到训练结果  
  69.     if h[j] > 0.5 and h[j] <= 1:  
  70.         voteResult[2] = voteResult[2]+1#由于类别少,为了防止同票,投票数要加上概率值  
  71.     elif h[j] >= 0 and h[j] <= 0.5:  
  72.         voteResult[0] = voteResult[0]+1  
  73.     else:  
  74.         print 'Properbility wrong!'  
  75.     h[j] = voteResult.index(max(voteResult))  
  76.   
  77. print h  
  78. labelMat2 = []  
  79. for j in range(len(labelMat)):#把名称变成0或1或2的数字  
  80.     for i in range(3):#三类  
  81.         if labelMat[j] == categorylabels[i]:  
  82.             labelMat2.append(i);break  
  83.   
  84. #计算正确率  
  85. error = 0.0  
  86. for j in range(len(labelMat)):  
  87.     if h[j] != labelMat2[j]:  
  88.         error = error +1  
  89.   
  90. pro = 1 - error / len(labelMat)#正确率  
  91. print pro  

可知,最佳情况下准确率有所提高:


参考:http://blog.sina.com.cn/s/blog_5eef0840010147pa.html

你可能感兴趣的:(PYTHON_机器学习)