呆呆的猫

机器学习实战（四）——基于概率论的分类方法：朴素贝叶斯

- 朴素贝叶斯法
  - 4.1 基于贝叶斯决策理论的分类方法
    - 4.1.1 贝叶斯决策理论
    - 4.1.2 条件概率
    - 4.1.3 全概率公式
    - 4.1.4 贝叶斯推断
    - 4.1.5 朴素贝叶斯
  - 4.2 使用朴素贝叶斯进行文档分类
  - 4.3 总结
  - 4.4 朴素贝叶斯改进——拉普拉斯平滑
  - 4.5 朴素贝叶斯——过滤垃圾邮件
    - 4.5.1 收集数据
    - 4.5.2 准备数据
  - 4.6 朴素贝叶斯——新浪新闻分类（sklearn）
    - 4.6.1 中文语句切分
    - 4.6.2 文本特征选择
  - 4.7 使用sklearn构建朴素贝叶斯分类器
  - 4.7 总结

朴素贝叶斯法

朴素贝叶斯(naive Bayes)算法是基于贝叶斯定理与特征条件独立假设的分类方法，对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y，朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常见的方法。

朴素贝叶斯(naive Bayes)算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。

4.1 基于贝叶斯决策理论的分类方法

优点：在数据较少的情况下仍然有效，可以处理多类别问题
缺点：对于输入数据的准备方式较为敏感
适用数据类型：标称型数据

4.1.1 贝叶斯决策理论

朴素贝叶斯是贝叶斯决策理论的一部分，所以首先了解一下贝叶斯理论。

假设现在我们有一个数据集，它由两类数据组成，数据分布如下图所示：

这里写图片描述

我们现在用p1(x,y)表示数据点(x,y)属于类别1(图中红色圆点表示的类别)的概率，用p2(x,y)表示数据点(x,y)属于类别2(图中蓝色三角形表示的类别)的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：

如果p1(x,y) > p2(x,y)，那么类别为1
如果p1(x,y) < p2(x,y)，那么类别为2

也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

适用决策树不会非常成功，和简单的概率计算相比，KNN计算量太大，因此对于上述问题，最佳选择是概率比较方法。

已经了解了贝叶斯决策理论的核心思想，那么接下来，就是学习如何计算p1和p2概率。

4.1.2 条件概率

在学习计算p1和p2概率之前，我们需要了解什么是条件概率(Condittional probability)，就是指在事件B发生的情况下，事件A发生的概率，用 P(A|B) 来表示。

P(A|B)=P(A⋂B)P(B) P ( A | B ) = P ( A ⋂ B ) P ( B )
故：

P(A⋂B)=P(A|B)P(B) P ( A ⋂ B ) = P ( A | B ) P ( B )
同理：

P(A⋂B)=P(B|A)P(A) P ( A ⋂ B ) = P ( B | A ) P ( A )
所以：

P(A|B)P(B)=P(B|A)P(A) P ( A | B ) P ( B ) = P ( B | A ) P ( A )
即：

P(A|B)=P(B|A)P(A)P(B) P ( A | B ) = P ( B | A ) P ( A ) P ( B )
上式即为条件概率的计算公式

4.1.3 全概率公式

除了条件概率以外，在计算p1和p2的时候，还要用到全概率公式，因此，这里继续推导全概率公式。

P(B)=P(B⋂A)+P(B⋂A ′ ) P ( B ) = P ( B ⋂ A ) + P ( B ⋂ A ′ )
已知：

P(B⋂A)=+P(B|A)P(A) P ( B ⋂ A ) = + P ( B | A ) P ( A )
故全概率公式为：

P(B)=P(B|A)P(A)+P(B|A ′ )P(A ′ ) P ( B ) = P ( B | A ) P ( A ) + P ( B | A ′ ) P ( A ′ )

其含义为：如果 A 和 A ′ 构成一个样本空间的一个划分，那么事件 B 的概率就等于 A 和 A ′ 的概率分别乘以 B 对这两个事件的条件概率之和。

于是条件概率就有了另一种写法：
P(A|B)=P(B|A)P(A)P(B|A)P(A)+P(B|A ′ )P(A ′ )

4.1.4 贝叶斯推断

对条件概率进行变形，可以得到如下形式：

P(A|B)=P(A)P(B|A)P(B)

我们把P(A)称为”先验概率”（Prior probability），即在B事件发生之前，我们对A事件概率的一个判断。

P(A|B)称为”后验概率”（Posterior probability），即在B事件发生之后，我们对A事件概率的重新评估。

P(B|A)/P(B)称为”可能性函数”（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。

所以，条件概率可以理解成下面的式子：

后验概率=先验概率∗调整因子

这就是贝叶斯推断的含义：我们先预估一个”先验概率”，然后加入实验结果，看这个实验到底是增强还是削弱了”先验概率”，由此得到更接近事实的”后验概率”。

在这里，如果”可能性函数”P(B|A)/P(B)>1，意味着”先验概率”被增强，事件A的发生的可能性变大；如果”可能性函数”=1，意味着B事件无助于判断事件A的可能性；如果”可能性函数”<1，意味着”先验概率”被削弱，事件A的可能性变小。

4.1.5 朴素贝叶斯

“朴素”的解释：假设各个特征之间相互独立（在贝叶斯分类器上做了简化）
朴素贝叶斯的基础假设：

①每个特征相互独立；
②每个特征的权重（或重要性）都相等，即对结果的影响程度都相同。

朴素贝叶斯具体实现步骤：

这里写图片描述

举例说明：

某个医院早上来了六个门诊的病人，他们的情况如下表所示：

症状	职业	疾病
打喷嚏	护士	感冒
打喷嚏	农夫	过敏
头痛	建筑工人	脑震荡
头痛	建筑工人	感冒
打喷嚏	教师	感冒
头痛	教师	脑震荡

现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大？

根据贝叶斯定理：

P(A|B)=P(B|A)P(A)P(B)

可得：

P(感冒|打喷嚏&建筑工人)=P(打喷嚏&建筑工人|感冒)P(感冒) / P(打喷嚏&建筑工人)

根据朴素贝叶斯条件独立假设可知，打喷嚏和建筑工人两个特征是独立的，所以：

P(感冒|打喷嚏&建筑工人)=P(打喷嚏|感冒)*P(建筑工人|感冒*P(感冒) / P(打喷嚏&建筑工人)

P(感冒|打喷嚏&建筑工人)=0.66*0.33*0.5/(0.5*0.33)=0.66

因此，这个打喷嚏的建筑工人，有66%的概率是得了感冒。同理，可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率，就可以知道他最可能得什么病。

这就是贝叶斯分类器的基本方法：在统计资料的基础上，依据某些特征，计算各个类别的概率，从而实现分类。

同样，在编程的时候，如果不需要求出所属类别的具体概率，P(打喷嚏) = 0.5和P(建筑工人) = 0.33的概率是可以不用求的。

4.2 使用朴素贝叶斯进行文档分类

朴素贝叶斯是上节介绍的贝叶斯分类器的一个扩展，是用于文档分类的常用算法。

这里写图片描述

以在线社区留言为例。为了不影响社区的发展，我们要屏蔽侮辱性的言论，所以要构建一个快速过滤器，如果某条留言使用了负面或者侮辱性的语言，那么就将该留言标志为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类型：侮辱类和非侮辱类，使用1和0分别表示。

我们把文本看成单词向量或者词条向量，也就是说将句子转换为向量。考虑出现所有文档中的单词，再决定将哪些单词纳入词汇表或者说所要的词汇集合，然后必须要将每一篇文档转换为词汇表上的向量。简单起见，我们先假设已经将本文切分完毕，存放到列表中，并对词汇向量进行分类标注。编写代码如下：

""" 函数说明：创建实验样本 Parameters： 无 Returns： postingList：实验样本切分的词条 classVec：类别标签向量 Modify： 2018-03-14 """
def loadDataSet():
    # 切分的词条
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    # 类别标签向量，1代表侮辱性词汇，0代表不是
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec

if __name__=='__main__':
    postingList,classVec=loadDataSet()
    for each in postingList:
        print(each)
    print(classVec)

结果：

这里写图片描述

创建一个词汇表，并将切好的词条转化为词条向量

""" 函数说明：创建实验样本 Parameters： 无 Returns： postingList：实验样本切分的词条 classVec：类别标签向量 Modify： 2018-03-14 """
def loadDataSet():
    # 切分的词条
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    # 类别标签向量，1代表侮辱性词汇，0代表不是
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec

""" 函数说明：更加vocabList词汇表，将inputSet向量化，向量的每个元素为1或0 Parameters： vocabList：createVocabList返回的列表 inputSet：切分的词条列表 Returns： returnVec：文档向量，词集模型 Modify： 2018-03-14 """
def setOfWords2Vec(vocabList,inputSet):
    #创建一个其中所含元素都为0的向量
    returnVec=[0]*len(vocabList)
    #遍历每个词条
    for word in inputSet:
        #如果词条存在于词汇表中，则置1
        if word in vocabList:
            returnVec[vocabList.index(word)]=1
        else:print("the word: %s is not in my Vocabulary!" % word)
    #返回向量文档
    return returnVec

"""" 函数说明：将切分的实验样本词条整理成不重复的词条列表，也就是词汇表 Parameters： dataSet：整理的样本数据集 Returns： vocabSet：返回不重复的词条列表，也就是词汇表 Modify： 2018-03-14 """
def createVocabList(dataSet):
    #创建一个空的不重复列表
    vocabSet=set([])
    for document in dataSet:
        #取并集
        vocabSet=vocabSet|set(document)
    return list(vocabSet)

if __name__=='__main__':
    postingList,classVec=loadDataSet()
    print('postingList:\n',postingList)
    myVocabList=createVocabList(postingList)
    print('myVocabList:\n',myVocabList)
    trainMat=[]
    for postinDoc in postingList:
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))
    print('trainMat:\n',trainMat)

结果：
这里写图片描述

从运行结果可以看出，postingList是原始的词条列表，myVocabList是词汇表。myVocabList是所有单词出现的集合，没有重复的元素。词汇表是用来干什么的？没错，它是用来将词条向量化的，一个单词在词汇表中出现过一次，那么就在相应位置记作1，如果没有出现就在相应位置记作0。trainMat是所有的词条向量组成的列表。它里面存放的是根据myVocabList向量化的词条向量。

我们已经得到了词条向量。接下来，我们就可以通过词条向量训练朴素贝叶斯分类器。

import numpy as np

""" 函数说明：创建实验样本 Parameters： 无 Returns： postingList：实验样本切分的词条 classVec：类别标签向量 Modify： 2018-03-14 """
def loadDataSet():
    # 切分的词条
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    # 类别标签向量，1代表侮辱性词汇，0代表不是
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec

""" 函数说明：更加vocabList词汇表，将inputSet向量化，向量的每个元素为1或0 Parameters： vocabList：createVocabList返回的列表 inputSet：切分的词条列表 Returns： returnVec：文档向量，词集模型 Modify： 2018-03-14 """
def setOfWords2Vec(vocabList,inputSet):
    #创建一个其中所含元素都为0的向量
    returnVec=[0]*len(vocabList)
    #遍历每个词条
    for word in inputSet:
        #如果词条存在于词汇表中，则置1
        if word in vocabList:
            returnVec[vocabList.index(word)]=1
        else:print("the word: %s is not in my Vocabulary!" % word)
    #返回向量文档
    return returnVec

"""" 函数说明：将切分的实验样本词条整理成不重复的词条列表，也就是词汇表 Parameters： dataSet：整理的样本数据集 Returns： vocabSet：返回不重复的词条列表，也就是词汇表 Modify： 2018-03-14 """
def createVocabList(dataSet):
    #创建一个空的不重复列表
    vocabSet=set([])
    for document in dataSet:
        #取并集
        vocabSet=vocabSet|set(document)
    return list(vocabSet)

""" 函数说明：朴素贝叶斯分类器训练函数 Parameters： trainMatrix：训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵 trainCategory：训练类别标签向量，即loadDataSet返回的classVec Returns： p0Vect：侮辱类的条件概率数组 p1Vect：非侮辱类的条件概率数组 pAbusive：文档属于侮辱类的概率 Modify： 2018-03-14 """
def trainNB0(trainMtrix,trainCategory):
    #计算训练的文档数目
    numTrainDocs=len(trainMtrix)
    #计算每篇文章的词条数
    numWords=len(trainMtrix[0])
    #文档属于侮辱类的概率
    pAbusive=sum(trainCategory)/float(numTrainDocs)
    #创建numpy.zeros数组
    p0Num=np.zeros(numWords);p1Num=np.zeros(numWords)
    #分母初始化为0.0
    p0Denom=0.0;p1Denom=0.0

    for i in range(numTrainDocs):
        #统计属于侮辱类的条件概率
        if trainCategory[i]==1:
            p1Num+=trainMtrix[i]
            p1Denom+=sum(trainMtrix[i])
        #统计属于非侮辱类的条件概率
        else:
            p0Num+=trainMtrix[i]
            p0Denom+=sum(trainMtrix[i])
    #相除
    p1Vect=p1Num/p1Denom
    p0Vect=p0Num/p1Denom
    #返回属于侮辱类的条件概率
    return p0Vect,p1Vect,pAbusive

if __name__=='__main__':
    postingList,classVec=loadDataSet()

    myVocabList=createVocabList(postingList)
    print('myVocabList:\n',myVocabList)

    trainMat=[]
    for postinDoc in postingList:
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))

    p0V,p1V,pAb=trainNB0(trainMat,classVec)
    print('p0V:\n',p0V)
    print('p1V:\n', p1V)
    print('classVec:\n', classVec)
    print('pAb:\n', pAb)

这里写图片描述

p0V存放的是每个单词属于类别0，也就是非侮辱类词汇的概率
p1V存放的就是各个单词属于侮辱类的条件概率。pAb就是先验概率。

已经训练好分类器，接着用分类器进行分类

import numpy as np
from functools import reduce
""" 函数说明：创建实验样本 Parameters： 无 Returns： postingList：实验样本切分的词条 classVec：类别标签向量 Modify： 2018-03-14 """


def loadDataSet():
    # 切分的词条
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    # 类别标签向量，1代表侮辱性词汇，0代表不是
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec


""" 函数说明：更加vocabList词汇表，将inputSet向量化，向量的每个元素为1或0 Parameters： vocabList：createVocabList返回的列表 inputSet：切分的词条列表 Returns： returnVec：文档向量，词集模型 Modify： 2018-03-14 """


def setOfWords2Vec(vocabList, inputSet):
    # 创建一个其中所含元素都为0的向量
    returnVec = [0] * len(vocabList)
    # 遍历每个词条
    for word in inputSet:
        # 如果词条存在于词汇表中，则置1
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    # 返回向量文档
    return returnVec


"""" 函数说明：将切分的实验样本词条整理成不重复的词条列表，也就是词汇表 Parameters： dataSet：整理的样本数据集 Returns： vocabSet：返回不重复的词条列表，也就是词汇表 Modify： 2018-03-14 """


def createVocabList(dataSet):
    # 创建一个空的不重复列表
    vocabSet = set([])
    for document in dataSet:
        # 取并集
        vocabSet = vocabSet | set(document)
    return list(vocabSet)


""" 函数说明：朴素贝叶斯分类器训练函数 Parameters： trainMatrix：训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵 trainCategory：训练类别标签向量，即loadDataSet返回的classVec Returns： p0Vect：侮辱类的条件概率数组 p1Vect：非侮辱类的条件概率数组 pAbusive：文档属于侮辱类的概率 Modify： 2018-03-14 """


def trainNB0(trainMtrix, trainCategory):
    # 计算训练的文档数目
    numTrainDocs = len(trainMtrix)
    # 计算每篇文章的词条数
    numWords = len(trainMtrix[0])
    # 文档属于侮辱类的概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # 创建numpy.zeros数组
    p0Num = np.zeros(numWords);
    p1Num = np.zeros(numWords)
    # 分母初始化为0.0
    p0Denom = 0.0;
    p1Denom = 0.0

    for i in range(numTrainDocs):
        # 统计属于侮辱类的条件概率
        if trainCategory[i] == 1:
            p1Num += trainMtrix[i]
            p1Denom += sum(trainMtrix[i])
        # 统计属于非侮辱类的条件概率
        else:
            p0Num += trainMtrix[i]
            p0Denom += sum(trainMtrix[i])
    # 相除
    p1Vect = p1Num / p1Denom
    p0Vect = p0Num / p1Denom
    # 返回属于侮辱类的条件概率
    return p0Vect, p1Vect, pAbusive

""" 函数说明:朴素贝叶斯分类器分类函数 Parameters: vec2Classifyaaa：待分类的词条数组 p0Vec：侮辱类的条件概率数组 p1Vec：非侮辱类的条件概率数组 pClass1：文档属于侮辱类的概率 Returns: 0 ：属于非侮辱类 1 ：属于侮辱类 Modify: 2018-03-14 """
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    #对应元素相乘
    p1=reduce(lambda x,y:x*y,vec2Classify*p1Vec)*pClass1
    p0=reduce(lambda x,y:x*y,vec2Classify*p0Vec)*(1.0-pClass1)
    print('p0:',p0)
    print('p1:',p1)
    if p1>p0:
        return 1
    else:
        return 0

""" 函数说明:测试朴素贝叶斯分类器 Parameters: 无 Returns: 无 Modify: 2018-03-14 """
def testingNB():
    #创建实验样本
    listOPosts,listClasses=loadDataSet()
    #创建词汇表
    myVocabList=createVocabList((listOPosts))

    trainMat=[]
    for postinDoc in listOPosts:
        #将实验样本向量化
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))
    #训练朴素贝叶斯分类器
    p0V,p1V,pAb=trainNB0(np.array(trainMat),np.array(listClasses))
    #测试样本1
    testEntry=['love','my','dalmation']
    #测试样本向量化
    thisDoc=np.array(setOfWords2Vec(myVocabList,testEntry))
    #执行分类并打印分类结果
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')
    # 执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')
    #测试样本2
    testEntry=['stupid','garbage']

    #测试样本向量化
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    # 执行分类并打印分类结果
    if classifyNB(thisDoc, p0V, p1V, pAb):
        print(testEntry, '属于侮辱类')
        # 执行分类并打印分类结果
    else:
        print(testEntry, '属于非侮辱类')  

if __name__ == '__main__':
    testingNB()

这里写图片描述

我们发现，p0和p1的计算结果都是0，下面来探讨产生该结果的问题。

4.3 总结

朴素贝叶斯推断的一些优点：

生成式模型，通过计算概率来进行分类，可以用来处理多分类问题。
对小规模的数据表现很好，适合多分类任务，适合增量式训练，算法也比较简单。

朴素贝叶斯推断的一些缺点：

对输入数据的表达形式很敏感。
由于朴素贝叶斯的“朴素”特点，所以会带来一些准确率上的损失。
需要计算先验概率，分类决策存在错误率。

4.4 朴素贝叶斯改进——拉普拉斯平滑

1）零概率问题

造成原因：

利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档属于某个类别的概率，即计算 p(w0|A)p(w1|A)p(w2|A) ，如果其中有一个为0，则最后的结果也为0。

解决方法：

为了降低这种影响，可以将所有词的出现次数初始化为1，并将分母初始化为2，这种做法称为“拉普拉斯平滑”，也称“加1平滑”，是比较常用的平滑方法，为了解决0概率问题。

2）下溢出

造成的原因：

是太多很小的数相乘，越乘越小，就造成了下溢出的问题。在相应小数位置进行四舍五入，计算结果可能就变成0了。

解决方法：

对乘积结果取自然对数，通过求对数可以避免下溢出或者浮点数舍入导致的错误，同时，采用自然对数进行处理不会有任何损失。

这里写图片描述

上图显示了 f(x) 和 lnf(x) 的曲线，可以看出上面两条曲线同增同减，且最大值处相同，取值虽然不同，但是不影响最终结果。

因此，可以对trainNB0函数进行修改：

import numpy as np

""" 函数说明：创建实验样本 Parameters： 无 Returns： postingList：实验样本切分的词条 classVec：类别标签向量 Modify： 2018-03-14 """
def loadDataSet():
    # 切分的词条
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    # 类别标签向量，1代表侮辱性词汇，0代表不是
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec

""" 函数说明：更加vocabList词汇表，将inputSet向量化，向量的每个元素为1或0 Parameters： vocabList：createVocabList返回的列表 inputSet：切分的词条列表 Returns： returnVec：文档向量，词集模型 Modify： 2018-03-14 """
def setOfWords2Vec(vocabList,inputSet):
    #创建一个其中所含元素都为0的向量
    returnVec=[0]*len(vocabList)
    #遍历每个词条
    for word in inputSet:
        #如果词条存在于词汇表中，则置1
        if word in vocabList:
            returnVec[vocabList.index(word)]=1
        else:print("the word: %s is not in my Vocabulary!" % word)
    #返回向量文档
    return returnVec

"""" 函数说明：将切分的实验样本词条整理成不重复的词条列表，也就是词汇表 Parameters： dataSet：整理的样本数据集 Returns： vocabSet：返回不重复的词条列表，也就是词汇表 Modify： 2018-03-14 """
def createVocabList(dataSet):
    #创建一个空的不重复列表
    vocabSet=set([])
    for document in dataSet:
        #取并集
        vocabSet=vocabSet|set(document)
    return list(vocabSet)

""" 函数说明：朴素贝叶斯分类器训练函数 Parameters： trainMatrix：训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵 trainCategory：训练类别标签向量，即loadDataSet返回的classVec Returns： p0Vect：侮辱类的条件概率数组 p1Vect：非侮辱类的条件概率数组 pAbusive：文档属于侮辱类的概率 Modify： 2018-03-14 """
def trainNB0(trainMtrix, trainCategory):
    # 计算训练的文档数目
    numTrainDocs = len(trainMtrix)
    # 计算每篇文章的词条数
    numWords = len(trainMtrix[0])
    # 文档属于侮辱类的概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # 创建numpy.ones数组，词条初始化为1，拉普拉斯平滑
    p0Num = np.ones(numWords);
    p1Num = np.ones(numWords)
    # 分母初始化为2.0，拉普拉斯平滑
    p0Denom = 2.0
    p1Denom = 2.0

    for i in range(numTrainDocs):
        # 统计属于侮辱类的条件概率所需的数据，即P(w0|1),P(w1|1),P(w2|1)···
        if trainCategory[i] == 1:
            p1Num += trainMtrix[i]
            p1Denom += sum(trainMtrix[i])
        # 统计属于非侮辱类的条件概率所需的数据，即P(w0|0),P(w1|0),P(w2|0)···
        else:
            p0Num += trainMtrix[i]
            p0Denom += sum(trainMtrix[i])
    # 相除
    p1Vect = np.log(p1Num / p1Denom)
    p0Vect = np.log(p0Num / p1Denom)
    # 返回属于侮辱类的条件概率
    return p0Vect, p1Vect, pAbusive

if __name__=='__main__':
    postingList,classVec=loadDataSet()

    myVocabList=createVocabList(postingList)
    print('myVocabList:\n',myVocabList)

    trainMat=[]
    for postinDoc in postingList:
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))

    p0V,p1V,pAb=trainNB0(trainMat,classVec)
    print('p0V:\n',p0V)
    print('p1V:\n', p1V)
    print('classVec:\n', classVec)
    print('pAb:\n', pAb)

结果：
这里写图片描述

此时已经不存在零概率了。

对classifyNB进行修改：

import numpy as np
from functools import reduce
""" 函数说明：创建实验样本 Parameters： 无 Returns： postingList：实验样本切分的词条 classVec：类别标签向量 Modify： 2018-03-14 """


def loadDataSet():
    # 切分的词条
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    # 类别标签向量，1代表侮辱性词汇，0代表不是
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec


""" 函数说明：更加vocabList词汇表，将inputSet向量化，向量的每个元素为1或0 Parameters： vocabList：createVocabList返回的列表 inputSet：切分的词条列表 Returns： returnVec：文档向量，词集模型 Modify： 2018-03-14 """


def setOfWords2Vec(vocabList, inputSet):
    # 创建一个其中所含元素都为0的向量
    returnVec = [0] * len(vocabList)
    # 遍历每个词条
    for word in inputSet:
        # 如果词条存在于词汇表中，则置1
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    # 返回向量文档
    return returnVec


"""" 函数说明：将切分的实验样本词条整理成不重复的词条列表，也就是词汇表 Parameters： dataSet：整理的样本数据集 Returns： vocabSet：返回不重复的词条列表，也就是词汇表 Modify： 2018-03-14 """


def createVocabList(dataSet):
    # 创建一个空的不重复列表
    vocabSet = set([])
    for document in dataSet:
        # 取并集
        vocabSet = vocabSet | set(document)
    return list(vocabSet)


""" 函数说明：朴素贝叶斯分类器训练函数 Parameters： trainMatrix：训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵 trainCategory：训练类别标签向量，即loadDataSet返回的classVec Returns： p0Vect：侮辱类的条件概率数组 p1Vect：非侮辱类的条件概率数组 pAbusive：文档属于侮辱类的概率 Modify： 2018-03-14 """


def trainNB0(trainMtrix, trainCategory):
    # 计算训练的文档数目
    numTrainDocs = len(trainMtrix)
    # 计算每篇文章的词条数
    numWords = len(trainMtrix[0])
    # 文档属于侮辱类的概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # 创建numpy.ones数组，词条初始化为1，拉普拉斯平滑
    p0Num = np.ones(numWords);
    p1Num = np.ones(numWords)
    # 分母初始化为2.0，拉普拉斯平滑
    p0Denom = 2.0
    p1Denom = 2.0

    for i in range(numTrainDocs):
        # 统计属于侮辱类的条件概率所需的数据，即P(w0|1),P(w1|1),P(w2|1)···
        if trainCategory[i] == 1:
            p1Num += trainMtrix[i]
            p1Denom += sum(trainMtrix[i])
        # 统计属于非侮辱类的条件概率所需的数据，即P(w0|0),P(w1|0),P(w2|0)···
        else:
            p0Num += trainMtrix[i]
            p0Denom += sum(trainMtrix[i])
    # 相除
    p1Vect = np.log(p1Num / p1Denom)
    p0Vect = np.log(p0Num / p1Denom)
    # 返回属于侮辱类的条件概率
    return p0Vect, p1Vect, pAbusive

""" 函数说明:朴素贝叶斯分类器分类函数 Parameters: vec2Classifyaaa：待分类的词条数组 p0Vec：侮辱类的条件概率数组 p1Vec：非侮辱类的条件概率数组 pClass1：文档属于侮辱类的概率 Returns: 0 ：属于非侮辱类 1 ：属于侮辱类 Modify: 2018-03-14 """
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    #对应元素相乘,logA*B=logA+logB，所以要加上np.log(pClass1)
    p1=sum(vec2Classify*p1Vec)+np.log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0-pClass1)

    if p1>p0:
        return 1
    else:
        return 0

""" 函数说明:测试朴素贝叶斯分类器 Parameters: 无 Returns: 无 Modify: 2018-03-14 """
def testingNB():
    #创建实验样本
    listOPosts,listClasses=loadDataSet()
    #创建词汇表
    myVocabList=createVocabList((listOPosts))

    trainMat=[]
    for postinDoc in listOPosts:
        #将实验样本向量化
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))
    #训练朴素贝叶斯分类器
    p0V,p1V,pAb=trainNB0(np.array(trainMat),np.array(listClasses))
    #测试样本1
    testEntry=['love','my','dalmation']
    #测试样本向量化
    thisDoc=np.array(setOfWords2Vec(myVocabList,testEntry))
    #执行分类并打印分类结果
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')
    # 执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')
    #测试样本2
    testEntry=['stupid','garbage']

    #测试样本向量化
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    # 执行分类并打印分类结果
    if classifyNB(thisDoc, p0V, p1V, pAb):
        print(testEntry, '属于侮辱类')
        # 执行分类并打印分类结果
    else:
        print(testEntry, '属于非侮辱类')

if __name__ == '__main__':
    testingNB()

结果：
这里写图片描述

4.5 朴素贝叶斯——过滤垃圾邮件

朴素贝叶斯的最著名的应用——电子邮件垃圾过滤

步骤：

收集数据：提供文本文件。
准备数据：将文本文件解析成词条向量。
分析数据：检查词条确保解析的正确性。
训练算法：使用我们之前建立的trainNB0()函数。
测试算法：使用classifyNB()，并构建一个新的测试函数来计算文档集的错误率。
使用算法：构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上。

4.5.1 收集数据

有两个文件夹，ham和spam，spam文件下的txt文件为垃圾邮件。

4.5.2 准备数据

对于英文文本，我们可以以非字母、非数字作为符号进行切分，使用split函数即可。编写代码如下：

import re

""" 函数说明:接收一个大字符串并将其解析为字符串列表 Parameters: 无 Returns: 无 Modify: 2018-03-14 """
def textParse(bigString):
    # 将特殊符号作为切分标志进行字符串切分，即非字母、非数字
    listOfTokens = re.split(r'\W*', bigString)
    # 除了单个字母，例如大写的I，其它单词变成小写
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

""" 函数说明:将切分的实验样本词条整理成不重复的词条列表，也就是词汇表 Parameters: dataSet - 整理的样本数据集 Returns: vocabSet - 返回不重复的词条列表，也就是词汇表 Modify: 2018-03-14 """
def createVocabList(dataSet):
    # 创建一个空的不重复列表
    vocabSet = set([])
    for document in dataSet:
        # 取并集
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

if __name__ == '__main__':
    docList = []; classList = []
    # 遍历25个txt文件
    for i in range(1, 26):
        # 读取每个垃圾邮件，并字符串转换成字符串列表
        wordList = textParse(open('spam/%d.txt' % i, 'r').read())
        docList.append(wordList)
        # 标记垃圾邮件，1表示垃圾文件
        classList.append(1)
        # 读取每个非垃圾邮件，并字符串转换成字符串列表
        wordList = textParse(open('ham/%d.txt' % i, 'r').read())
        docList.append(wordList)
        # 标记非垃圾邮件，1表示垃圾文件
        classList.append(0)
        # 创建词汇表，不重复
    vocabList = createVocabList(docList)
    print(vocabList)

词汇表结果：

这里写图片描述

根据词汇表，可以将每个文本向量化，此处将数据集分为训练集和测试集，使用交叉验证的方式测试朴素贝叶斯分类器的准确性，代码如下：

import numpy as np
import re
import random

""" 函数说明：创建实验样本 Parameters： 无 Returns： postingList：实验样本切分的词条 classVec：类别标签向量 Modify： 2018-03-14 """


def loadDataSet():
    # 切分的词条
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    # 类别标签向量，1代表侮辱性词汇，0代表不是
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec


""" 函数说明：更加vocabList词汇表，将inputSet向量化，向量的每个元素为1或0 Parameters： vocabList：createVocabList返回的列表 inputSet：切分的词条列表 Returns： returnVec：文档向量，词集模型 Modify： 2018-03-14 """


def setOfWords2Vec(vocabList, inputSet):
    # 创建一个其中所含元素都为0的向量
    returnVec = [0] * len(vocabList)
    # 遍历每个词条
    for word in inputSet:
        # 如果词条存在于词汇表中，则置1
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    # 返回向量文档
    return returnVec


"""" 函数说明：将切分的实验样本词条整理成不重复的词条列表，也就是词汇表 Parameters： dataSet：整理的样本数据集 Returns： vocabSet：返回不重复的词条列表，也就是词汇表 Modify： 2018-03-14 """


def createVocabList(dataSet):
    # 创建一个空的不重复列表
    vocabSet = set([])
    for document in dataSet:
        # 取并集
        vocabSet = vocabSet | set(document)
    return list(vocabSet)


""" 函数说明：根据vocabList词汇表，构建词袋模型 Parameters: vocabList - createVocabList返回的列表 inputSet - 切分的词条列表 Returns: returnVec - 文档向量,词袋模型 Modify: 2018-03-14 """


def bagOfWords2VecMN(vocabList, inputSet):
    # 创建一个其中所含元素都为0的向量
    returnVec = [0] * len(vocabList)
    # 遍历每个词条
    for word in inputSet:
        # 如果词条存在于词汇表中，则计数加一
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    # 返回词袋模型
    return returnVec


""" 函数说明：朴素贝叶斯分类器训练函数 Parameters： trainMatrix：训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵 trainCategory：训练类别标签向量，即loadDataSet返回的classVec Returns： p0Vect：侮辱类的条件概率数组 p1Vect：非侮辱类的条件概率数组 pAbusive：文档属于侮辱类的概率 Modify： 2018-03-14 """


def trainNB0(trainMtrix, trainCategory):
    # 计算训练的文档数目
    numTrainDocs = len(trainMtrix)
    # 计算每篇文章的词条数
    numWords = len(trainMtrix[0])
    # 文档属于侮辱类的概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # 创建numpy.ones数组，词条初始化为1，拉普拉斯平滑
    p0Num = np.ones(numWords);
    p1Num = np.ones(numWords)
    # 分母初始化为2.0，拉普拉斯平滑
    p0Denom = 2.0
    p1Denom = 2.0

    for i in range(numTrainDocs):
        # 统计属于侮辱类的条件概率所需的数据，即P(w0|1),P(w1|1),P(w2|1)···
        if trainCategory[i] == 1:
            p1Num += trainMtrix[i]
            p1Denom += sum(trainMtrix[i])
        # 统计属于非侮辱类的条件概率所需的数据，即P(w0|0),P(w1|0),P(w2|0)···
        else:
            p0Num += trainMtrix[i]
            p0Denom += sum(trainMtrix[i])
    # 相除
    p1Vect = np.log(p1Num / p1Denom)
    p0Vect = np.log(p0Num / p1Denom)
    # 返回属于侮辱类的条件概率
    return p0Vect, p1Vect, pAbusive


""" 函数说明:朴素贝叶斯分类器分类函数 Parameters: vec2Classifyaaa：待分类的词条数组 p0Vec：侮辱类的条件概率数组 p1Vec：非侮辱类的条件概率数组 pClass1：文档属于侮辱类的概率 Returns: 0 ：属于非侮辱类 1 ：属于侮辱类 Modify: 2018-03-14 """


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    # 对应元素相乘,logA*B=logA+logB，所以要加上np.log(pClass1)
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)

    if p1 > p0:
        return 1
    else:
        return 0


""" 函数说明:接收一个大字符串并将其解析为字符串列表 Parameters: 无 Returns: 无 Modify: 2018-03-14 """


def textParse(bigString):
    # 将特殊符号作为切分标志进行字符串切分，即非字母、非数字
    listOfTokens = re.split(r'\W*', bigString)
    # 除了单个字母，例如大写的I，其它单词变成小写
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]


""" 函数说明：测试朴素贝叶斯分类器 Parameters: 无 Returns: 无 Modify: 2018-03-14 """


def spamTest():
    docList = []
    classList = []
    fullText = []
    # 遍历25个txt文件
    for i in range(1, 26):
        # 读取每个垃圾邮件，并字符串转换成字符串列表
        wordList = textParse(open('spam/%d.txt' % i, 'r').read())
        docList.append(wordList)
        fullText.append(wordList)
        # 标记非垃圾邮件，1表示垃圾邮件
        classList.append(1)
        # 读取每个非垃圾邮件，并字符串转换为字符串列表
        wordList = textParse(open('spam/%d.txt' % i, 'r').read())
        docList.append(wordList)
        fullText.append(wordList)
        # 标记非垃圾邮件，1表示垃圾邮件
        classList.append(0)
    # 创建词汇表，不重复
    vocabList = createVocabList(docList)
    # 创建存储训练集的索引值的列表和测试集的索引值的列表
    trainingSet = list(range(50));
    testSet = []
    # 从50个邮件中，随机挑选出40个作为训练集,10个做测试集
    for i in range(10):
        # 随机选取索索引值
        randIndex = int(random.uniform(0, len(trainingSet)))
        # 添加测试集的索引值
        testSet.append(trainingSet[randIndex])
        # 在训练集列表中删除添加到测试集的索引值
        del (trainingSet[randIndex])
    # 创建训练集矩阵和训练集类别标签系向量
    trainMat = []
    trainClasses = []
    # 遍历训练集
    for docIndex in trainingSet:
        # 将生成的词集模型添加到训练矩阵中
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        # 将类别添加到训练集类别标签系向量中
        trainClasses.append(classList[docIndex])
    # 训练朴素贝叶斯模型
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    # 错误分类计数
    errorCount = 0
    # 遍历测试集
    for docIndex in testSet:
        # 测试集的词集模型
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])
        # 如果分类错误，错误计数加1
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
            print("分类错误的测试集：", docList[docIndex])
    print('错误率：%.2f%%' % (float(errorCount) / len(testSet) * 100))


if __name__ == '__main__':
    spamTest()

这里写图片描述

函数spamTest()会输出在10封随机选择的电子邮件上的分类错误概率。既然这些电子邮件是随机选择的，所以每次的输出结果可能有些差别。如果发现错误的话，函数会输出错误的文档的此表，这样就可以了解到底是哪篇文档发生了错误。如果想要更好地估计错误率，那么就应该将上述过程重复多次，比如说10次，然后求平均值。相比之下，将垃圾邮件误判为正常邮件要比将正常邮件归为垃圾邮件好。

4.6 朴素贝叶斯——新浪新闻分类（sklearn）

4.6.1 中文语句切分

可以直接使用第三方分词组件，即jieba，也就是”结巴”。

在anaconda prompt中输入：

pip install jieba

即可直接安装。

官方教程：https://github.com/fxsjy/jieba

中文教程：https://www.oschina.net/p/jieba

数据集的分类结果如下：
这里写图片描述

切分中文语句代码：

""" 函数说明：切分中文语句 """
import os
import jieba

def TextProcessing(folder_path):
    #查看folder_path下的文件
    folder_list=os.listdir(folder_path)
    #训练集
    data_list=[]
    class_list=[]

    #遍历每个子文件夹
    for folder in folder_list:
        #根据子文件夹，生成新的路径
        new_folder_path=os.path.join(folder_path,folder)
        #存放子文件夹下的txt文件的列表
        files=os.listdir(new_folder_path)

        j=1
        #遍历每个txt文件
        for file in files:
            #每类txt样本数最多100个
            if j>100:
                break
            #打开txt文件
            with open(os.path.join(new_folder_path,file),'r',encoding='utf-8') as f:
                raw=f.read()

            #精简模式，返回一个可迭代的generator
            word_cut=jieba.cut(raw,cut_all=False)
            #generator转换为list
            word_list=list(word_cut)

            data_list.append(word_list)
            class_list.append(folder)
            j+=1
        print(data_list)
        print(class_list)

if __name__=='__main__':
    #文本预处理
    #训练集存放地址
    folder_path='E:\python\machine learning in action\My Code\chap 04\SogouC\Sample'
    TextProcessing((folder_path))

结果：
这里写图片描述

4.6.2 文本特征选择

我们将所有文本分成训练集和测试集，并对训练集中的所有单词进行词频统计，并按降序排序。也就是将出现次数多的词语在前，出现次数少的词语在后进行排序。编写代码如下：

""" 函数说明：切分中文语句 """
import os
import jieba
import random

def TextProcessing(folder_path,test_size = 0.2):
    #查看folder_path下的文件
    folder_list=os.listdir(folder_path)
    #训练集
    data_list=[]
    class_list=[]

    #遍历每个子文件夹
    for folder in folder_list:
        #根据子文件夹，生成新的路径
        new_folder_path=os.path.join(folder_path,folder)
        #存放子文件夹下的txt文件的列表
        files=os.listdir(new_folder_path)

        j=1
        #遍历每个txt文件
        for file in files:
            #每类txt样本数最多100个
            if j>100:
                break
            #打开txt文件
            with open(os.path.join(new_folder_path,file),'r',encoding='utf-8') as f:
                raw=f.read()
            #精简模式，返回一个可迭代的generator
            word_cut=jieba.cut(raw,cut_all=False)
            #generator转换为list
            word_list=list(word_cut)

            data_list.append(word_list)
            class_list.append(folder)
            j+=1
        #zip压缩合并，将数据与标签对应压缩
        data_class_list=list(zip(data_list,class_list))
        #将data_class_list乱序
        random.shuffle(data_class_list)
        #训练集与测试集切分的索引值
        index=int(len(data_class_list)*test_size)+1
        #训练集
        train_list=data_class_list[index:]
        #测试集
        test_list=data_class_list[:index]
        #训练集解压缩
        train_data_list,train_class_list=zip(*train_list)
        #测试集解压缩
        test_data_list,test_class_list=zip(*test_list)
        #统计训练集词频
        all_words_dict={}
        for word_list in train_data_list:
            for word in word_list:
                if word in all_words_dict.keys():
                    all_words_dict[word]+=1
                else:
                    all_words_dict[word]=1

        #根据键值倒序排列
        all_words_tuple_list=sorted(all_words_dict.items(),key=lambda
            f:f[1],reverse=True)
        #解压缩
        all_words_list,all_words_nums=zip(*all_words_tuple_list)
        #转换成列表
        all_words_list=list(all_words_list)
        return all_words_list,train_data_list,test_data_list,train_class_list,\
               test_class_list

if __name__=='__main__':
    #文本预处理，训练集存放的地址
    folder_path='E:\python\machine learning in action\My Code\chap 04\SogouC\Sample'
    all_words_list, train_data_list, test_data_list, train_class_list, \
    test_class_list=TextProcessing(folder_path,test_size=0.2)
    print(all_words_list)

结果：

这里写图片描述

输出的all_word_list就是将所有训练集的切分结果按照词频降序排列构成的单词集合，前面包含了很多标点符号，和“是”、“的”、“在”等词语，及数字。所以要将这些去掉。

去掉的规则：去掉高频词，至于去掉多少，则根据高频词个数和最终检测率的关系来确定。

如何去掉：可以使用已经整理好的stopwords_cn.txt文本：

这里写图片描述

可以根据这个文档来去掉高频词，不作为分类的特征，首先去除100个，代码如下：

""" 函数说明：切分中文语句 """
import os
import jieba
import random

def TextProcessing(folder_path,test_size = 0.2):
    #查看folder_path下的文件
    folder_list=os.listdir(folder_path)
    #训练集
    data_list=[]
    class_list=[]

    #遍历每个子文件夹
    for folder in folder_list:
        #根据子文件夹，生成新的路径
        new_folder_path=os.path.join(folder_path,folder)
        #存放子文件夹下的txt文件的列表
        files=os.listdir(new_folder_path)

        j=1
        #遍历每个txt文件
        for file in files:
            #每类txt样本数最多100个
            if j>100:
                break
            #打开txt文件
            with open(os.path.join(new_folder_path,file),'r',encoding='utf-8') as f:
                raw=f.read()
            #精简模式，返回一个可迭代的generator
            word_cut=jieba.cut(raw,cut_all=False)
            #generator转换为list
            word_list=list(word_cut)

            data_list.append(word_list)
            class_list.append(folder)
            j+=1
        #zip压缩合并，将数据与标签对应压缩
        data_class_list=list(zip(data_list,class_list))
        #将data_class_list乱序
        random.shuffle(data_class_list)
        #训练集与测试集切分的索引值
        index=int(len(data_class_list)*test_size)+1
        #训练集
        train_list=data_class_list[index:]
        #测试集
        test_list=data_class_list[:index]
        #训练集解压缩
        train_data_list,train_class_list=zip(*train_list)
        #测试集解压缩
        test_data_list,test_class_list=zip(*test_list)
        #统计训练集词频
        all_words_dict={}
        for word_list in train_data_list:
            for word in word_list:
                if word in all_words_dict.keys():
                    all_words_dict[word]+=1
                else:
                    all_words_dict[word]=1

        #根据键值倒序排列
        all_words_tuple_list=sorted(all_words_dict.items(),key=lambda
            f:f[1],reverse=True)
        #解压缩
        all_words_list,all_words_nums=zip(*all_words_tuple_list)
        #转换成列表
        all_words_list=list(all_words_list)
        return all_words_list,train_data_list,test_data_list,train_class_list,\
               test_class_list

""" 函数说明：读取文件中的内容并去重 Parameters： words_file：文件路径 Returns： word_set：读取内容的set集合 Modify： 2018-03-15 """
def MakeWordSet(words_file):
    #创建set集合
    words_set=set()
    #打开文件
    with open(words_file,'r',encoding='utf-8') as f:
        #一行一行读取
        for line in f.readlines():
            #去回车
            word=line.strip()
            #有文本，则添加到word_set中
            if len(word)>0:
                words_set.add(word)
    #返回处理结果
    return words_set

""" 函数说明：文本特征提取 Parameters: all_words_list - 训练集所有文本列表 deleteN - 删除词频最高的deleteN个词 stopwords_set - 指定的结束语 Returns: feature_words - 特征集 Modify: 2018-03-15 """
def words_dict(all_words_list,deleteN,stopWords_set=set()):
    #特征列表
    feature_words=[]
    n=1
    for t in range(deleteN,len(all_words_list),1):
        #feature_words额维度为1000
        if n>1000:
            break
        #如果这个词不是数字，且不是指定的结束语，并且单词长度大于1小于5，那么这个词就可以作为特征词
        if not all_words_list[t].isdigit() and all_words_list[t] not in stopWords_set \
                and 15:
            feature_words.append(all_words_list[t])
        n+=1
    return feature_words

if __name__=='__main__':
    #文本预处理，训练集存放的地址
    folder_path='E:\python\machine learning in action\My Code\chap 04\SogouC\Sample'
    all_words_list, train_data_list, test_data_list, train_class_list, \
    test_class_list=TextProcessing(folder_path,test_size=0.2)

    #生成stopwords_set
    stopwords_file='stopwords_cn.txt'
    stopwords_set=MakeWordSet(stopwords_file)

    feature_words=words_dict(all_words_list,100,stopwords_set)
    print(feature_words)

结果：
这里写图片描述

从结果可以看出，我们已经滤除了那些没有用的词组，这些feature_words就是我们最终选出用于新闻分类的特征，随后就可以根据特征词将文本向量化，然后用于训练朴素贝叶斯分类器。

4.7 使用sklearn构建朴素贝叶斯分类器

官方文档

在scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB，MultinomialNB和BernoulliNB。

GaussianNB就是先验为高斯分布的朴素贝叶斯；
MultinomialNB就是先验为多项式分布的朴素贝叶斯；
BernoulliNB就是先验为伯努利分布的朴素贝叶斯。

前面所讲的的先验概率模型就是先验概率为多项式分布的朴素贝叶斯。
这里写图片描述

对于新闻的分类，属于多分类问题，可以使用MultinomialNB来完成，假设特征的先验概率为多项式分布：

class sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)

alpha：浮点型可选参数，默认为1.0，其实就是添加拉普拉斯平滑，即为上述公式中的λ ，如果这个参数设置为0，就是不添加平滑；
fit_prior：布尔型可选参数，默认为True。布尔参数fit_prior表示是否要考虑先验概率，如果是false,则所有的样本类别输出都有相同的类别先验概率。否则可以自己用第三个参数class_prior输入先验概率，或者不输入第三个参数class_prior让MultinomialNB自己从训练集样本来计算先验概率，此时的先验概率为P(Y=Ck)=mk/m。其中m为训练集样本总数量，mk为输出为第k类别的训练集样本数。
class_prior：可选参数，默认为None。

fit_prior	class_prior	最终先验概率
False	无意义	P(Y=C k )=1/k
True	不填	P(Y=C k )=mk/m
True	填	P(Y=C k )=class_prior

提供的方法：
这里写图片描述

拟合：

fit：一般的拟合

partial_fit：一般用在训练集数据量非常大，一次不能全部载入内存的时候，这个时候可以把训练集分成若干等分，重复调用该方法来一步步学习训练集。

预测：

predict：常用的预测方法，直接给出测试集的预测类别输出

predict_log_proba：预测出的各个类别对数概率里的最大值对应的类别，也就是predict方法得到类别

predict_proba：它会给出测试集样本在各个类别上预测的概率，预测出的各个类别概率里的最大值对应的类别，也就是predict方法得到类别。

确定要去掉的前deleteN个高频词的个数与最终检测准确率的关系，确定deleteN的取值：

""" 函数说明：切分中文语句 """
import os
import jieba
import random
from sklearn.naive_bayes import MultinomialNB
import matplotlib.pyplot as plt


def TextProcessing(folder_path,test_size = 0.2):
    #查看folder_path下的文件
    folder_list=os.listdir(folder_path)
    #训练集
    data_list=[]
    class_list=[]

    #遍历每个子文件夹
    for folder in folder_list:
        #根据子文件夹，生成新的路径
        new_folder_path=os.path.join(folder_path,folder)
        #存放子文件夹下的txt文件的列表
        files=os.listdir(new_folder_path)

        j=1
        #遍历每个txt文件
        for file in files:
            #每类txt样本数最多100个
            if j>100:
                break
            #打开txt文件
            with open(os.path.join(new_folder_path,file),'r',encoding='utf-8') as f:
                raw=f.read()
            #精简模式，返回一个可迭代的generator
            word_cut=jieba.cut(raw,cut_all=False)
            #generator转换为list
            word_list=list(word_cut)

            data_list.append(word_list)
            class_list.append(folder)
            j+=1
        #zip压缩合并，将数据与标签对应压缩
        data_class_list=list(zip(data_list,class_list))
        #将data_class_list乱序
        random.shuffle(data_class_list)
        #训练集与测试集切分的索引值
        index=int(len(data_class_list)*test_size)+1
        #训练集
        train_list=data_class_list[index:]
        #测试集
        test_list=data_class_list[:index]
        #训练集解压缩
        train_data_list,train_class_list=zip(*train_list)
        #测试集解压缩
        test_data_list,test_class_list=zip(*test_list)
        #统计训练集词频
        all_words_dict={}
        for word_list in train_data_list:
            for word in word_list:
                if word in all_words_dict.keys():
                    all_words_dict[word]+=1
                else:
                    all_words_dict[word]=1

        #根据键值倒序排列
        all_words_tuple_list=sorted(all_words_dict.items(),key=lambda
            f:f[1],reverse=True)
        #解压缩
        all_words_list,all_words_nums=zip(*all_words_tuple_list)
        #转换成列表
        all_words_list=list(all_words_list)
        return all_words_list,train_data_list,test_data_list,train_class_list,\
               test_class_list

""" 函数说明：读取文件中的内容并去重 Parameters： words_file：文件路径 Returns： word_set：读取内容的set集合 Modify： 2018-03-15 """
def MakeWordSet(words_file):
    #创建set集合
    words_set=set()
    #打开文件
    with open(words_file,'r',encoding='utf-8') as f:
        #一行一行读取
        for line in f.readlines():
            #去回车
            word=line.strip()
            #有文本，则添加到word_set中
            if len(word)>0:
                words_set.add(word)
    #返回处理结果
    return words_set

def TextFeatures(train_data_list, test_data_list, feature_words):
    # 出现在特征集中，则置1
    def text_features(text, feature_words):
        text_words = set(text)
        features = [1 if word in text_words else 0 for word in feature_words]
        return features
    train_feature_list = [text_features(text, feature_words) for text in train_data_list]
    test_feature_list = [text_features(text, feature_words) for text in test_data_list]
    # 返回结果
    return train_feature_list, test_feature_list


""" 函数说明：文本特征提取 Parameters: all_words_list - 训练集所有文本列表 deleteN - 删除词频最高的deleteN个词 stopwords_set - 指定的结束语 Returns: feature_words - 特征集 Modify: 2018-03-15 """
def words_dict(all_words_list,deleteN,stopWords_set=set()):
    #特征列表
    feature_words=[]
    n=1
    for t in range(deleteN,len(all_words_list),1):
        #feature_words额维度为1000
        if n>1000:
            break
        #如果这个词不是数字，且不是指定的结束语，并且单词长度大于1小于5，那么这个词就可以作为特征词
        if not all_words_list[t].isdigit() and all_words_list[t] not in stopWords_set \
                and 15:
            feature_words.append(all_words_list[t])
        n+=1
    return feature_words

""" 函数说明：新闻分类器 parameters： train_feature_list - 训练集向量化的特征文本 test_feature_list - 测试集向量化的特征文本 train_class_list - 训练集分类标签 test_class_list - 测试集分类标签 Returns: test_accuracy - 分类器精度 Modify: 2018-03-15 """
def TextClassifier(train_feature_list,test_feature_list,train_class_list,test_class_list):
    classifier=MultinomialNB().fit(train_feature_list,train_class_list)
    test_accuracy=classifier.score(test_feature_list,test_class_list)
    return test_accuracy

if __name__=='__main__':
    #文本预处理，训练集存放的地址
    folder_path='E:\python\machine learning in action\My Code\chap 04\SogouC\Sample'
    all_words_list, train_data_list, test_data_list, train_class_list, \
         test_class_list=TextProcessing(folder_path,test_size=0.2)

    #生成stopwords_set
    stopwords_file='stopwords_cn.txt'
    stopwords_set=MakeWordSet(stopwords_file)

    test_accuracy_list=[]
    deleteNs=range(0,1000,20)
    for deleteN in deleteNs:
        feature_words=words_dict(all_words_list,deleteN,stopwords_set)
        train_feature_list,test_feature_list=TextFeatures(train_data_list,
                                                        test_data_list,feature_words)
        test_accuracy=TextClassifier(train_feature_list,test_feature_list,
                                     train_class_list,test_class_list)
        test_accuracy_list.append(test_accuracy)


    plt.figure()
    plt.plot(deleteNs,test_accuracy_list)
    plt.title('Relationship of deleteNs and test_accuracy')
    plt.xlabel('deleteNs')
    plt.ylabel('test_accuracy')
    plt.show()

结果：
这里写图片描述

将代码修改如下：

if __name__ == '__main__':
    #文本预处理
    folder_path = './SogouC/Sample'                #训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path, test_size=0.2)

    # 生成stopwords_set
    stopwords_file = './stopwords_cn.txt'
    stopwords_set = MakeWordsSet(stopwords_file)


    test_accuracy_list = []
    feature_words = words_dict(all_words_list, 450, stopwords_set)
    train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
    test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
    test_accuracy_list.append(test_accuracy)
    ave = lambda c: sum(c) / len(c)

4.7 总结

在训练朴素贝叶斯分类器之前，要处理好训练集，文本的清洗还是有很多需要学习的东西。
根据提取的分类特征将文本向量化，然后训练朴素贝叶斯分类器。
去高频词汇数量的不同，对结果也是有影响的的。
拉普拉斯平滑对于改善朴素贝叶斯分类器的分类效果有着积极的作用。

你可能感兴趣的:(机器学习实战)

机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
机器学习实战----波士顿房价预测模型永远偷渡不了的非洲人机器学习机器学习 sklearn python
波士顿房价模型预测是一个回归问题，可以采用r2_score方法来作为评价指标。importnumpyasnpimportpandasaspdfromsklearn.metricsimportr2_score#从sklearn的数据库中导入波士顿房产数据fromsklearn.datasetsimportload_bostonfromsklearn.model_selectionimporttrai
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
(二十一)Seaborn知识学习8-python数据分析与机器学习实战(学习笔记) 努力奋斗的durian
文章原创,最近更新：2018-05-17课程来源:python数据分析与机器学习实战-唐宇迪引言:介绍seaborn热度图绘制学习参考链接:1、Seaborn官方0.8.1版本首先介绍以下热度图的作用,拿出离散群数据,离散群数据可能会发生波动变化.看一下哪个点的值比较高,看一下哪个点的值比较低?通过值的变化,用颜色表现出来,这个是我们要做的一件事.热度图是由不同的颜色构成的,这个颜色由可能是由浅入
机器学习实战2--蒙特卡洛方法与Q-Q图(2022/10/12) 点灯的棉羊机器学习Jupyter笔记机器学习人工智能 numpy python
蒙特卡洛方法与Q-Q图文章目录蒙特卡洛方法与Q-Q图蒙特卡洛方法蒙特卡洛的定义和基本步骤一些常用的概率论相关函数使用蒙特卡洛验证大数定理Q-Q图Q-Q图的定义及用途importnumpyasnpfromnumpy.linalgimportinv,eigimportmatplotlib.pyplotaspltimportpandasaspdfromscipy.statsimportnorm蒙特卡洛方
机器学习实战1-基础运用（2022/10/11）点灯的棉羊机器学习Jupyter笔记机器学习 python numpy
机器学习实战1-基础运用文章目录机器学习实战1-基础运用numpy的简单运用生成矩阵和矩阵的简单操作用pandas库读取、保存csv数据文件read_csv()函数及读入的数据处理to_csv()保存数据matplotlib.pyplot库绘图的使用条形图的绘制箱型图的绘制分位数（Quantile）分位点/四分位数分位数与箱型图`boxplot()`函数绘制交叉报表热力图plt绘图基础import
机器学习实战Jupyter笔记专栏汇总点灯的棉羊机器学习Jupyter笔记机器学习 jupyter 人工智能
机器学习实战Jupter笔记开始博客学校开始的一门机器学习的课程，于是使用jupyter写这门课的作业，顺便将其完善为笔记发表为这个专栏的博客，并将专栏博客链接汇总到这里。由于是刚开始学习机器学习方面的内容，如有错误的地方，希望能有大佬能帮忙指正。笔记1机器学习实战1-基础运用种一棵树最好的时间–是十年前，其次是现在
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
【机器学习实战】大数据与MapReduce 吵吵人
当运算需求超出了当前资源的运算能力，一、可以考虑购买更好的机器；二、可以将计算转换成并行作业，MapReduce就提供了这种方案的一个具体实施框架。MapReduce：分布式计算的框架MapReduce是一个软件框架，可以将单个计算工作分配给多台计算机执行。工作流程包括map和reduce阶段。第一阶段，输入数据被切片分发到节点上，各个节点对本地数据进行处理对应的运算代码叫做mapper。第二阶段
[培训-Python机器学习]04-Git的使用和规范乱码奇糟软件开发 git
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：上网查阅Linus开发Git的背景；分析所在的开发团队所用的协作开发流程是什么？总结出Git使用和Git流程中遇到过的3个问题，发给大家讨论。非常有意思：2005年，由Linux的创始人LinusTorvalds开发；临危赴命，用时2周。分布式、本地管理、分支管理、提交机制Github、
[培训-Python机器学习]02-使用conda管理环境和包乱码奇糟软件开发 python conda
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：培训后实践本章的各种操作；结果：以Python3.10创建开发虚拟环境；再创建一个Python3.7版本以下的虚拟环境用来调试兼容性以前培训过venv，本次培训来说一说conda。conda其实可理解为：venv+pip，它的主要功能包括：环境管理：创建多个隔离的Python运行环境，每
机器学习（machine learning）大合集 AI信仰者
1、线性分类器怎么理解呢？我们可以把此分类器理解为线性空间的划分，最简单的，在二维空间上，通过直线的划分。第二个理解可以理解为模板匹配，W的每一行可以看做是其中一个类别的模板。每类得分，实际上是像素点和模板匹配度。模板匹配的方式是内积计算。2、机器学习实战之AdaBoost算法boosting算法系列的基本思想，如下图：adaBoost分类器就是一种元算法分类器，adaBoost分类器利用同一种基
机器学习实战朴素贝叶斯分类器 shenny_
基于概率论的分类方法：朴素贝叶斯我的微信公众号：s406205391;欢迎大家一起学习，一起进步！！！k-近邻算法和决策树会给出“该数据属于哪一类”的明确回答。不过，分类器有时会产生错误结果，这是可以要求分类器给出一个最优的类别的猜测结果，同事给出这个猜测的概率估计值。朴素贝叶斯就是一个概率分类器。我们称之为“朴素”，是因为整个形式化的过程只做最原始、最简单的假设。朴素贝叶斯的优点：在数据较少的情
《机器学习实战》笔记（十三）：Ch13 - 利用PCA来简化数据 Lornatang
第13章利用PCA来简化数据(代码)降维技术降维的意思是能够用一组个数为d的向量zi来代表个数为D的向量xi所包含的有用信息，其中d
Python实现时间序列分析马尔可夫切换自回归模型(MarkovAutoregression算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析马尔可夫切换自回归模型项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的马尔可夫切换自回归模型（MarkovSwitchingAutoregressionModel，简称MSAR或MarkovAutoregression算法）是一种混合了自回归模型（AutoregressiveModel,AR）和马尔可夫链（MarkovC
Python实现时间序列分析马尔可夫切换动态回归模型(MarkovRegression算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析马尔可夫切换动态回归模型项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的马尔可夫切换动态回归模型（MarkovSwitchingDynamicRegressionModel，MSDRM或简称为MarkovRegression算法）是一种用于处理具有非平稳性和隐藏状态依赖性的时序数据的方法。在该模型中，数据生成过程被认为是在
Python实现时间序列分析季节性自回归综合移动平均外生回归模型(SARIMAX算法)项目实战胖哥真不错机器学习 python python 时间序列分析季节性自回归综合移动平均外生回归模型 SARIMAX 项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的季节性自回归综合移动平均外生回归模型（SeasonalAutoregressiveIntegratedMovingAveragewitheXogenousregressors,SARIMAX）是一种统计建模技术，用于分析和预测具有季节性、趋势以及可能受
Python实现时间序列分析AR定阶自回归模型(ar_select_order算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析AR定阶自回归模型 ar_select_order 项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中，AR定阶自回归模型（ARorderselection）是指确定自回归模型（AutoRegressiveModel,AR模型）的阶数p的过程。在AR(p)模型中，当前的时间序列值被表示为过去p个时期的线性组合加上一个误差项。ar_select_order
python机器学习实战|机器学习入门笔记3-Pandas基础知识小赵同学871 机器学习实战入门笔记 python 机器学习 pandas
文章目录1.Pandas介绍2.案例知识点2.1创建DataFrame2.2创建日期3.DataFrame介绍3.1DataFrame属性3.2DataFrame设置索引3.3基本数据操作3.4DataFrame运算1.Pandas介绍开源的数据挖掘库，用于数据探索，封装了matplotlib，numpy2.案例知识点2.1创建DataFramepd.DataFrame(ndarray,index
Python实现离散选择概率模型(Probit算法)项目实战胖哥真不错机器学习 python python 离散选择概率模型 Probit算法机器学习项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景Probit模型是经过Logit模型的形式经过变形后得到的，Probit模型假设与标准正态分布的概率分布函数相似。本项目通过Probit算法来构建概率模型。2.数据获取本次建模数据来源于网络(本项目撰写人整理而成)，数据项统计如下：编号变量名称描述1x12x23x34
机器学习实战 K-近邻算法今昔何夕丶
K-近邻算法优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂高、空间复杂度高适用数据范围：数值型和标称型一般流程收集数据：可以使用任何方法准备数据：距离计算所需要的数值，最好是结构化的数据结构分析数据：可以使用任何方法训练算法：此步骤不适用于K-近邻算法测试算法：计算错误率使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出
Python实现稳健线性回归模型(rlm算法)项目实战胖哥真不错机器学习 python python 机器学习稳健线性回归模型 rlm算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景稳健回归可以用在任何使用最小二乘回归的情况下。在拟合最小二乘回归时，我们可能会发现一些异常值或高杠杆数据点。已经确定这些数据点不是数据输入错误，也不是来自另一个群落。所以我们没有令人信服的理由将它们排除在分析之外。稳健回归可能是一种好的策略，它是在将这些点完全从分析中
机器学习实战学习记录（github） monkeyhlj 学习
机器学习实战学习记录（github）可见我的github：https://github.com/monkeyhlj/machine_learning_bymyself刚刚建好，后面的学习记录会一直在这个仓库里面更新。推荐参考资料：https://www.zhihu.com/column/c_1242508311053963264
【机器学习实战】决策树吵吵人
算法思路在构造决策树时，第一个需要解决的问题就是，如何确定出哪个特征在划分数据分类是起决定性作用，或者说使用哪个特征分类能实现最好的分类效果。这样，为了找到决定性的特征，划分得到最好的结果，我们就需要评估每个特征。当找到最优特征后，依此特征，数据集就被划分为几个数据子集，这些数据自己会分布在该决策点的所有分支中。此时，如果某个分支下的数据属于同一类型，则该分支下的数据分类已经完成，无需进行下一步的
Python实现基于多元线性回归模型进行统计学相互作用和方差分析(anova算法)项目实战胖哥真不错机器学习 python 线性回归人工智能机器学习 python 相互作用方差分析 anova算法
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景多元线性回归模型（MultipleLinearRegressionModel）是一种统计学方法，用于研究一个或多个自变量（predictors）与因变量（dependentvariable）之间的关系。在模型中，因变量的值通过一个线性函数来预测，该函数包含了自变量的系
Python实现基于广义线性回归模型进行Meta分析(meta_analysis算法)项目实战胖哥真不错机器学习 python 线性回归 python 机器学习广义线性回归模型 Meta分析 meta_analysis算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景对于广义线性回归模型在Meta分析中的应用概念，可能是将其用于处理非正态分布或非线性关系的数据，例如：1.当原始研究的结果数据不是连续型且服从正态分布，而是二项分布（如成功率）、泊松分布（如发病率）或其他分布时，可以通过GLM设定适当的链接函数和分布族来适应。2.在进
Python实现GEE嵌套协方差结构仿真模型(GEE算法)项目实战胖哥真不错机器学习 python python 机器学习 GEE嵌套协方差结构仿真模型 GEE算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景广义估计方程（GeneralizedEstimatingEquations,GEE）是一种用于分析具有重复测量或者集群数据的统计方法。在社会学、医学、生物学等多个领域，研究对象的数据往往存在嵌套或群聚结构，即个体的数据不是独立的，而是隶属于某个群体或层级结构中。GEE
Python实现M-Estimators稳健线性回归模型(RLM算法)项目实战胖哥真不错机器学习 python python 机器学习 M-Estimators 稳健线性回归模型 RLM算法
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景M-Estimators是稳健统计估计中的一个重要概念，它们在处理含有异常值、离群点或者影响点的数据时特别有用。在稳健线性回归（RobustLinearRegression,RLM）模型中，M-Estimators用于替代普通最小二乘法（OLS），以减少这些极端观测值
机器学习——python训练RNN模型实战（傻瓜式教学，小学生都可以学会）代码开源苏苏不是叔机器学习 python rnn
机器学习实战目录第一章python训练线性模型实战第二章python训练决策树模型实战第三章python训练神经网络模型实战第四章python训练支持向量机模型实战第五章python训练贝叶斯分类器模型实战第六章python训练集成学习模型实战第七章python训练聚类模型实战第八章python训练KNN模型实战第九章python训练CNN模型实战第十章python训练RNN模型实战......(
机器学习——python训练决策树模型实战（傻瓜式教学，小学生都可以学会）苏苏不是叔机器学习 python 决策树
机器学习——python训练决策树模型实战目录机器学习——python训练决策树模型实战机器学习实战目录训练一个决策树模型需要经过以下步骤：1.下载数据集2.数据预处理3.加载数据集4.准备训练数据5.创建模型6.训练模型7.测试模型参考资料机器学习实战目录第一章python训练线性模型实战第二章python训练决策树模型实战第三章python训练神经网络模型实战第四章python训练支持向量机模
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理