风雪云侠

机器学习之朴素贝叶斯学习笔记

朴素贝叶斯

一、概述

朴素贝叶斯算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。

二、朴素贝叶斯理论

朴素贝叶斯是贝叶斯决策理论的一部分，所以在学习朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。

1、贝叶斯决策理论

假设现在我们有一个数据集，它由两类数据组成，数据分布如下图所示：

我们现在用 $p 1 (x, y)$ 表示数据点 $(x, y)$ 属于类别1(图中红色圆点表示的类别)的概率，用 $p 2 (x, y)$ 表示数据点 $(x, y)$ 属于类别2(图中蓝色三角形表示的类别)的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：

如果 $p 1 (x, y) > p 2 (x, y)$ ，那么类别为1
如果 $，那么类别为2$

也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。已经了解了贝叶斯决策理论的核心思想，那么接下来，就是学习如何计算p1和p2概率。

2、条件概率

条件概率(Conditional probability)，就是指在事件B发生的情况下，事件A发生的概率，用 $P (A ∣ B)$ 来表示。

$C=A\cap B$
根据文氏图，可以很清楚地看到在事件 $B$ 发生的情况下,事件 $A$ 发生的概率就是 $P (A \cap B)$ 除以 $P (B)$ 。
$\frac{P(A\cap B)}{P(B)}$

为什么是这计算条件概率呢？

一般说到条件概率这一概念的时候，事件A和事件B都是同一实验下的不同的结果集合，事件A和事件B一般是有交集的，若没有交集（互斥），则条件概率为0。

由图再来理解一下这个问题：“B已经发生的条件下，A发生的概率”，这句话中，“B已经发生”就相当于已经把样本的可选范围限制在了圆圈B中，其实就等价于这句话：“在圆圈B中，A发生的概率”，显然 $P (A ∣ B)$ 就等于AB交集中样本的数目/B的样本数目。
$\frac{AB交集中样本的数目}{B的样本数目}$

为什么这里用的是样本的数目相除，而上面的公式却是用的概率相除，原因很简单，用样本数目相除时，把分子分母同除以总样本数，这就变成了概率相除。

因此，设A,B是两个事件，且 $P (B) > 0$ ,则在事件 $B$ 发生的条件下，事件A发生的条件概率（conditional probability)为：
$\frac{P(A\cap B)}{P(B)}$

同理可得，
$\frac{P(B\cap A)}{P(A)}$
变换可得，
$P(A\cap B)= P(A|B) P(B)$
同理亦可得，
$P(A\cap B)= P(B|A) P(A)$
所以，
$P (A ∣ B) P (B) = P (B ∣ A) P (A)$
即
$\frac{P(B|A) P(A)}{P(B)}$
这就是条件概率的计算公式。

3、全概率公式

除了条件概率以外，在计算p1和p2的时候，还要用到全概率公式，因此，这里继续推导全概率公式。

假定样本空间S，是两个事件A与A’的和。
上图中，红色部分是事件A，绿色部分是事件A’，它们共同构成了样本空间S。

在这种情况下，事件B可以划分成两个部分。

即
$P(B)=P(A\cap B)+P(A'\cap B)$
在上面的推导当中，我们已知
$P(A\cap B)= P(B|A) P(A)$
所以，
$P (B) = P (B ∣ A) P (A) + P (B ∣ A^{'}) P (A^{'})$
这就是全概率公式。它的含义是，如果A和A'构成样本空间的一个划分，那么事件B的概率，就等于A和A'的概率分别乘以B对这两个事件的条件概率之和。

将这个公式代入上面的的条件概率公式，就得到了条件概率的另一种写法：
$\frac{P(B|A) P(A)}{P(B|A) P(A)+P(B|A') P(A')}$

4、贝叶斯推断

对条件概率公式进行变形，可以得到如下形式：
$\frac{P(A\cap B)}{P(B)}=P(A)\frac{P(B|A)}{P(B)}$

我们把P(A)称为"先验概率"（Prior probability），即在B事件发生之前，A事件发生的概率。

P(A|B)称为"后验概率"（Posterior probability），即在B事件发生之后，A事件发生的概率。

P(B|A)/P(B)称为"可能性函数"（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。

所以，条件概率可以理解成下面的式子：
$后验概率＝先验概率ｘ调整因子$

这就是贝叶斯推断的含义。我们先预估一个"先验概率"，然后加入实验结果，看这个实验到底是增强还是削弱了"先验概率"，由此得到更接近事实的"后验概率"。

在这里，如果"可能性函数"P(B|A)/P(B)>1，意味着"先验概率"被增强，事件A的发生的可能性变大；如果"可能性函数"=1，意味着B事件无助于判断事件A的可能性；如果"可能性函数"<1，意味着"先验概率"被削弱，事件A的可能性变小。

为了加深对贝叶斯推断的理解，我们举一个例子。

问题1：

两个一模一样的碗，一号碗有30颗水果糖和10颗巧克力糖，二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗，从中摸出一颗糖，发现是水果糖。请问这颗水果糖来自一号碗的概率有多大？

求解：

假设，H1表示一号碗，H2表示二号碗。由于这两个碗是一样的，所以P(H1)=P(H2)，也就是说，在取出水果糖之前，这两个碗被选中的概率相同。因此，P(H1)=0.5，我们把这个概率就叫做"先验概率"，即没有做实验之前，来自一号碗的概率是0.5。

再假设，E表示水果糖，所以问题就变成了在已知E的情况下，来自一号碗的概率有多大，即求P(H1|E)。我们把这个概率叫做"后验概率"，即在E事件发生之后，对P(H1)的修正。

根据条件概率公式，得到
$P(H1|E)=P(H1)\frac{P(E|H1)}{P(E)}$
已知，P(H1)=0.5，P(E|H1)为一号碗中取出水果糖的概率，等于30÷(30+10)=0.75，那么求出P(E)就可以得到答案。根据全概率公式，
$P(E)=P(E|H1)P(H1)+P(E|H2)P(H2)\\=0.75\times0.5+0.5\times0.5=0.625$
将数字代入原方程，得到
$P(H1|E)=0.5\times \frac{0.75}{0.625}=0.6$
这表明，来自一号碗的概率是0.6。也就是说，取出水果糖之后，H1事件的可能性得到了增强。

问题2：

两个一模一样的碗，一号碗有30颗水果糖和10颗巧克力糖，二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗，从中摸出一颗糖，发现是水果糖。请问这颗水果糖最有可能来自哪号碗？

求解：

假设，H1表示一号碗，H2表示二号碗,E表示水果糖。求解该问题，我们需要知道水果糖来自一号碗和二号碗的概率，即P(H1|E)和P(H2|E)。

根据条件概率公式，得到
$P(H1|E)=P(H1)\frac{P(E|H1)}{P(E)}$
$P(H2|E)=P(H2)\frac{P(E|H2)}{P(E)}$

根据上面公式，我们再思考一个问题，在使用该算法的时候，只需要知道所属类别，即来自一号碗还是二号碗，我们有必要计算P(E)这个全概率吗？

由于，P(H1)=P(H2)=0.5 ,而且P(H1|E)和P(H2|E)的分母都是相同的，既然如此，那我们只需要比较分子即可，即比较P(E|H1)P(H1)和P(E|H2)P(H2)的大小，那么我们就可以知道水果糖是来自一号碗还是二号碗，所以为了减少计算量，全概率公式在实际编程中可以不使用。

5、朴素贝叶斯推断

理解了贝叶斯推断，那么让我们继续看看朴素贝叶斯。贝叶斯和朴素贝叶斯的概念是不同的，区别就在于“朴素”二字，朴素贝叶斯对条件个概率分布做了条件独立性的假设。比如下面的公式，假设有n个特征：
$P(a|X)=P(a)\frac{P(X|a)}{P(X)}$
其中，
$X=x_{1},x_{2},...,x_{n}$
由于X是独立分布的，所以
$P(X)=P(x_{1})+P(x_{2})+...+P(x_{n})=1$
故，
$P (a ∣ X) = P (a) P (X ∣ a)$

由于每个特征都是独立的，我们可以进一步拆分公式：
$P(a|X)=P(a)P(x_{1},x_{2},...,x_{n}|a)\\=P(a)(P(x_{1}|a)*P(x_{2}|a)*...*P(x_{n}|a))$
这样我们就可以进行计算了。如果有些迷糊，让我们从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。

举例
某个医院早上来了六个门诊的病人，他们的情况如下表所示：

症状	职业	疾病
打喷嚏	护士	感冒
打喷嚏	农夫	过敏
头痛	建筑工人	脑震荡
头痛	建筑工人	感冒
打喷嚏	教师	感冒
头痛	教师	脑震荡

现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大？

根据贝叶斯定理：
$P(A|B)=\frac{P(A)P(B|A)}{P(B)}$
可得：
$P(感冒|打喷嚏\times 建筑工人)=\frac{P(感冒)P(打喷嚏\times 建筑工人|感冒)}{P(打喷嚏\times 建筑工人)}$

根据朴素贝叶斯条件独立性的假设可知，"打喷嚏"和"建筑工人"这两个特征是独立的，因此，上面的等式就变成了

$P(感冒|打喷嚏\times 建筑工人)=\frac{P(感冒)\times P(打喷嚏|感冒)\times P(建筑工人|感冒)}{P(打喷嚏)\times P(建筑工人)}$

这里可以计算,
$P(感冒)=\frac{3}{6}=0.5$

$P(打喷嚏|感冒)=\frac{2}{3}=0.66$

$P(建筑工人|感冒)=\frac{1}{3}=0.33$

$P(建筑工人)=\frac{2}{6}=0.33$

$P(打喷嚏)=\frac{3}{6}=0.5$

$P(感冒|打喷嚏\times 建筑工人)=\frac{0.5 \times 0.66 \times 0.33}{0.5 \times 0.33}$
因此，这个打喷嚏的建筑工人，有66%的概率是得了感冒。同理，可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率，就可以知道他最可能得什么病。

这就是贝叶斯分类器的基本方法：在统计资料的基础上，依据某些特征，计算各个类别的概率，从而实现分类。

同样，在编程的时候，如果不需要求出所属类别的具体概率，P(打喷嚏) = 0.5和P(建筑工人) = 0.33的概率是可以不用求的。

三、朴素贝叶斯项目案例

项目案例1: 屏蔽社区留言板的侮辱性言论

朴素贝叶斯开发流程

收集数据: 可以使用任何方法。
准备数据: 需要数值型或者布尔型数据。
分析数据: 有大量特征时，绘制特征作用不大，此时使用直方图效果更好。
训练算法: 计算不同的独立特征的条件概率。
测试算法: 计算错误率。
使用算法: 一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。

以在线社区留言为例。为了不影响社区的发展，我们要屏蔽侮辱性的言论，所以要构建一个快速过滤器，如果某条留言使用了负面或者侮辱性的语言，那么就将该留言标志为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类型：侮辱类和非侮辱类，使用1和0分别表示。

把文本看成单词向量或者词条向量，也就是说将句子转换为向量。

1、构建数据集

"""
函数说明:创建实验样本
 
Parameters:
    无
Returns:
    postingList - 实验样本切分的词条
    classVec - 类别标签向量

"""
def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],                #切分的词条
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]                                                                   #类别标签向量，1代表侮辱性词汇，0代表不是
    return postingList,classVec
 
if __name__ == '__main__':
    postingLIst, classVec = loadDataSet()
    for each in postingLIst:
        print(each)
    print(classVec)

从运行结果可以看出，我们已经将postingList是存放词条列表中，classVec是存放每个词条的所属类别，1代表侮辱类 ，0代表非侮辱类。

2、创建一个词汇表。

"""
函数说明:将切分的实验样本词条整理成不重复的词条列表，也就是词汇表
 
Parameters:
    dataSet - 整理的样本数据集
Returns:
    vocabSet - 返回不重复的词条列表，也就是词汇表
"""
def createVocabList(dataSet):
    vocabSet = set([])                      #创建一个空的不重复列表
    for document in dataSet:               
        vocabSet = vocabSet | set(document) #取并集
    return list(vocabSet)

3、将切分好的词条转换为词条向量。

"""
函数说明:根据vocabList词汇表，将inputSet向量化，向量的每个元素为1或0
 
Parameters:
    vocabList - createVocabList返回的列表
    inputSet - 切分的词条列表
Returns:
    returnVec - 文档向量,词集模型
"""
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  #创建一个其中所含元素都为0的向量
    for word in inputSet:  #遍历每个词条
        if word in vocabList:  #如果词条存在于词汇表中，则置1
            returnVec[vocabList.index(word)] = 1
        else: 
        	print("the word: %s is not in my Vocabulary!" % word)
    return returnVec  #返回文档向量

4、测试

if __name__ == '__main__':
    postingList, classVec = loadDataSet()
    print('postingList:\n',postingList)
    myVocabList = createVocabList(postingList)
    print('myVocabList:\n',myVocabList)
    trainMat = []
    for postinDoc in postingList:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    print('trainMat:\n', trainMat)

输出结果

postingList:
[[‘my’, ‘dog’, ‘has’, ‘flea’, ‘problems’, ‘help’, ‘please’], [‘maybe’, ‘not’, ‘take’, ‘him’, ‘to’, ‘dog’, ‘park’, ‘stupid’], [‘my’, ‘dalmation’, ‘is’, ‘so’, ‘cute’, ‘I’, ‘love’, ‘him’], [‘stop’, ‘posting’, ‘stupid’, ‘worthless’, ‘garbage’], [‘mr’, ‘licks’, ‘ate’, ‘my’, ‘steak’, ‘how’, ‘to’, ‘stop’, ‘him’], [‘quit’, ‘buying’, ‘worthless’, ‘dog’, ‘food’, ‘stupid’]]

myVocabList:
[‘cute’, ‘steak’, ‘flea’, ‘park’, ‘stop’, ‘please’, ‘to’, ‘dalmation’, ‘him’, ‘garbage’, ‘my’, ‘help’, ‘take’, ‘so’, ‘is’, ‘worthless’, ‘licks’, ‘love’, ‘stupid’, ‘posting’, ‘ate’, ‘how’, ‘dog’, ‘I’, ‘quit’, ‘food’, ‘has’, ‘maybe’, ‘mr’, ‘buying’, ‘problems’, ‘not’]
trainMat:
[[0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0], [0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1], [1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0]]

从运行结果可以看出，postingList是原始的词条列表，myVocabList是词汇表。myVocabList是所有单词出现的集合，没有重复的元素。

词汇表是用来干什么的？

没错，它是用来将词条向量化的，一个单词在词汇表中出现过一次，那么就在相应位置记作1，如果没有出现就在相应位置记作0。trainMat是所有的词条向量组成的列表。它里面存放的是根据myVocabList向量化的词条向量。

6、通过词条向量训练朴素贝叶斯分类器。

import numpy as np
"""
函数说明:朴素贝叶斯分类器训练函数
 
Parameters:
    trainMatrix - 训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵
    trainCategory - 训练类别标签向量，即loadDataSet返回的classVec
Returns:
    p0Vect - 非侮辱类的条件概率数组
    p1Vect - 侮辱类的条件概率数组
    pAbusive - 文档属于侮辱类的概率
"""
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix) #计算训练的文档数目
    numWords = len(trainMatrix[0]) #计算每篇文档的词条数
    pAbusive = sum(trainCategory)/float(numTrainDocs) #文档属于侮辱类的概率
    p0Num = np.zeros(numWords); p1Num = np.zeros(numWords)#创建numpy.zeros数组,词条出现数初始化为0
    p0Denom = 0.0; p1Denom = 0.0   #分母初始化为0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1: #统计属于侮辱类的条件概率所需的数据，即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:  #统计属于非侮辱类的条件概率所需的数据，即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = p1Num/p1Denom                                      
    p0Vect = p0Num/p0Denom         
    return p0Vect,p1Vect,pAbusive   #返回属于侮辱类的条件概率数组，属于非侮辱类的条件概率数组，文档属于侮辱类的概率

7、代码分析：

1、从数据表中取一条文档，即

postingList[0] = [‘my’, ‘dog’, ‘has’, ‘flea’, ‘problems’, ‘help’, ‘please’]

文档中的‘my’, ‘dog’, ‘has’, ‘flea’, ‘problems’, ‘help’, ‘please’，为特征。

2、通过词汇表转为词向量

词汇表为，myVocabList:
['cute', 'steak', 'flea', 'park', 'stop', 'please', 'to', 'dalmation', 'him', 'garbage', 'my', 'help', 'take', 'so', 'is', 'worthless', 'licks', 'love', 'stupid', 'posting', 'ate', 'how', 'dog', 'I', 'quit', 'food', 'has', 'maybe', 'mr', 'buying', 'problems', 'not']

词汇表表中的元素可看作为特征，假定为 $w_{1},w_{2},...,w_{n}$ ,其中n为词典的长度。

通过setOfWords2Vec(myVocabList, postingList[0])转为词向量，即

[0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0]

根据上面的数据集，求属于侮辱类的概率有多大？

根据贝叶斯定理：
$P(A|B)=\frac{P(A)P(B|A)}{P(B)}$
可得，
$P(侮辱|w_{1},w_{2},...,w_{n})=\frac{P(侮辱)P(w_{1},w_{2},...,w_{n}|侮辱)}{P(w_{1},w_{2},...,w_{n})}$

因为， $w_{1},w_{2},...,w_{n}$ 是相互独立的特征，故
$P(侮辱|w_{1},w_{2},...,w_{n})=\frac{P(侮辱)P(w_{1}|侮辱)*P(w_{2}|侮辱)*...*P(w_{n}|侮辱)}{P(w_{1})*P(w_{2})*...*P(w_{n})}$

3、代码分析

trainMatrix - 训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵。
trainCategory - 训练类别标签向量，即loadDataSet返回的classVec。

文档属于侮辱类的概率

pAbusive = sum(trainCategory)/float(numTrainDocs)

求的 $P (侮辱)$ ,也就是先验概率

for i in range(numTrainDocs):
#统计属于侮辱类的条件概率所需的数据，即P(w0|1),P(w1|1),P(w2|1)···
    if trainCategory[i] == 1: #
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
    else:  #统计属于非侮辱类的条件概率所需的数据，即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])

其中， p1Num += trainMatrix[i]是为了统计属于侮辱类的文档中的每个词条（也就是特征， $w_{1},w_{2},...,w_{n}$ ）的出现的次数。

而 p1Denom += sum(trainMatrix[i])是为了统计属于侮辱类的文档中的总的词数目，即所有词条出现的次数的总和，然后利用它求得每个词条（特征， $w_{1},w_{2},...,w_{n}$ ）出现的概率 P(w1),P(w2), P(w3)…

从上面第二小节，条件概率的为什么是这计算条件概率呢？

可知A在B下的条件概率，用的是样本的数目相除，而我们一般使用的概率相除,

$\frac{AB交集中样本的数目}{B的样本数目}$
$P(A|B)=\frac{\frac{AB交集中样本的数目}{总样本数}}{\frac{B的样本数目}{总样本数}}=\frac{P(A \cap B)}{P(B)}=\frac{P(A)P(B|A)}{P(B)}$

原因很简单，用样本数目相除时，把分子分母同除以总样本数，这就变成了概率相除。

同样的道理，在代码中计算，侮辱类的文档中的每个词条的出现的次数/侮辱类的文档中的总的词数目

$P(w_{1},w_{2},...,w_{n}|侮辱)=\frac{w_{1},w_{2},...,w_{n}}{总的词数目}$

在侮辱类的条件下，统计词条属于侮辱类的条件概率，即P(w0|1),P(w1|1),P(w2|1)···

p1Vect = p1Num/p1Denom		#相除

求得 ， $P(w_{1}|侮辱)*P(w_{2}|侮辱)*...*P(w_{n}|侮辱)$ ，也就是调整因子的分子 。

非侮辱类与上面同样的道理。

测试

if __name__ == '__main__':
    postingList, classVec = loadDataSet()
    myVocabList = createVocabList(postingList)
    print('myVocabList:\n', myVocabList)
    trainMat = []
    for postinDoc in postingList:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(trainMat, classVec)
    print('p0V:\n', p0V)
    print('p1V:\n', p1V)
    print('classVec:\n', classVec)
    print('pAb:\n', pAb)

运行结果如下，

p0V存放的是每个单词属于类别0，也就是非侮辱类词汇的概率。比如p0V的倒数第14个概率，就是stupid这个单词属于非侮辱类的概率为0。同理，p1V的倒数第14个概率，就是stupid这个单词属于侮辱类的概率为0.15789474，也就是约等于15.79%的概率。我们知道stupid的中文意思是蠢货，难听点的叫法就是傻逼。显而易见，这个单词属于侮辱类。

pAb是所有侮辱类的样本占所有样本的概率，从classVec中可以看出，一共有3个侮辱类，3个非侮辱类。所以侮辱类的概率是0.5。因此p0V存放的就是P(cute | 非侮辱类) = 0.0417，P(steak | 非侮辱类) = 0.0417，一直到P(not | 非侮辱类) = 0，这些单词的条件概率。同理，p1V存放的就是各个单词属于侮辱类的条件概率。pAb就是先验概率。

8、已经训练好分类器，接下来，使用分类器进行分类。

在 4、贝叶斯推断 中，我们提到，如果只需要知道所属类别 ，即来自一号碗还是二号碗，因为分母相同，那我们只需要比较分子即可，即比较P(E|H1)P(H1)和P(E|H2)P(H2) 的大小，我们就可以知道水果糖是来自一号碗还是二号碗，所以为了减少计算量，全概率公式在实际编程中可以不使用 。

同样的道理，在这里我们只计算
$P(侮辱)P(w_{1}|侮辱)*P(w_{2}|侮辱)*...*P(w_{n}|侮辱)$

"""
函数说明:朴素贝叶斯分类器分类函数
 
Parameters:
    vec2Classify - 待分类的词条数组
    p0Vec - 侮辱类的条件概率数组
    p1Vec -非侮辱类的条件概率数组
    pClass1 - 文档属于侮辱类的概率
Returns:
    0 - 属于非侮辱类
    1 - 属于侮辱类
"""
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = reduce(lambda x,y:x*y, vec2Classify * p1Vec) * pClass1                #对应元素相乘
    p0 = reduce(lambda x,y:x*y, vec2Classify * p0Vec) * (1.0 - pClass1)
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else: 
        return 0

上面的代码中，
先计算， vec2Classify * p1Vec，得到测试数据的侮辱类的条件概率数组

然后计算， $P(w_{1}|侮辱)*P(w_{2}|侮辱)*...*P(w_{n}|侮辱)$

最后计算， $P(侮辱)P(w_{1}|侮辱)*P(w_{2}|侮辱)*...*P(w_{n}|侮辱)$

最后比较， p1 > p0，那个最大这个测试文档就属于那个类别。

"""
函数说明:测试朴素贝叶斯分类器
 
Parameters:
    无
Returns:
    无
"""
def testingNB():
    listOPosts,listClasses = loadDataSet()     #创建实验样本
    myVocabList = createVocabList(listOPosts)  #创建词汇表
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc)) #将实验样本向量化
    p0V,p1V,pAb = trainNB0(np.array(trainMat),np.array(listClasses)) #训练朴素贝叶斯分类器
    testEntry = ['love', 'my', 'dalmation']     #测试样本1
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))  #测试样本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')       #执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')    #执行分类并打印分类结果
    testEntry = ['stupid', 'garbage']     #测试样本2
 
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry)) #测试样本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')      #执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')  #执行分类并打印分类结果
 
if __name__ == '__main__':
    testingNB()

我们测试了两个词条，在使用分类器前，也需要对词条向量化，然后使用classifyNB()函数，用朴素贝叶斯公式，计算词条向量属于侮辱类和非侮辱类的概率。运行结果如下：

你会发现，这样写的算法无法进行分类，p0和p1的计算结果都是0，显然结果错误。这是为什么呢？

8、朴素贝叶斯改进之拉普拉斯平滑

利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档属于某个类别的概率，即计算p(w0|1)p(w1|1)p(w2|1)。如果其中有一个概率值为0，那么最后的成绩也为0。如图所示，

从上图可以看出，在计算的时候已经出现了概率为0的情况。如果新实例文本，包含这种概率为0的分词，那么最终的文本属于某个类别的概率也就是0了。显然，这样是不合理的，为了降低这种影响，可以将所有词的出现数初始化为1，并将分母初始化为2。这种做法就叫做拉普拉斯平滑(Laplace Smoothing)又被称为加1平滑，是比较常用的平滑方法，它就是为了解决0概率问题。

除此之外，另外一个遇到的问题就是下溢出，这是由于太多很小的数相乘造成的。学过数学的人都知道，两个小数相乘，越乘越小，这样就造成了下溢出。在程序中，在相应小数位置进行四舍五入，计算结果可能就变成0了。一种解决办法是对乘积取自然对数。在代数中有 ln(a * b) = ln(a) + ln(b), 于是通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时，采用自然对数进行处理不会有任何损失。

下图给出了函数 f(x) 与 ln(f(x)) 的曲线。可以看出，它们在相同区域内同时增加或者减少，并且在相同点上取到极值。它们的取值虽然不同，但不影响最终结果。

因此我们可以对面的trainNB0(trainMatrix, trainCategory)函数进行更改，修改如下：

"""
函数说明:朴素贝叶斯分类器训练函数
 
Parameters:
    trainMatrix - 训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵
    trainCategory - 训练类别标签向量，即loadDataSet返回的classVec
Returns:
    p0Vect - 非侮辱类的条件概率数组
    p1Vect - 侮辱类的条件概率数组
    pAbusive - 文档属于侮辱类的概率
"""
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)  #计算训练的文档数目
    numWords = len(trainMatrix[0])  #计算每篇文档的词条数
    pAbusive = sum(trainCategory)/float(numTrainDocs) #文档属于侮辱类的概率
    p0Num = np.ones(numWords); p1Num = np.ones(numWords) #创建numpy.ones数组,词条出现数初始化为1，拉普拉斯平滑
    p0Denom = 2.0; p1Denom = 2.0   #分母初始化为2,拉普拉斯平滑
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:  #统计属于侮辱类的条件概率所需的数据，即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:  #统计属于非侮辱类的条件概率所需的数据，即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = np.log(p1Num/p1Denom)  #取对数，防止下溢出         
    p0Vect = np.log(p0Num/p0Denom)         
    return p0Vect,p1Vect,pAbusive  #返回属于侮辱类的条件概率数组，属于非侮辱类的条件概率数组，文档属于侮辱类的概率
    
if __name__ == '__main__':
    postingList, classVec = loadDataSet()
    myVocabList = createVocabList(postingList)
    print('myVocabList:\n', myVocabList)
    trainMat = []
    for postinDoc in postingList:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(trainMat, classVec)
    print('p0V:\n', p0V)
    print('p1V:\n', p1V)
    print('classVec:\n', classVec)
    print('pAb:\n', pAb)

运行代码，就可以得到如下结果：

myVocabList:
 ['dog', 'steak', 'buying', 'park', 'quit', 'how', 'garbage', 'help', 'stop', 'mr', 'stupid', 'take', 'is', 'cute', 'food', 'him', 'dalmation', 'my', 'to', 'love', 'so', 'licks', 'ate', 'maybe', 'problems', 'worthless', 'posting', 'not', 'flea', 'has', 'please', 'I']
p0V:
 [-2.56494936 -2.56494936 -3.25809654 -3.25809654 -3.25809654 -2.56494936
 -3.25809654 -2.56494936 -2.56494936 -2.56494936 -3.25809654 -3.25809654
 -2.56494936 -2.56494936 -3.25809654 -2.15948425 -2.56494936 -1.87180218
 -2.56494936 -2.56494936 -2.56494936 -2.56494936 -2.56494936 -3.25809654
 -2.56494936 -3.25809654 -3.25809654 -3.25809654 -2.56494936 -2.56494936
 -2.56494936 -2.56494936]
p1V:
 [-1.94591015 -3.04452244 -2.35137526 -2.35137526 -2.35137526 -3.04452244
 -2.35137526 -3.04452244 -2.35137526 -3.04452244 -1.65822808 -2.35137526
 -3.04452244 -3.04452244 -2.35137526 -2.35137526 -3.04452244 -3.04452244
 -2.35137526 -3.04452244 -3.04452244 -3.04452244 -3.04452244 -2.35137526
 -3.04452244 -1.94591015 -2.35137526 -2.35137526 -3.04452244 -3.04452244
 -3.04452244 -3.04452244]
classVec:
 [0, 1, 0, 1, 0, 1]
pAb:
 0.5

这样我们得到的结果就没有问题了，不存在0概率。当然除此之外，我们还需要对代码进行修改classifyNB(vec2Classify, p0Vec, p1Vec, pClass1)函数，修改如下：

"""
函数说明:朴素贝叶斯分类器分类函数
 
Parameters:
    vec2Classify - 待分类的词条数组
    p0Vec - 非侮辱类的条件概率数组
    p1Vec -侮辱类的条件概率数组
    pClass1 - 文档属于侮辱类的概率
Returns:
    0 - 属于非侮辱类
    1 - 属于侮辱类
"""
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)        #对应元素相乘。logA * B = logA + logB，所以这里加上log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else:
        return 0

为啥这么改？

因为取自然对数了。logab = loga + logb。

测试

if __name__ == '__main__':
    testingNB()

运行结果如下：

这样，我们的朴素贝叶斯分类器就改进完毕了。

项目案例2: 使用朴素贝叶斯过滤垃圾邮件

概述

在上面的简单例子中，我们引入了字符串列表。使用朴素贝叶斯解决一些现实生活中的问题时，需要先从文本内容得到字符串列表，然后生成词向量。下面这个例子中，我们将了解朴素贝叶斯的一个最著名的应用：电子邮件垃圾过滤。

首先看一下使用朴素贝叶斯对电子邮件进行分类的步骤：

收集数据：提供文本文件。
准备数据：将文本文件解析成词条向量。
分析数据：检查词条确保解析的正确性。
训练算法：使用我们之前建立的trainNB0()函数。
测试算法：使用classifyNB()，并构建一个新的测试函数来计算文档集的错误率。
使用算法：构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上。

1、收集数据

数据可以在Github上下载：数据集下载

有两个文件夹ham和spam，spam文件下的txt文件为垃圾邮件。

2、准备数据

对于英文文本，我们可以以非字母、非数字作为符号进行切分，使用split函数即可。编写代码如下：

import re
 
"""
函数说明:接收一个大字符串并将其解析为字符串列表
 
Parameters:
    无
Returns:
    无
"""
def textParse(bigString):   #将字符串转换为字符列表
    listOfTokens = re.split(r'\W+', bigString)  #将特殊符号作为切分标志进行字符串切分，即非字母、非数字
    return [tok.lower() for tok in listOfTokens if len(tok) > 2] #除了单个字母，例如大写的I，其它单词变成小写

这里使用\W 或者\W+ 都可以将字符数字串分割开，产生的空字符将会在后面的列表推导式中过滤掉

**测试**
```python
if __name__ == '__main__':
    # spamTest()
    listOfTokens = re.split(r'\W+', open('email/ham/1.txt', 'r').read())
    print(listOfTokens)    
    wordList=textParse(open('email/ham/1.txt', 'r').read())
    print()

listOfTokens：    
['Hi', 'Peter', 'With', 'Jose', 'out', 'of', 'town', 'do', 'you', 'want', 'to', 'meet', 'once', 'in', 'a', 'while', 'to', 'keep', 'things', 'going', 'and', 'do', 'some', 'interesting', 'stuff', 'Let', 'me', 'know', 'Eugene']

 wordList：
['peter', 'with', 'jose', 'out', 'town', 'you', 'want', 'meet', 'once', 'while', 'keep', 'things', 'going', 'and', 'some', 'interesting', 'stuff', 'let', 'know', 'eugene']

构建词汇表

"""
函数说明:将切分的实验样本词条整理成不重复的词条列表，也就是词汇表
 
Parameters:
    dataSet - 整理的样本数据集
Returns:
    vocabSet - 返回不重复的词条列表，也就是词汇表
"""
def createVocabList(dataSet):
    vocabSet = set([])   #创建一个空的不重复列表
    for document in dataSet:               
        vocabSet = vocabSet | set(document) #取并集
    return list(vocabSet)
 
if __name__ == '__main__':
    docList = []; classList = []
    for i in range(1, 26):    #遍历25个txt文件
        wordList = textParse(open('email/spam/%d.txt' % i, 'r').read()) #读取每个垃圾邮件，并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(1)   #标记垃圾邮件，1表示垃圾文件
        wordList = textParse(open('email/ham/%d.txt' % i, 'r').read())  #读取每个非垃圾邮件，并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(0)  #标记非垃圾邮件，1表示垃圾文件   
    vocabList = createVocabList(docList)  #创建词汇表，不重复
    print(vocabList)

这样我们就得到了词汇表，结果如下所示：

['told', 'mail', '750', 'jewerly', 'automatically', 'ultimate', 'series', 'couple', 'either', 'yeah', '570', 'them', 'assigning', 'knocking', 'concise', 'creative', 'credit', 'don抰', 'moderate', 'days', 'can', 'trusted', 'vivek', 'changing', 'hold', 'doctor', 'hommies', 'window', '5mg', 'blue', 'hamm', '119', 'keep', 'view', '15mg', 'had', 'plus', '0nline', 'opportunity', 'level', 'where', '292', 'mandatory', 'mathematician', 'includes', 'jquery', 'of_penisen1argement', 'have', 'bike', 'call', 'cards', 'copy', 'see', 'ambiem', 'fedex', 'recieve', 'behind', 'cost', 'tabs', 'dhl', 'share', 'eugene', 'supplement', 'http', 'any', 'not', '625', 'year', 'might', 'peter', 'will', 'but', 'improving', 'you抮e', 'starting', 'today', 'sky', 'been', 'what', 'thousand', 'watchesstore', 'featured', 'vicodin', 'cartier', 'ems', 'doing', 'length', 'think', 'the', 'buy', 'than', 'then', 'approach', 'saw', 'while', 'moderately', 'town', 'things', 'interesting', 'python', 'thanks', '156', '588', '225', 'linkedin', 'others', 'below', 'strategy', 'right', 'pro', 'required', 'being', 'support', '100m', 'based', 'add', 'discussions', 'storedetailview_98', '325', 'certified', 'issues', 'price', 'effective', 'designed', 'jpgs', 'two', 'close', '200', '66343', 'nvidia', '50mg', 'plugin', 'thailand', 'ideas', 'let', 'done', 'like', '138', 'haloney', 'rude', 'freeviagra', 'reputable', 'suggest', 'dusty', 'low', 'network', '2011', 'lists', 'and', 'china', 'answer', 'thread', 'often', 'example', 'over', 'thirumalai', 'class', 'code', 'discount', 'source', 'riding', 'brand', 'drunk', 'pricing', 'about', 'using', 'said', 'off', 'inform', 'status', 'must', 'working', 'harderecetions', 'articles', 'perhaps', 'leaves', 'gucci', 'number', 'some', 'model', 'john', 'more', 'focus', 'pain', 'fine', 'pretty', 'too', '291', 'generation', 'program', 'museum', 'easily', 'save', 'jqplot', 'strategic', 'individual', 'incoming', 'cold', '129', 'narcotic', 'germany', 'party', 'mailing', 'province', '300x', 'monte', 'opioid', 'good', '100mg', 'come', 'hermes', 'bad', '180', 'via', 'from', 'hello', 'watson', 'permanantly', 'october', '195', 'financial', 'that', 'sophisticated', 'quality', 'all', 'enabled', 'accept', 'arvind', 'earn', 'fundamental', 'mandelbrot', 'analgesic', 'www', 'latest', 'know', 'mandarin', 'brands', 'com', 'holiday', '30mg', 'giants', 'went', 'percocet', 'guaranteeed', 'day', 'how', 'chinese', 'want', 'roofer', 'tiffany', 'ryan', 'computing', 'use', 'edit', 'amazing', 'chance', 'courier', 'automatic', 'well', 'another', 'school', 'much', 'pictures', 'hours', 'requested', 'don', 'delivery', 'experience', '14th', 'would', 'who', 'dior', 'team', 'yay', 'transformed', 'has', 'update', 'dozen', 'wholesale', 'now', 'item', 'survive', 'prepared', 'faster', 'canadian', 'sent', 'past', 'adobe', 'owner', 'food', 'experts', 'bargains', 'fermi', 'retirement', 'cuda', 'lunch', 'ferguson', 'invitation', 'inches', 'notification', '492', 'moneyback', 'magazine', 'oem', 'increase', 'buyviagra', 'endorsed', 'cheers', 'stuff', 'success', 'questions', 'bags', 'game', 'per', 'worldwide', 'most', 'wilmott', 'forward', 'your', 'supporting', 'foaming', 'cs5', 'regards', 'products', 'members', 'wasn', 'longer', 'discreet', 'top', 'shipment', 'book', 'tool', 'scenic', '203', 'reply', 'warranty', 'least', 'core', 'home', 'should', 'jose', 'color', 'used', '219', '50092', 'cannot', 'genuine', 'died', 'site', 'release', 'find', 'you', 'gpu', 'louis', 'because', 'once', 'knew', '100', 'full', 'methylmorphine', 'file', 'explosive', 'care', 'glimpse', 'just', 'link', 'competitive', '120', 'style', 'significantly', 'sorry', 'sounds', 'time', 'made', 'herbal', '1924', 'looking', '2007', 'creation', 'zolpidem', 'may', '25mg', 'need', 'bathroom', 'are', 'computer', 'viagranoprescription', 'welcome', 'guy', 'noprescription', 'jay', 'those', 'thickness', 'reliever', 'writing', 'hope', 'work', 'since', 'great', 'pick', 'name', 'spaying', 'cca', 'softwares', 'horn', 'tour', 'millions', 'customized', 'back', 'vuitton', 'naturalpenisenhancement', 'only', 'functionalities', 'contact', 'superb', 'assistance', 'expertise', 'specifications', 'prices', '90563', 'changes', 'received', 'possible', 'carlo', 'inside', 'ofejacu1ate', 'get', 'page', 'insights', 'coast', 'message', 'chapter', 'biggerpenis', 'pills', 'try', 'inconvenience', 'shipping', 'each', 'parallel', 'got', 'items', 'control', 'kerry', 'gains', 'store', 'extended', 'quantitative', 'brandviagra', 'held', 'station', 'learn', 'download', 'job', 'inspired', 'tokyo', 'works', 'betterejacu1ation', 'prototype', 'thing', 'natural', 'february', 'night', 'away', 'serial', 'location', 'business', 'enjoy', 'lined', 'was', 'heard', 'development', 'net', 'speedpost', 'high', 'take', 'also', 'rain', 'hotel', 'create', 'note', 'tickets', 'rock', 'pharmacy', 'these', 'ordercializviagra', 'mathematics', 'fans', 'major', 'far', 'please', 'website', 'winter', 'amex', 'connection', 'pavilion', 'office', 'jocelyn', 'plane', '2010', '10mg', 'came', 'girl', 'capabilities', 'new', 'gain', 'treat', 'uses', 'phone', 'advocate', 'safest', 'watches', '130', 'safe', 'listed', 'microsoft', 'information', 'grow', 'cats', '385', 'address', 'upload', 'father', 'encourage', 'exhibit', 'definitely', '86152', 'does', 'finder', 'york', 'car', 'there', 'wilson', '322', 'finance', 'thought', 'severepain', 'turd', 'proven', 'specifically', 'drugs', 'fda', 'google', 'email', 'photoshop', 'free', 'one', 'needed', 'nature', 'volume', 'mom', 'acrobat', 'professional', 'arolexbvlgari', '430', 'generates', 'announcement', 'hangzhou', 'meet', 'running', 'selected', 'incredib1e', 'cat', 'phentermin', 'grounds', 'methods', 'benoit', 'door', 'ma1eenhancement', 'ones', 'private', 'fast', 'stepp', 'help', 'files', 'windows', 'commented', 'shape', 'approved', 'mba', 'ready', 'julius', 'wednesday', '174623', 'wallets', 'instead', 'comment', 'check', 'with', 'express', 'sites', 'tent', 'here', 'ups', 'place', 'expo', 'sliding', 'web', 'programming', 'money', '396', 'focusing', 'located', '199', 'management', 'modelling', 'intenseorgasns', 'bin', 'trip', 'group', 'everything', 'order', 'through', 'yourpenis', 'rent', 'tesla', 'hotels', 'pls', '513', 'fbi', 'femaleviagra', 'art', 'wrote', 'whybrew', 'could', 'butt', 'jar', 'borders', 'design', 'way', 'doggy', 'famous', 'yesterday', 'out', 'decision', 'runs', 'visa', 'income', 'codeine', 'same', 'talked', 'oris', 'they', 'differ', 'sure', '366', 'zach', 'scifinance', 'attaching', 'placed', 'troy', 'follow', 'this', 'important', 'such', 'enough', 'both', 'huge', 'service', 'pages', 'online', 'brained', 'withoutprescription', 'signed', 'hydrocodone', 'when', 'thank', 'bettererections', 'gas', 'pill', 'access', 'features', 'launch', 'forum', 'doors', 'storage', '562', 'life', 'aged', 'going', 'derivatives', 'train', 'cheap', 'groups', 'his', 'logged', 'accepted', 'having', 'titles', 'risk', 'favorite', 'fractal', 'reservation', 'docs', 'for']

4、训练和测试算法

根据词汇表，我们就可以将每个文本向量化。我们将数据集分为训练集和测试集，并随机选择10个测试样本测试朴素贝叶斯分类器的准确性。编写代码如下：

import numpy as np
import random
import re

"""
函数说明:根据vocabList词汇表，将inputSet向量化，向量的每个元素为1或0
 
Parameters:
    vocabList - createVocabList返回的列表
    inputSet - 切分的词条列表
Returns:
    returnVec - 文档向量,词集模型
"""
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  #创建一个其中所含元素都为0的向量
    for word in inputSet:    #遍历每个词条
        if word in vocabList:  #如果词条存在于词汇表中，则置1
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec    #返回文档向量

"""
函数说明:根据vocabList词汇表，构建词袋模型
 
Parameters:
    vocabList - createVocabList返回的列表
    inputSet - 切分的词条列表
Returns:
    returnVec - 文档向量,词袋模型
"""
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)    #创建一个其中所含元素都为0的向量
    for word in inputSet:    #遍历每个词条
        if word in vocabList:  #如果词条存在于词汇表中，则计数加一
            returnVec[vocabList.index(word)] += 1
    return returnVec   #返回词袋模型

测试朴素贝叶斯分类器

"""
函数说明:测试朴素贝叶斯分类器
 
Parameters:
    无
Returns:
    无
"""
def spamTest():
    docList = []; classList = []; fullText = []
    for i in range(1, 26):    #遍历25个txt文件,
        wordList = textParse(open('email/spam/%d.txt' % i, 'r').read())  #读取每个垃圾邮件，并字符串转换成字符串列表
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(1)   #标记垃圾邮件，1表示垃圾文件
        wordList = textParse(open('email/ham/%d.txt' % i, 'r').read())   #读取每个非垃圾邮件，并字符串转换成字符串列表
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(0)    #标记非垃圾邮件，1表示垃圾文件   
    vocabList = createVocabList(docList)    #创建词汇表，不重复
    trainingSet = list(range(50))
    testSet = []    #创建存储训练集的索引值的列表和测试集的索引值的列表 
    
    #从50个邮件中，随机挑选出40个作为训练集,10个做测试集                      
    for i in range(10):   
        randIndex = int(random.uniform(0, len(trainingSet))) #随机选取索索引值
        testSet.append(trainingSet[randIndex])  #添加测试集的索引值
        del(trainingSet[randIndex])   #在训练集列表中删除添加到测试集的索引值
        
    trainMat = []
    trainClasses = []   #创建训练集矩阵和训练集类别标签向量             
    for docIndex in trainingSet:   #遍历训练集
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) #将生成的词集模型添加到训练矩阵中
        trainClasses.append(classList[docIndex])  #将类别添加到训练集类别标签系向量中
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  #训练朴素贝叶斯模型
    errorCount = 0     #错误分类计数
    for docIndex in testSet:    #遍历测试集
        wordVector = setOfWords2Vec(vocabList, docList[docIndex]) #测试集的词集模型
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]: #如果分类错误
            errorCount += 1   #错误计数加1
            print("分类错误的测试集：",docList[docIndex])
    print('错误率：%.2f%%' % (float(errorCount) / len(testSet) * 100))
 
 
if __name__ == '__main__':
    spamTest()

执行结果为：

函数spamTest()会输出在10封随机选择的电子邮件上的分类错误概率。既然这些电子邮件是随机选择的，所以每次的输出结果可能有些差别。如果发现错误的话，函数会输出错误的文档的此表，这样就可以了解到底是哪篇文档发生了错误。如果想要更好地估计错误率，那么就应该将上述过程重复多次，比如说10次，然后求平均值。相比之下，将垃圾邮件误判为正常邮件要比将正常邮件归为垃圾邮件好。为了避免错误，有多种方式可以用来修正分类器。

项目案例3: 朴素贝叶斯之新浪新闻分类(Sklearn)

1、中文语句切分

考虑一个问题，英文的语句可以通过非字母和非数字进行切分，但是汉语句子呢？就比如我打的这一堆字，该如何进行切分呢？我们自己写个规则？

幸运地是，这部分的工作不需要我们自己做了，可以直接使用第三方分词组件，即jieba，没错就是"结巴"。

jieba已经兼容Python2和Python3，使用如下指令直接安装即可：

pip3 install jieba

Python中文分词组件使用简单：

民间教程：https://www.oschina.net/p/jieba
官方教程：https://github.com/fxsjy/jieba

新闻分类数据集我也已经准备好，可以到我的Github进行下载：数据集下载

数据集已经做好分类，分文件夹保存，分类结果如下：

C000008	财经
C000010	IT
C000013	健康
C000014	体育
C000016	旅游
C000020	教育
C000022	招聘
C000023	文化
C000024	军事

数据集已经准备好，接下来，让我们直接进入正题。切分中文语句，编写如下代码：


# -*- coding: UTF-8 -*-
import os
import jieba
 
def TextProcessing(folder_path):
    folder_list = os.listdir(folder_path) #查看folder_path下的文件
    data_list = []   #训练集
    class_list = []  #遍历每个子文件夹
    for folder in folder_list:
        new_folder_path = os.path.join(folder_path, folder) #根据子文件夹，生成新的路径
        files = os.listdir(new_folder_path) #存放子文件夹下的txt文件的列表 
        j = 1
        #遍历每个txt文件
        for file in files:
            if j > 100:  #每类txt样本数最多100个
                break
            #打开txt文件
            with open(os.path.join(new_folder_path, file), 'r', encoding = 'utf-8') as f: 
                raw = f.read() 
            #精简模式，返回一个可迭代的generator
            word_cut = jieba.cut(raw, cut_all = False)            
            word_list = list(word_cut)  #generator转换为list
 
            data_list.append(word_list)
            class_list.append(folder,len(folder))
            j += 1
    print(data_list)
    print(class_list)
if __name__ == '__main__':
    #文本预处理
    folder_path = './SogouC/Sample' #训练集存放地址
    TextProcessing(folder_path)

执行结果为：

2、文本特征选择

将所有文本分成训练集和测试集，并对训练集中的所有单词进行词频统计，并按降序排序。也就是将出现次数多的词语放在前，出现次数少的词语在后进行排序。编写代码如下：

import os
import random
import jieba
 
"""
函数说明:中文文本处理
 
Parameters:
    folder_path - 文本存放的路径
    test_size - 测试集占比，默认占所有数据集的百分之20
Returns:
    all_words_list - 按词频降序排序的训练集列表
    train_data_list - 训练集列表
    test_data_list - 测试集列表
    train_class_list - 训练集标签列表
    test_class_list - 测试集标签列表
"""
def TextProcessing(folder_path, test_size = 0.2):
    folder_list = os.listdir(folder_path)  #查看folder_path下的文件
    data_list = []  #数据集数据
    class_list = []   #数据集类别 
    #遍历每个子文件夹
    for folder in folder_list:
    	#根据子文件夹，生成新的路径
        new_folder_path = os.path.join(folder_path, folder)
        #存放子文件夹下的txt文件的列表
        files = os.listdir(new_folder_path)                         
        j = 1
        #遍历每个txt文件
        for file in files:
            if j > 100: #每类txt样本数最多100个                                        
                break
            #打开txt文件
            with open(os.path.join(new_folder_path, file), 'r', encoding = 'utf-8') as f:   
                raw = f.read()
            #精简模式，返回一个可迭代的generator#精简模式，返回一个可迭代的generator
            word_cut = jieba.cut(raw, cut_all = False)            
            word_list = list(word_cut) #generator转换为list
 
            data_list.append(word_list) #添加数据集数据
            class_list.append(folder) #添加数据集类别
            j += 1
 
    data_class_list = list(zip(data_list, class_list)) #zip压缩合并，将数据与标签对应压缩
    random.shuffle(data_class_list) #将data_class_list乱序
    index = int(len(data_class_list) * test_size) + 1   #训练集和测试集切分的索引值
    train_list = data_class_list[index:]  #训练集
    test_list = data_class_list[:index]   #测试集
    train_data_list, train_class_list = zip(*train_list)  #训练集解压缩
    test_data_list, test_class_list = zip(*test_list)  #测试集解压缩
 
    all_words_dict = {}  #统计训练集词频
    for word_list in train_data_list:
        for word in word_list:
            if word in all_words_dict.keys():
                all_words_dict[word] += 1
            else:
                all_words_dict[word] = 1 
    #根据键的值倒序排序
    all_words_tuple_list = sorted(all_words_dict.items(), key = lambda f:f[1], reverse = True)
    all_words_list, all_words_nums = zip(*all_words_tuple_list)    #解压缩
    all_words_list = list(all_words_list) #转换成列表
    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list
 
if __name__ == '__main__':
    #文本预处理
    folder_path = './SogouC/Sample' #训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path, test_size=0.2)
    print(all_words_list)

all_words_list就是将所有训练集的切分结果通过词频降序排列构成的单词合集。观察一下打印结果，不难发现，这里包含了很多标点符号，很显然，这些标点符号是不能作为新闻分类的特征的。

为了降低这些高频的符号对分类结果的影响，我们应该怎么做呢？

抛弃他们！ 除了这些，还有"在"，"了"这样对新闻分类无关痛痒的词。并且还有一些数字，数字显然也不能作为分类新闻的特征。所以要消除它们对分类结果的影响，我们可以定制一个规则。

一个简单的规则可以这样制定：首先去掉高频词，至于去掉多少个高频词，我们可以通过观察去掉高频词个数和最终检测准确率的关系来确定。除此之外，去除数字，不把数字作为分类特征。同时，去除一些特定的词语，比如："的"，"一"，"在"，"不"，“当然”,"怎么"这类的对新闻分类无影响的介词、代词、连词。

怎么去除这些词呢？

可以使用已经整理好的stopwords_cn.txt文本。下载地址：点我下载

这个文件是这个样子的：

我们可以根据这个文档，将这些单词去除，不作为分类的特征。我们先去除前100个高频词汇，然后编写代码如下：

读取文件里的内容，并去重

"""
函数说明:读取文件里的内容，并去重
 
Parameters:
    words_file - 文件路径
Returns:
    words_set - 读取的内容的set集合
"""
def MakeWordsSet(words_file):
    words_set = set()   #创建set集合
    with open(words_file, 'r', encoding = 'utf-8') as f:  #打开文件
        for line in f.readlines():   #一行一行读取
            word = line.strip()    #去回车
            if len(word) > 0:   #有文本，则添加到words_set中
                words_set.add(word)                               
    return words_set      #返回处理结果

文本特征选取

"""
函数说明:文本特征选取
 
Parameters:
    all_words_list - 训练集所有文本列表
    deleteN - 删除词频最高的deleteN个词
    stopwords_set - 指定的结束语
Returns:
    feature_words - 特征集
"""
def words_dict(all_words_list, deleteN, stopwords_set = set()):
    feature_words = []    #特征列表
    n = 1
    for t in range(deleteN, len(all_words_list), 1):
        if n > 1000:     #feature_words的维度为1000
            break                               
        #如果这个词不是数字，并且不是指定的结束语，并且单词长度大于1小于5，那么这个词就可以作为特征词
        if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len(all_words_list[t]) < 5:
            feature_words.append(all_words_list[t])
        n += 1   
    return feature_words

测试

if __name__ == '__main__':
    #文本预处理
    folder_path = './SogouC/Sample'    #训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path, test_size=0.2)
 
    #生成stopwords_set
    stopwords_file = './stopwords_cn.txt'
    stopwords_set = MakeWordsSet(stopwords_file)
 
    feature_words = words_dict(all_words_list, 100, stopwords_set)
    print(feature_words)

执行结果为

['成为', '支付', '目前', '仿制', '学校', '企业', '发展', '问题', '选择', '远程', '主要', '品牌', '工作', '通过', '建设', '射程', '银行', '可能', '完全', '分析', '复习', '学习', '上海', '部署', '亿美元', '开始', '很多', '词汇', '比赛', '专业', '文章', '能力', '电话', '辅导班', '考试', '基础', '使用', '填报', '五一', '达到', '部队', '比较', '部分', '技术', '管理', '表现', '服务', '产品', '重要', '情况', '表示', '拥有', '阵地', '一定', '相对', '提高', '训练', '记者', '用户', '现在', '相关', '军事', '几乎', '资料', '科学', '需要', '来源', '英语', '阅读', '要求', '历史', '坦克', '一家', '期间', '这是', '写作', '了解', '影响', '考研', '网络', '提供', '东莞', '实验室', '专家', '老师', '彻底', '准备', '必须', '黄金周', '公里', '大批', '不用', '压制', '今年', '人数', '计划', '增长', '系统', '装备', '我国', '专利', '时候', '员工', '应该', '方面', '显示', '国家', '距离', '岛屿', '数字', '游戏', '手机', '印度', '阿里', '耿大勇', '设计', '告诉', '一直', 'MBA', '建议', '日本', '协议', '不同', '沿海', '力气', '摧毁', '经济', '指挥', '全国', '知道', '最后', '参加', '最大', '挑衅', '角度', '数独', '接待', '平台', '一批', '新型', '全军', '两个', '台湾', '一次', '不能', '机会', '希望', '非常', '方式', '全球', '自寻死路', '世界领先', '型号', '开战', '金贵', '置于', '海量', '之内', '费多', '廉价', '国内', '万人次', '纳斯', '战场', '收入', '发展观', '医院', '第一', '目标', '活动', '这家', '沈阳市', '进入', '地方', '排名', '文化', '广东', '重点', '教育', '药厂', '获得', '消费者', '作用', '正在', '东引岛', '武器', '军队', '香港', '去年', '网上', '信息化', '推出', '我军', '录取', '预期', '止痛药', '知名', '喜欢', '不会', '语法', '得到', '备考', '全面', '句子', '此前', '世界', '介绍', '决定', '完成', '这种', '利用', '数学', '出现', '事情', '包括', '大学生', '复试', '理由', '未来', '电脑', '销售', 'VS', '治疗', '顾客', '分期付款', '发现', '是否', '成功', '结果', '项目', '分钟', '原因', '实现', '数据', '交易', '越来越', '左右', '火力', '设立', '基本', '院校', '组织', '演练', '医疗', '孩子', '本场', '药物', '镇痛药', '有限公司', '努力', '每个', '领导', '一年', '中心', '知识', '掌握', '小时', '信息', '之后', '一下', '吸引', '整个', '超过', '埃及', '面对', '詹姆斯', '帮助', '内容', '认证', '上市', '学员', '患者', '利苑', '考虑', '根本', '客户', '实施', '简历', '这一', '注意', '大学', '特别', '坚持', '发布', '著名', '更加', '经验', '最近', '各型', '不断', '生活', '景点', '景区', '对手', '回家', '人才', '蓝军', '上午', '消息', '指出', '领域', '连续', '免息', '感觉', '不少', '职业', '业务', '一起', '理解', '大量', '其实', '休闲', '发生', '三个', '媒体', '参与', '增加', '一样', '公布', '补充', '今天', '之间', '能够', '创造', '开通', '消费', '标志', '赔偿', '之前', '伯德', '研究', '分公司', '面试', '过年', '关国光', '明显', '制药', '疼痛', '最佳', '振保', '一位', '这次', '起来', '晋升', '社会', '支持', '容易', '资源', '环境', '同事', '真正', '翻译', '每天', '找到', '关键', '当时', '元老', '昨天', '之一', '代表', '第一次', '产生', '电视', '意味着', '关系', '价值', '购买', '攻击', '下载', '条件', '欧洲', '女士', '本报', '电子', '口技', '结束', '发出', '单位', '总部', '网站', '战斗', '标题', '功能', '官兵', '教材', '本科', '密码', '批次', '酒家', '主动', '先后', '投入', '稳定', '提升', '变得', '安排', '规则', '采取', '方法', '过程', '加强', '很大', '效果', '不要', '集团', '亿元', '每股', '价格', '首次', '协会', '举行', '建立', '有效', '数量', '胜利', '一场', '泰国', '十分', '预计', '广播', '合作', '展示', '骗局', '很快', '力量', '同学', '关键字', '美国在线', '东部', '内容摘要', '工程', '联想', '优秀', '邮票', '第三方', '方向', '市民', 'gt', '补报', '听课', '机构', '提出', '一页', '过去', '第二', '三分', '经理', '有点', '失去', '取得', '只能', '综合', '练习', '平时', '核心', '突破', '范文', '考场', '韩国', '东南亚', '围棋', '广告', '刚刚', '带来', '进一步', '透露', '报道', '大师', '迅速', '图库', '负责', '巨大', '几年', '万人', '开展', '米勒', '罚球', '预测', '不再', '跨国公司', '提醒', '培训', '广州', '搜索', '保障', '红军', '培养', '医药', '海上', '埃弗顿', '办法', '口语', '牙膏', '场位', '本书', '商业银行', '传统', '网上支付', '吸烟', '戒烟', '国防', '战争', '初盘', '销售额', '收益', '可选报', '阿片类', '敏华', '南京', '至少', '真实', '变成', '竞争', '空间', '留下', '往往', '下来', '商机', '积极', '熟悉', '增强', '安妮', '呼叫', '改革', '经常', '汪力', '行动', '运用', '集中', '阶段', '考前', '精读', '水平', '必要', '成绩', '题目', '参看', '发挥', '日电', '出境', '签订', '变化', '人士', '具有', '沈阳', '即将', '时代', '经典', '挑战', '战略', '两年', '近年来', '短程', '战术导弹', '点穴', '旅游者', '月份', '年前', '一半', '人口', '负责人', '报告', '共同', '女兵', '打击', '工具', '招聘', '半导体', '上网', '装甲团', '机票', '应用', '压力', '高清晰', '调查', '展开', '听力', '降价', '多年', '增幅', '动力', '安全性', '模拟', '连队', '辅导', '兵器', '家教', '学生', '泰华', '红玫瑰', '白玫瑰', '新加坡', '一天', '现实', '回到', '重新', '诊断', '结合', '业绩', '意见', '实力', '轻松', '避免', '分为', '考题', '记忆', '单词', '查询', '最好', '为主', '一般', '比例', '汉语', '结构', '技巧', '做到', '固定', '尤其', '仍然', '保证', '思路', '继续', '公民', '双方', '主席', '陈祖德', '关注', '更是', '依然', '用于', '程度', '工资', '公斤', '军方', '正式', '基地', '评估', '年代', '属于', '采用', '垃圾', '出版', '困难', '专门', '几天', '来到', '经营', '商店', '举办', '进攻', '显然', '满足', '制定', '晚上', '鼓励', '命令', 'www', '兄弟', 'of', '英文', '故障', '下降', '诺基亚', '需求', '费用', '华纳', 'BBC', '免费', '安契塔', '商业', '贯彻', '账户', '生产', '相互', '利润', '因素', '国际', '相当', '独立', '觉得', '标准', '有望', '主队', '原则', '心理', 'com', '干部', '季泽', '制剂', '家长', '调剂', '二外', '招生', '生物', '市营率', '非甾体', '参考书', '大多数', '股骨头', '雅思', '出品', '导演', '指导', '语言', '形象', '一番', '好好', '看看', '离开', '上司', '印象', '第三', '表明', '总监', '愿意', '有所']

可以看到，我们已经滤除了那些没有用的词组，这个feature_words就是我们最终选出的用于新闻分类的特征。随后，我们就可以根据feature_words，将文本向量化，然后用于训练朴素贝叶斯分类器。这个向量化的思想和上面的思想一致，因此不再累述。

代码如下：

"""
函数说明:根据feature_words将文本向量化
 
Parameters:
    train_data_list - 训练集
    test_data_list - 测试集
    feature_words - 特征集
Returns:
    train_feature_list - 训练集向量化列表
    test_feature_list - 测试集向量化列表

"""
def TextFeatures(train_data_list, test_data_list, feature_words):
    def text_features(text, feature_words): #出现在特征集中，则置1                                               
        text_words = set(text)
        features = [1 if word in text_words else 0 for word in feature_words]
        return features
    train_feature_list = [text_features(text, feature_words) for text in train_data_list]
    test_feature_list = [text_features(text, feature_words) for text in test_data_list]
    return train_feature_list, test_feature_list   #返回结果

3、使用Sklearn构建朴素贝叶斯分类器

数据已经处理好了，接下来就可以使用sklearn构建朴素贝叶斯分类器了。

官方英文文档地址：文档地址
朴素贝叶斯是一类比较简单的算法，scikit-learn中朴素贝叶斯类库的使用也比较简单。相对于决策树，KNN之类的算法，朴素贝叶斯需要关注的参数是比较少的，这样也比较容易掌握。

在scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯，MultinomialNB就是先验为多项式分布的朴素贝叶斯，而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。上面讲解的先验概率模型就是先验概率为多项式分布的朴素贝叶斯。

对于新闻分类，属于多分类问题。我们可以使用MultinamialNB()完成我们的新闻分类问题。MultinomialNB假设特征的先验概率为多项式分布，即如下式：
$P(X_{j}=x_{jl}|Y=C_{k})=\frac{X_{jl}+\lambda }{m_{k}+n\lambda}$

其中， $P(X_{j }= x_{jl} | Y = C_{k})$ 是第 $k$ 个类别的第j维特征的第 $l$ 个取值条件概率。 $m_{k}$ 是训练集中输出为第k类的样本个数。λ为一个大于0的常数，常常取值为1，即拉普拉斯平滑，也可以取其他值。

接下来，我们看下MultinamialNB这个函数，只有3个参数：

class sklearn.naive_bayes.MultinomialNB(*, alpha=1.0, fit_prior=True, class_prior=None)

参数说明如下：

alpha：浮点型可选参数，默认为1.0，其实就是添加拉普拉斯平滑，即为上述公式中的λ ，如果这个参数设置为0，就是不添加平滑；

fit_prior：布尔型可选参数，默认为True。布尔参数fit_prior表示是否要考虑类别先验概率，如果是false,则所有的样本类别输出都有相同的类别先验概率。否则可以自己用第三个参数class_prior输入先验概率，或者不输入第三个参数class_prior让MultinomialNB自己从训练集样本来计算先验概率，此时的先验概率为P(Y=Ck)=mk/m。其中m为训练集样本总数量，mk为输出为第k类别的训练集样本数。

class_prior：可选参数，默认为None。

除此之外，MultinamialNB也有一些方法供我们使用：

MultinomialNB一个重要的功能是有partial_fit方法，这个方法一般用在训练集数据量非常大，一次不能全部载入内存的时候。这时我们可以把训练集分成若干等分，重复调用partial_fit来一步步的学习训练集，非常方便。GaussianNB和BernoulliNB也有类似的功能。

在使用MultinomialNB的fit方法或者partial_fit方法拟合数据后，我们可以进行预测。

此时预测有三种方法，包括predict，predict_log_proba和predict_proba。predict方法就是我们最常用的预测方法，直接给出测试集的预测类别输出。predict_proba则不同，它会给出测试集样本在各个类别上预测的概率。predict_proba预测出的各个类别概率里的最大值对应的类别，也就是predict方法得到的类别。
predict_log_proba和predict_proba类似，它会给出测试集样本在各个类别上预测的概率的一个对数转化。转化后predict_log_proba预测出的各个类别对数概率里的最大值对应的类别，也就是predict方法得到类别。

了解了这些，我们就可以编写代码，通过观察取不同的去掉前deleteN个高频词的个数与最终检测准确率的关系，确定deleteN的取值：

from sklearn.naive_bayes import MultinomialNB
import matplotlib.pyplot as plt
import os
import random
import jieba

 
"""
函数说明:新闻分类器
 
Parameters:
    train_feature_list - 训练集向量化的特征文本
    test_feature_list - 测试集向量化的特征文本
    train_class_list - 训练集分类标签
    test_class_list - 测试集分类标签
"""
def TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list):
    classifier = MultinomialNB().fit(train_feature_list, train_class_list)
    test_accuracy = classifier.score(test_feature_list, test_class_list)
    return test_accuracy

if __name__ == '__main__':
    #文本预处理
    folder_path = './SogouC/Sample'  #训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path, test_size=0.2)
 
    # 生成stopwords_set
    stopwords_file = './stopwords_cn.txt'
    stopwords_set = MakeWordsSet(stopwords_file)
 
 
    test_accuracy_list = []
    deleteNs = range(0, 1000, 20)  #0 20 40 60 ... 980
    for deleteN in deleteNs:
        feature_words = words_dict(all_words_list, deleteN, stopwords_set)
        train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
        test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
        test_accuracy_list.append(test_accuracy)
 
    plt.figure()
    plt.plot(deleteNs, test_accuracy_list)
    plt.title('Relationship of deleteNs and test_accuracy')
    plt.xlabel('deleteNs')
    plt.ylabel('test_accuracy')
    plt.show()

执行结果如下，

我们绘制出了deleteNs和test_accuracy的关系，这样我们就可以大致确定去掉前多少的高频词汇了。每次运行程序，绘制的图形可能不尽相同，我们可以通过多次测试，来决定这个deleteN的取值，然后确定这个参数，这样就可以顺利构建出用于新闻分类的朴素贝叶斯分类器了。我测试感觉400还不错，最差的分类准确率也可以达到百分之50以上。将if __name__ == '__main__'下的代码修改如下：

if __name__ == '__main__':
    #文本预处理
    folder_path = './SogouC/Sample' #训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path, test_size=0.2)
 
    # 生成stopwords_set
    stopwords_file = './stopwords_cn.txt'
    stopwords_set = MakeWordsSet(stopwords_file)
 
    test_accuracy_list = []
    feature_words = words_dict(all_words_list, 400, stopwords_set)
    train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
    test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
    test_accuracy_list.append(test_accuracy)
    ave = lambda c: sum(c) / len(c)
 
    print(ave(test_accuracy_list))

运行结果：

四、总结

朴素贝叶斯推断的一些优点：

生成式模型，通过计算概率来进行分类，可以用来处理多分类问题。
对小规模的数据表现很好，适合多分类任务，适合增量式训练，算法也比较简单。

朴素贝叶斯推断的一些缺点：

对输入数据的表达形式很敏感。
由于朴素贝叶斯的“朴素”特点，所以会带来一些准确率上的损失。
需要计算先验概率，分类决策存在错误率。

注意：

在训练朴素贝叶斯分类器之前，要处理好训练集，文本的清洗还是有很多需要学习的东西。
根据提取的分类特征将文本向量化，然后训练朴素贝叶斯分类器。
去高频词汇数量的不同，对结果也是有影响的的。
拉普拉斯平滑对于改善朴素贝叶斯分类器的分类效果有着积极的作用。

参考文章：

机器学习实战教程（四）：朴素贝叶斯基础篇之言论过滤器 | Jack Cui
ApacheCN 第4章基于概率论的分类方法: 朴素贝叶斯
《机器学习实战》

本文出现的所有代码，来自github参考代码。

你可能感兴趣的:(机器学习,朴素贝叶斯)

在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
Python 机器学习核心入门与实战进阶 Day 8 - 数据建模与分析项目实战预备：项目规划与需求拆解蓝婷儿 python python 机器学习开发语言
✅今日目标理解数据分析/建模项目的一般流程练习项目需求理解与目标拆解明确后续模型评估指标与预期交付成果起草项目计划文档（可选写为Markdown）一、项目背景与题目建议（可选方向）项目名称简介学生成绩预测分析系统根据历史表现预测成绩是否达标、学科薄弱点等求职者简历筛选模型根据简历信息预测是否通过初筛电商用户购买预测系统分析用户行为数据预测是否购买公司销售数据趋势分析可视化+聚合分析：月销售趋势、区
【机器学习&深度学习】为什么分类任务中类别比例应接近 1:1？一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是类别不平衡？二、为什么类别比例应接近1:1？2.1⚠模型容易“偏科”2.2精确率、召回率失真2.3模型训练失衡，梯度方向偏移三、现实案例中的“灾难性后果”四、如何应对类别不平衡问题？4.1数据层面处理4.2模型训练层面优化4.3评估指标替代五、实际场景举例六、模拟场景：银行信用卡欺诈检测6.1场景描述6.2数据集情况6.3模型训练结果（未处理不平衡）6.4模型做了什么？6.5实际
TensorBase开发者快速入门指南宗隆裙
TensorBase开发者快速入门指南tensorbasetensorbase/tensorbase:是一个现代的GPU加速的张量数据库。适合用于大规模数据分析和机器学习。项目地址:https://gitcode.com/gh_mirrors/te/tensorbase前言TensorBase是一个基于Rust构建的高性能时序数据库，专为大规模数据分析场景设计。本文将详细介绍如何搭建TensorB
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。