admin18511385056

机器学习算法( 四、朴素贝叶斯算法)

一、概述　　

　　前两章我们要求分类器做出艰难决策，给出“该数据实例属于哪一类”这类问题的明确答案。不过，分类器有时会产生错误结果，这时可以要求分类器给出一个最优的类别猜测结果，同时给出这个猜测的概率估计值。

　　概率论是许多机器学习算法的基础，所以深刻理解这一主题就显得十分重要。第3章在计算特征值取某个值的概率时涉及了一些概率知识，在那里我们先统计特征在数据集中取某个特定值的次数，然后除以数据集的实例总数，就得到了特征取该值的概率。我们将在此基础上深人讨论。
本章会给出一些使用概率论进行分类的方法。首先从一个最简单的概率分类器开始，然后给出一些假设来学习朴素贝叶斯分类器。我们称之为“朴素”，是因为整个形式化过程只做最原始、最简单的假设。不必担心，你会详细了解到这些假设。我们将充分利用Python的文本处理能力将文档切分成词向量，然后利用词向量对文档进行分类。我们还将构建另一个分类器，观察其在真实的垃圾邮件数据集中的过滤效果，必要时还会回顾一下条件概率。最后，我们将介绍如何从个人发布的大量广告中学习分类器，并将学习结果转换成人类可理解的信息。

　　假设现在我们有一个数据集，它由两类数据组成，数据分布如图所示。

　　我们现在用p1(x,y)表示数据点(x,y)属于类别1(以图中用圆点表示的类别）的概率，用p2(x,y)表示数据点(x,y)属于类别2 ( 图中用三角形表示的类别）的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：

也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。回到图，如果该图中的整个数据使用6个浮点数来表示，并且计算类别概率的python代码只有两行，那么你会更倾向于使用下面哪种方法来对该数据点进行分类？
(1)使用第1章的knn ，进行1000次距离计算；
(2)使用第2章的决策树，分别沿x轴、y轴划分数据；
(3)计算数据点属于每个类别的概率，并进行比较。
使用决策树不会非常成功；而和简单的概率计算相比，knn的计算量太大。因此，对于上述问题，最佳选择是使用刚才提到的概率比较方法

二、优缺点　　

优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对于输入数据的准备方式较为敏感。
适用数据类型：标称型数据。

三、数学公式　　

　　贝叶斯定理

　了解贝叶斯定理之前，需要先了解下条件概率。P(A|B)表示在事件B已经发生的条件下事件A发生的概率：

　　假如我们已经知道了P(A|B)，但是现在我们想要求P(B|A)，也就是在事件A发生的条件下事件B发生的概率，这时贝叶斯定理就派上用场了。

　　前面提到贝叶斯决策理论要求计算两个概率p1(x,y) 和p2(x,y)；

　　但这两个准则并不是贝叶斯决策理论的所有内容。使用p1() p2()只是为了简化描述，而真正需要计算和比较的是p(c₁|x,y) 和p(c₂|x,y)。这些符号的意思是：

给定某个x,y表示的数据点，那么该数据点来自类别c₁的概率是多少? 来自c₂的概率又是多少？

　　现分别有 A、B 两个容器，在容器 A 里分别有 7 个红球和 3 个白球，在容器 B 里有 1 个红球和 9 个白球，现已知从这两个容器里任意抽出了一个球，问这个球是红球且来自容器 A 的概率是多少?

　　假设已经抽出红球为事件 B，选中容器 A 为事件 A，则有：P(B) = 8/20，P(A) = 1/2，P(B|A) = 7/10，

　　按照公式，则有：P(A|B) = (7/10)*(1/2) / (8/20) = 0.875

四、使用朴素贝叶斯进行文档分类　

　机器学习的一个重要应用就是文档的自动分类。在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。虽然电子邮件是一种会不断增加的文本，但我们同样也可以对新闻报道、用户留言、政府公文等其他任意类型的文本进行分类。我们可以观察文档中出现的词，并把每个词的出现或者不出现作为一个特征，这样得到的特征数目就会跟词汇表中的词目一样多。朴素贝叶斯是上节介绍的贝叶斯分类器的一个扩展，是用于文档分类的常用算法。
使用每个词作为特征并观察它们是否出现，这样得到的特征数目会有多少呢？针对的是哪一种人类语言呢？当然不止一种语言。据估计，仅在英语中，单词的总数就有500000之多。为了能进行英文阅读，估计需要掌握数千单词。

所谓独立,指的是统计意义上的独立，即一个特征或者单词出现的可能性与它和其他单词相邻没有关系。

这个假设正是朴素贝叶斯分类器中朴素一词的含义,朴素贝叶斯分类器中的另一个假设是，每个特征同等重要.

　　算法一般流程

　　1.数据的收集

2.数据的准备：数值型或布尔型

3.分析数据

4.训练算法：计算不同的独立特征的条件概率

5.测试算法：计算错误率

　　6.使用算法：以实际应用为驱动

　　朴素贝叶斯伪代码

1.计算各个独立特征在各个分类中的条件概率

2.计算各类别出现的概率

3.对于特定的特征输入，计算其相应属于特定分类的条件概率

4.选择条件概率最大的类别作为该输入类别进行返回

五、准备数据：从文本中构建词向量

　　我们将把文本看成单词向量或者词条向量，也就是说将句子转换为向量。考虑出现在所有文档中的所有单词，再决定将哪些词纳人词汇表或者说所要的词汇集合，然后必须要将每一篇文档转换为词汇表上的向量。

　　词表到向量的转换函数：

 1 def loadDataSet():
 2     postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
 3                  ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
 4                  ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
 5                  ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
 6                  ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
 7                  ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
 8     classVec = [0,1,0,1,0,1]    #1 代表侮辱性词, 0 代表正常言论
 9     return postingList,classVec
10                  
11 def createVocabList(dataSet): #根据数据集返回  关键词汇向量
12     vocabSet = set([])  # 创建空的集合
13     for document in dataSet:
14         vocabSet = vocabSet | set(document) # 操作符 | 用来求两个集合的并集
15     return list(vocabSet)  # 返回 集合中 所有不重复的关键词
16 
17 def setOfWords2Vec(vocabList, inputSet):# vocabList=词汇表 ，inputSet = 输入的文档 #文档词汇 转换 成文档 向量
18     returnVec = [0]*len(vocabList) # 生成一个值为0，长度和vocabList一样的集合
19     for word in inputSet:
20         if word in vocabList:
21             returnVec[vocabList.index(word)] = 1
22         else: print "the word: %s is not in my Vocabulary!" % word
23     return returnVec # 返回 输入文档inputSet 的向量

　第一个函数loadDataset()创建了一些实验样本。该函数返回的第一个变量是进行词条切分后的文档集合,这些文档来自斑点犬爱好者留言板。这些留言文本被切分成一系列的词条集合，标点符号从文本中去掉，后面会探讨文本处理的细节。loadDataSet( )函数返回的第二个变量是一个类别标签的集合。这里有两类，侮辱性和非侮辱性。这些文本的类别由人工标注，这些标注信息用于训练程序以便自动检测侮辱性留言。
下一个函数createVocabList（）会创建一个包含在所有文档中出现的不重复词的列表，为此使用了Python 的set数据类型。将词条列表输给set构造数，set（）就会返回一个不重复词表。首先，创建一个空集合, 然后将每篇文档返回的新词集合添加到该集合中。操作符丨用于求两个集合的并集，这也是一个按位或（or) 操作符（参见附录0）。在数学符号表示上，按位或操作与集合求并操作使用相同记号。
获得词汇表后，便可以使用函数setofWords2Vec（），该函数的输人参数为词汇表及某个文档，输出的是文档向量，向量的每一元素为1或0，分别表示词汇表中的单词在输人文档中是否出现。函数首先创建一个和词汇表等长的向量，并将其元素都设置为0 。接着，遍历文档中的所有单词，如果出现了词汇表中的单词，则将输出的文档向量中的对应值设为1。一切都顺利的话，就不需要检查某个词是否还vobalist中，后边可能会用到这一操作。

　　测试代码：

 1 >>> listOPost,listClasses=bayes.loadDataSet()
 2 >>> listOPost
 3 [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
 4 >>> listClasses
 5 [0, 1, 0, 1, 0, 1]
 6 >>> myVocabList=bayes.createVocabList(listOPost)
 7 >>> myVocabList
 8 ['garbage', 'love', 'my', 'dog', 'park', 'buying', 'help', 'is', 'so', 'to', 'ate', 'steak', 'please', 'him', 'not', 'stupid', 'take', 'maybe', 'posting', 'problems', 'worthless', 'I', 'food', 'quit', 'mr', 'dalmation', 'stop', 'has', 'licks', 'how', 'flea', 'cute']
 9 #检查上述的词表发现，这里不会出现重复的单词
10 >>> bayes.setOfWords2Vec(myVocabList,listOPost[0])# 把文档转换成向理
11 [0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0]
12 >>> bayes.setOfWords2Vec(myVocabList,listOPost[3])# 把文档转换成向理
13 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]

六、训练算法：从词向量计算概率

　　前面介绍了如何将一组单词转换为一组数字，接下来看看如何使用这些数字计算概率。现在已经知道一个词是否出现在一篇文档中，也知道该文档所属的类别。还记得前面提到的贝叶斯准则？我们重写贝叶斯准则，将之前的x、y替换为w。粗体w表示这是一个向量，即它由多个数值组成。在这个例子中，数值个数与词汇表中的词个数相同。

该函数的伪代码如下：

计算每个类别中的文档数目
对每篇训练文档：
      对每个类别：
            如果词条出现文档中―增加该词条的计数值
            增加所有词条的计数值
      对每个类别：
            对每个词条：
                将该词条的数目除以总词条数目得到条件概率

     还回每个类别的条件概率

　　朴素贝叶斯分类器训练函数：

 1 def trainNB0(trainMatrix,trainCategory):  #trainMatrix 所有文档的向量形式  trainCategory 文档的分类 类别向量 #计算不同分类的文档概率，即 P(W|C₁) P(W|C₀)
 2     numTrainDocs = len(trainMatrix) #  numTrainDocs = 总文档数
 3     numWords = len(trainMatrix[0]) # numWords= 词汇长度
 4     pAbusive = sum(trainCategory)/float(numTrainDocs)  # 计算 分类=1 的文档比例 p(1)的概率，这是一个二分类的问题 p(0)=1-p(1)
 5     p0Num = zeros(numWords); p1Num = zeros(numWords)      #初始化概率， 分子
 6     p0Denom = 0.0; p1Denom = 0.0                        #定义分母
 7     for i in range(numTrainDocs):
 8         if trainCategory[i] == 1: #类别为 1 
 9             p1Num += trainMatrix[i]  # 分子向量累计相加
10             p1Denom += sum(trainMatrix[i])#分母 向量之和
11         else:
12             p0Num += trainMatrix[i]
13             p0Denom += sum(trainMatrix[i])
14     p1Vect = p1Num/p1Denom          # 当类别为 1 时，计算每个文档中出现 词汇的概率
15     p0Vect = p0Num/p0Denom          #
16     return p0Vect,p1Vect,pAbusive

　　代码函数中的输入参数为文档矩阵trainMa-trix，以及由每篇文档类别标签所构成的向量train-Category。首先，计算文档属于侮辱性文档（class=1）的概率，即P(1)。因为这是一个二类分类问题，所以可以通过1-P(1)得到P(0)。对于多于两类的分类问题，则需要对代码稍加修改。

　　计算p(w_i|c₁)和p(w_i|c₀)，需要初始化程序中的分子变量和分母变量①。由于w中元素如此众多，因此可以使用NumPy数组快速计算这些值。

　　上述程序中的分母变量是一个元素个数等于词汇表大小的NumPy数组。在for循环中，要遍历训练集trainMatrix中的所有文档。一旦某个词语（侮辱性或正常词语）在某一文档中出现，则该词对应的个数（p1Num或者p0Num）就加1，而且在所有的文档中，该文档的总词数也相应加1②。对于两个类别都要进行同样的计算处理。最后，对每个元素除以该类别中的总词数③。利用NumPy可以很好实现，用一个数组除以浮点数即可，若使用常规的Python列表则难以完成这种任务，读者可以自己尝试一下。最后，函数会返回两个向量和一个概率。

　　接下来试验一下，在Python提示符下输入：

 1 >>> listOPosts,listClasses=bayes.loadDataSet()
 2 
 3 >>> listOPosts
 4 [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
 5  ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
 6  ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], 
 7  ['stop', 'posting', 'stupid', 'worthless', 'garbage'], 
 8  ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
 9  ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
10 >>> listClasses
11 [0, 1, 0, 1, 0, 1]
12 
13 >>> myVocabList=bayes.createVocabList(listOPosts)
14 #至此我们构建了一个包含所有词的列表myVocabList。
15 >>> myVocabList
16 ['garbage', 'love', 'my', 'dog', 'park', 'buying', 'help', 'is', 'so', 'to', 'ate', 'steak', 'please', 'him', 'not', 'stupid', 'take', 'maybe', 'posting', 'problems', 'worthless', 'I', 'food', 'quit', 'mr', 'dalmation', 'stop', 'has', 'licks', 'how', 'flea', 'cute']
17 
18 >>> trainMat=[]
19 >>> for postinDoc in listOPosts:
20     trainMat.append(bayes.setOfWords2Vec(myVocabList,postinDoc))
21 
22 >>> trainMat
23 [[0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0], 
24 [0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
25 [0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1], 
26 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0], 
27 [0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0], 
28 [0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]]
29 #该for循环使用词向量来填充trainMat列表。下面给出属于侮辱性文档的概率以及两个类别的概率向量
30 >>> p0V,p1V,pAb=bayes.trainNB0(trainMat,listClasses)
31 >>> pAb  #这就是任意文档属于侮辱性文档的概率。
32 0.5
33 >>> p0V
34 array([ 0.        ,  0.04166667,  0.125     ,  0.04166667,  0.        ,
35         0.        ,  0.04166667,  0.04166667,  0.04166667,  0.04166667,
36         0.04166667,  0.04166667,  0.04166667,  0.08333333,  0.        ,
37         0.        ,  0.        ,  0.        ,  0.        ,  0.04166667,
38         0.        ,  0.04166667,  0.        ,  0.        ,  0.04166667,
39         0.04166667,  0.04166667,  0.04166667,  0.04166667,  0.04166667,
40         0.04166667,  0.04166667])
41 >>> p1V
42 array([ 0.05263158,  0.        ,  0.        ,  0.10526316,  0.05263158,
43         0.05263158,  0.        ,  0.        ,  0.        ,  0.05263158,
44         0.        ,  0.        ,  0.        ,  0.05263158,  0.05263158,
45         0.15789474,  0.05263158,  0.05263158,  0.05263158,  0.        ,
46         0.10526316,  0.        ,  0.05263158,  0.05263158,  0.        ,
47         0.        ,  0.05263158,  0.        ,  0.        ,  0.        ,
48         0.        ,  0.        ])

　　首先，我们发现文档属于侮辱类的概率pAb为0.5，该值是正确的。接下来，看一看在给定文档类别条件下词汇表中单词的出现概率，看看是否正确。词汇表中的第一个词是cute，其在类别0中出现1次，而在类别1中从未出现。对应的条件概率分别为0.041 666 67与0.0。该计算是正确的。我们找找所有概率中的最大值，该值出现在P(1)数组第26个下标位置，大小为0.157 89474。在myVocabList的第26个下标位置上可以查到该单词是stupid。这意味着stupid是最能表征类别1（侮辱性文档类）的单词。

七、测试算法：根据现实情况修改分类器

　　利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档属于某个类别的概率，即计算p(w₀|1)p(w₁|1)p(w₂|1)。如果其中一个概率值为0，那么最后的乘积也为0。为降低这种影响，可以将所有词的出现数初始化为1，并将分母初始化为2。在文本编辑器中打开bayes.py文件，并将trainNB0()的第4行和第5行修改为：

p0Num=ones(numWords);p1Num=ones(numWords)

p0Denom=2.0;p1Denom=2.0

　　另一个遇到的问题是下溢出，这是由于太多很小的数相乘造成的。当计算乘积p(w₀|c_i)p(w₁|c_i)p(w₂|c_i)...p(w_n|c_i)时，由于大部分因子都非常小，所以程序会下溢出或者得到不正确的答案。（读者可以用Python尝试相乘许多很小的数，最后四舍五入后会得到0。）

　　一种解决办法是对乘积取自然对数。在代数中有ln(a*b) =ln(a)+ln(b)，于是通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时，采用自然对数进行处理不会有任何损失。图给出函数f(x)与ln(f(x))的曲线。检查这两条曲线，就会发现它们在相同区域内同时增加或者减少，并且在相同点上取到极值。它们的取值虽然不同，但不影响最终结果。

函数f(x)与ln(f(x))会一块增大。这表明想求函数的最大值时，可以使用该函数的自然对数来替换原函数进行求解

通过修改return前的两行代码，将上述做法用到分类器中：

p1Vect=log(p1Num/p1Denom)

p0Vect=log(p0Num/p0Denom)

　　修改后的 trainNB0 代码：

 1 def trainNB0(trainMatrix,trainCategory):
 2     numTrainDocs = len(trainMatrix)
 3     numWords = len(trainMatrix[0])
 4     pAbusive = sum(trainCategory)/float(numTrainDocs)
 5     p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones() 
 6     p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
 7     for i in range(numTrainDocs):
 8         if trainCategory[i] == 1:
 9             p1Num += trainMatrix[i]
10             p1Denom += sum(trainMatrix[i])
11         else:
12             p0Num += trainMatrix[i]
13             p0Denom += sum(trainMatrix[i])
14     p1Vect = log(p1Num/p1Denom)          #change to log()
15     p0Vect = log(p0Num/p0Denom)          #change to log()
16     return p0Vect,p1Vect,pAbusive

　　现在已经准备好构建完整的分类器了。当使用NumPy向量处理功能时，这一切变得十分简单。打开文本编辑器，将下面的代码添加到bayes.py中：

　　朴素贝叶斯分类函数

 1 def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):  #根据 输入的 文档 对文档进行分类 预测 P(W|C₀)=p0Vec  P(W|C₁)=p0Vec
 2     p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
 3     p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
 4     if p1 > p0:
 5         return 1
 6     else: 
 7         return 0
 8     
 9 def testingNB():
10     listOPosts,listClasses = loadDataSet()
11     myVocabList = createVocabList(listOPosts)
12     trainMat=[]
13     for postinDoc in listOPosts:
14         trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
15     p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
16     testEntry = ['love', 'my', 'dalmation']
17     thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
18     print (testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
19     testEntry = ['stupid', 'garbage']
20     thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
21     print (testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))

　　　classifyNB代码有4个输入：要分类的向量vec2Clas-sify以及使用函数trainNB0()计算得到的三个概率。使用NumPy的数组来计算两个向量相乘的结果①。这里的相乘是指对应元素相乘，即先将两个向量中的第1个元素相乘，然后将第2个元素相乘，以此类推。接下来将词汇表中所有词的对应值相加，然后将该值加到类别的对数概率上。最后，比较类别的概率返回大概率对应的类别标签。

　　下面来看看实际结果。将程序清单4-3中的代码添加之后，在Python提示符下输入：

1 >>> imp.reload(bayes)
2 'bayes' from 'F:\\99999_算法\\《机器学习实战》源代码\\machinelearninginaction\\Ch04\\bayes.py'>
3 >>> bayes.testingNB()
4 ['love', 'my', 'dalmation'] classified as:  0
5 ['stupid', 'garbage'] classified as:  1

八、文档词袋模型

　　目前为止，我们将每个词的出现与否作为一个特征，这可以被描述为词集模型（set-of-words model）。如果一个词在文档中出现不止一次，这可能意味着包含该词是否出现在文档中所不能表达的某种信息，这种方法被称为词袋模型（bag-of-wordsmodel）。在词袋中，每个单词可以出现多次，而在词集中，每个词只能出现一次。为适应词袋模型，需要对函数setOf-Words2Vec()稍加修改，修改后的函数称为bagOfWords2Vec()。下面的程序清单给出了基于词袋模型的朴素贝叶斯代码。它与函数setOfWords2Vec()几乎完全相同，唯一不同的是每当遇到一个单词时，它会增加词向量中的对应值，而不只是将对应的数值设为1。

　　朴素贝叶斯词袋模型

def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

九、示例：使用朴素贝叶斯过滤垃圾邮件

转载于:https://www.cnblogs.com/netuml/p/5725650.html

铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
2022-04-18 Apbenz
语重心长的和我说，不要老是说不行，人至而立之年危机四伏，内在的，外在的，感觉就是心力憔悴，让人无所适从。面对职场的无情，突然好羡慕干体力劳动的外卖小哥。难道命运是想让我去送外卖了吗？干体力活才能让我活下去？fastadmin打卡成功,淘宝金币任务完成。ㅏㅓㅗㅜㅡㅣㅐㅔㅑㅕㅛㅠㅢㅒㅖY行。야자여자요리우유의사얘기예
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
我的黑历史袖手围观有来有去
孩子同学与我们一起共进晚餐，俩孩子加我三个人。小同学是一个大方率性礼貌的小孩，我们也都非常喜欢。好了，回到正题上来让我把这个故事讲完。俩孩子都喜欢吃鱼，所以就发生了小孩子之间常会发生的事。我狠狠的盯了我家孩子，孩子表情有些狼狈。和孩子单独一起的时候，见她尚未释怀，并谴责我不该狠盯她，让她没面子。也许是她触动了我的童年往事吧。由此，一狠心，给她讲了一段埋藏心里极深的黑历史：我奶奶有四个儿子，四个儿子
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
百善孝为先杜友顺
2018年11月29日天气~晴星期四找点空闲找点时间领着孩子常回家看看带上笑容带上祝福陪同爱人常回家看看家，永远是儿女们幸福温暖的港湾，那里有我们日夜思念的父母，有着彼此的牵挂，无论走到哪里，家永远是避风雨的港湾。今天没事，和媳妇回了趟老家，看看父母，回到家，房间里不算凌乱，可是细心的我发现有的地方已经沾满了灰尘，桌子上父亲不离手的烟灰缸也弹满了烟灰。几个马上就要腐烂掉的水果蔫耷的搭拉着脑袋躺在了
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
想家，想念家乡的四季三妹杨敏
不知道，为什么，这次我回自己出生地—老家，反倒有了一种出差走亲戚的感觉。人啊，出来得久了，就生分了。就不再那么心贴着心脸对着脸了。需要时间，需要机缘，需要我们再重新把自己的思维重置一遍，你才能够转得回这个弯儿的。最好的转弯儿，不是说教，也不是余旧，都有些治标不治本。真正管用的东西，只有一样。也简单。一个字：吃。吃一顿家乡的饭，喝一口家乡的水，听一听那浓重得有些陌生的乡音，心就回来了。心回来，人才算
《大兴安岭猎人传说》今年最好看的东北鬼怪故事，很优秀一部电影
《大兴安岭猎人传说》是最新上映于愚人节的网剧，别看是网剧却远超出我的个人预料。该片由民俗故事改编，这点就很吸引人，因为民俗故事口口相传，比那些编造而成的鬼故事更具有了真实性，网大做的电影还不错哦，如果可以我打四星好评。大兴安岭的故事我们经常听老人提起，那里有原始大森林，物产丰富，更流传着精灵怪物的传说。什么红黄白柳灰，出马仙、人参娃娃的故事层出不穷，以大兴安岭为背景的故事真不少。可很多鬼片看到最后
第四天旅游线路预览——从贾登峪到喀纳斯景区入口（贾登峪游客服务中心）陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；从贾登峪到喀纳斯景区入口（贾登峪游客服务中心）：搭乘贾登峪①路车，路过三湾到达景区换乘中心，路程时长约40分钟；1）早上8：00起床，吃完早饭，8：30出发；2）从贾登峪到喀纳斯风景区，需要搭乘一站公交车，为免费公交车，路程4.3公里，车程约9分钟8：40左右到达喀纳斯景区入口（贾登峪游客服务中心）；3）乘坐贾登峪①路车，路过三湾到达景区换乘中心
日常演播练习0822 开阳春天
日常演播练习0822一、绕口令练习司小四和史小世，四月十四日十四时四十上集市，司小四买了四十四斤四两西红柿，史小世买了十四斤四两细蚕丝。司小四要拿四十四斤四两西红柿换史小世十四斤四两细蚕丝。史小世十四斤四两细蚕丝不换司小四四十四斤四两西红柿。司小四说我四十四斤四两西红柿可以增加营养防近视，史小世说我十四斤四两细蚕丝可以织绸织缎又抽丝。二、文本练习狗熊是动物街有名的美食家，它吃得多所以长得胖，它能吃
摩托车加装车载手机充电usb方案/雅马哈USB充电方案开发诚芯微科技社交电子
长途骑行需要给手机与行车记录仪等设备供电，那么，加装USB充电器就相继在两轮电动车上应用起来了。摩托车加装usb充电方案主要应用于汽车、电动自行车、摩托车、房车、渡轮、游艇等交通工具。提供电动车USB充电器方案/摩托车加装usb充电方案/渡轮加装usb充电方案/游艇加装usb充电方案开发。摩托车加装车载手机充电usb方案、汽车游艇改装四孔面板装双USB车充点烟器5V/4A电动车USB充电器输入4.
舜公郑金锋书辛丑自剪扇面书法作品（四O六）舜公郑金锋
辛丑小阳春，新自剪扇面400品，大多为各色撒金、撒银、描金、描银、水印、彩绘、荧光等亚粉、色宣纸，以及域外包装填充纸等；王一品长锋羊毫秃笔；一得阁云头艳墨、宿墨、水等。书体有甲骨文，金文(商周金文、春秋战国金文、中山王厝器金文、汉金文……)，楚简帛书，侯马盟书，温县盟书，小篆，果蝙书等，隶书(秦简、汉简帛书、汉碑……)，草书(章草、小草、大草……)，行书(行楷、行草)，楷书(魏碑及北朝墓志、隋朝墓
南美洲的奇特艺术品【神秘档案馆·第三期】清风小和尚
本期回答问题：1.复活节岛石像是谁建造的？2.复活节岛石像的建造方法与目的？3.纳斯卡线条的设计意义？南美洲是南亚美利加洲的简称，位于西半球的南部，东濒大西洋，西临太平洋，北滨加勒比海，南隔德雷克海峡与南极洲相望。对南美洲最简单的定位方法是：美国南面。南美洲是地球上第四大的大洲，有着种类繁多的物种和丰富的地形。在这片广袤的土地上，有两样奇特的艺术品---复活节岛摩艾石像与纳斯卡线条。摩艾石像（Mo
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
《太虚游》第六十二章。玄牝之威。古楼臭道士
“好好好，流云这孩子深得我心，想必长爻知道是你的话定然会惊喜不已的。”白玄牝听得风流云应了下来，脸色慈和，伸手在他头顶轻轻抚了抚，如同抚在怀中九尾小狐一样自然，极其温柔。身后的四位青丘长老同时一怔，嘴角微动，似要开口劝阻。风流云只感到一道霞光瑞气如有实质一般顺着头顶百会大穴直沉在下丹田内，随后这股气息又逐渐凝聚，似乎给自己吃了什么东西一般。啊喔不好，这祖奶奶该不会是看中我这肉身，像人魔一样，要给她
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
生于八十年代--我的姐姐自南向北
姐姐大我四岁，幸亏有了她，才有了我。要是头一个是男孩，估计在家里就是另一个孩子了。在我儿时的记忆里，姐姐是一下子蹦出来的，为什么这么说？因为在我五六岁前的印象里是没有她的，五六岁后就突然出现在了我家。上学前的那段时间我俩一直在一起，母亲白天上班，把午饭准备好后，就出门了。屋里就留下两个孩子，由着我们在田间地头，屋前河边到处转悠，现在想来是危险至极，但是在当时却也没有旁的办法。生活是第一位的，父亲在
linux 发展史种树的猴子内核 java 操作系统 linux 大数据
linux发展史说明此前对linux认识模糊一知半解，近期通过学习将自己对于linux的发展总结一下方便大家日后的学习。那Linux是目前一款非常火热的开源操作系统，可是linux是什么时候出现的，又是因为什么样的原因被开发出来的呢。以下将对linux的发展历程进行详细的讲解。目录一、Linux发展背景二、UINIX的诞生三、UNIX的重要分支-BSD的诞生四、Minix的诞生五、GNU与Free
一次冒险追梦少年_4509
每个人应该都会经历很多冒险，这样你才能变得坚强起来，变得勇敢起来，冒险就是用来磨练自己，勇气的工具，接下来就给大家说说，我经历过的最吓人的冒险。2016年的夏天我和大爷大娘一起去北地捉知了我们边走边找，我负责拿着罐子大娘拿了一个电灯四处照，大爷就拿着一个棍子负责把知了，弄下来我们边走边捉，一会儿罐子就满了，就在我四处看分神的时候看见了一个知了接着我叫大爷大娘来拿知了我一看旁边没有人，我的心里十分害
Linux vi常用命令 fengyehongWorld Linux linux
参考资料viコマンド（vimコマンド）リファレンス目录一.保存系命令二.删除系命令三.移动系命令四.复制粘贴系命令一.保存系命令⏹保存并退出:wq⏹强制保存并退出:wq!⏹退出(文件未编辑):q⏹强制退出(忽略已编辑内容):q!⏹另存为:w新文件名二.删除系命令⏹删除当前行dd⏹清空整个文档gg：移动到文档顶部dG：删除到最后一行ggdG三.移动系命令⏹移动到文档顶部gg⏹移动到文档底部#方式1G
如何在心上用功？余超林AIA财富管家
思考：如何在心上用功？学习心得：心-道-德-事的理解心-道-德-事这四部曲，本质上就是一个人的思维智慧的四个层面：事是最底层，这是所有人在这个社会谋求生存的基础，一个人能够把事情彻底做好，保质保量的完成，才会有真正的结果，但是这个层面要获得真正成功很困难，因为会做事的人很多，最终会出现恶性竞争；德是第三层，如果说整个社会做事的竞争激烈程度为100%，那么上升到德上的竞争激烈程度降低为80%，德是一
疯丫头（四岁）明媚如月
妞妞在姥姥家呆了十多天，姥爷问她，想不想爸爸，妞妞说想，姥爷说，我把你送回去吧，妞妞说，不行，我要等爸爸来接我。让妞妞吃东西，她不吃，说再吃会吃成大胖子。妞妞不喜欢上幼儿园，马上要开学了，我引导她，说一些幼儿园的趣事儿，她打断我，说，别说啦！好吧，我闭嘴。还总说，妈妈不上班，陪她玩儿。我总说她长了张女孩儿脸，内心住着个女孩子，甚至是个猴子，淘的不要不要的。大中午的，晒着毒辣的大太阳在院子里玩儿水，
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

机器学习算法( 四、朴素贝叶斯算法)

一、概述

二、优缺点

三、数学公式

四、使用朴素贝叶斯进行文档分类

五、准备数据：从文本中构建词向量

六、训练算法：从词向量计算概率

七、测试算法：根据现实情况修改分类器

八、文档词袋模型

九、示例：使用朴素贝叶斯过滤垃圾邮件

你可能感兴趣的:(机器学习算法( 四、朴素贝叶斯算法))

一、概述　　

二、优缺点　　

三、数学公式　　

四、使用朴素贝叶斯进行文档分类