酸辣粉不要辣

机器学习实战——（三）朴素贝叶斯（Bayes）（1）

声明：参考书目《机器学习实战》作者: Peter Harrington 出版社: 人民邮电出版社译者: 李锐 / 李鹏 / 曲亚东 / 王斌

声明：参考书目《统计学习方法》作者: 李航出版社: 清华大学出版社 ISBN: 9787302275954

声明：参考书目《机器学习》作者: 周志华出版社: 清华大学出版社 ISBN: 9787302423287

参考博客 Jack-Cui 作者个人网站：http://cuijiahua.com/

参考博客深入理解朴素贝叶斯（Naive Bayes）

参考博客带你彻彻底底搞懂朴素贝叶斯公式

一基于概率论的分类方法：朴素贝叶斯

二概率论

2.1 条件概率

2.2 贝叶斯准则

2.3 使用条件概率进行分类

2.4 习题

三使用朴素贝叶斯进行文档分类

3.1 准备数据：从文本中构建词向量

3.2 训练算法：从词向量计算概率

3.3 测试算法：根据实际情况修改分类器

3.3.1 修改分类器

3.3.2 朴素贝叶斯分类函数

一基于概率论的分类方法：朴素贝叶斯

概率论是许多机器学习的基础，所以深刻理解这一主题就显得十分重要。我们这一节会给出利用概率论进行分类的方法——朴素贝叶斯分类器。我们称之为“朴素”，是因为整个形式化过程只进行最原始、最简单的假设。我们会利用python的文本处理能力将文档划分成词向量，然后利用词向量对文档进行分类。我们还将构建另外一个分类器，进行垃圾邮件的分类。

二概率论

接下来我们需要讲解一下概率论的知识。

2.1 条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P（A|B），读作“在B的条件下A的概率”。其公式表示为： $P(A|B)=\frac{P(A\bigcap B)}{P(B)}$

我们对其进行推导可得

即： $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

其中 A 为数据的类别，B 为数据的具体特征。则上述公式的实际意义可以表示为：在特征 B 存在的情况下，数据分到类别 A 的概率为多少。那么我们接下来就是要想办法求取公式的分子以及分母。P(A)为类别 A 占总数据特征的概率。

2.2 贝叶斯准则

对上面的公式进行变形就可以得到公式：

我们把P(A)称为"先验概率"（Prior probability），即在B事件发生之前，我们对A事件概率的一个判断。
P(A|B)称为"后验概率"（Posterior probability），即在B事件发生之后，我们对A事件概率的重新评估。
P(B|A)/P(B)称为"可能性函数"（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。
所以，条件概率可以理解成下面的式子：后验概率　＝　先验概率ｘ调整因子

这就是贝叶斯推断的含义。我们先预估一个"先验概率"，然后加入实验结果，看这个实验到底是增强还是削弱了"先验概率"，由此得到更接近事实的"后验概率"。

2.3 使用条件概率进行分类

假设我们利用贝叶斯分类器来计算两个概率 P1（x，y）和 P2（x，y）：

如果 P1（x，y）> P2（x，y），那么属于类别1；

如果 P1（x，y）< P2（x，y），那么属于类别2。

但这两个准则并不是贝叶斯决策理论的所有内容。使用 p1，p2 只是为了尽可能简化描述，而真正需要计算和比较的是 P1（c1 | x，y）和 P2（c2 | x，y）。这些符号代表的具体意义是：给定某个由 x，y 表示的数据点，那么该数据点来自类别 c1或者c2的概率是多少，那么我们就可以利用贝叶斯准则来交换概率中条件与结果。具体的，应用贝叶斯准则可以得到：

$P(c_{i}|x,y)=\frac{P(x,y|c_{i})P(c_{i})}{P(x,y)}$

使用这些定义，可定义贝叶斯分类准则为：

如果 P（c1 | x，y）> P（c2 | x，y），那么属于类别 c1；

如果 P（c1 | x，y）< P（c2 | x，y），那么属于类别 c2。

朴素贝叶斯的朴素指的是各特征之间是独立的，所谓独立，就是可以将两个特征相乘的概率拆成两个相乘的特征概率，即 P( x y ) = P( x ) * P( y )。所以朴素贝叶斯准则可以变成：P（Xi，Yi| C0）=P（x0，y0 | C0）P（x1，y1 | C0）...P（xn，yn | C0）

2.4 习题

纯理论没有啥效果，现在就让我们利用一个实例来进行讲解，实例来源：《机器学习》

西瓜数据集3.0
编号	色泽	根蒂	敲声	纹理	脐部	触感	密度	含糖率	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	—	—	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	—	—	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	—	—	是
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	—	—	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	—	—	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	—	—	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	—	—	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	—	—	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	—	—	否
10	青绿	硬挺	清脆	清晰	平坦	软粘	—	—	否
11	浅白	硬挺	清脆	模糊	平坦	硬滑	—	—	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	—	—	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	—	—	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	—	—	否
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	—	—	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	—	—	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	—	—	否

现在我们利用这个数据集来测试一下朴素贝叶斯准则：对下面的数据进行分类

测试
编号	色泽	根蒂	敲声	纹理	脐部	触感	密度	含糖率	好瓜
测1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	—	—	？

我们先来写一下每个类别下的计算公式：

（1）P（好瓜=是 | 青绿，蜷缩，浊响，清晰，凹陷，硬滑）=P（青绿，蜷缩，浊响，清晰，凹陷，硬滑 | 好瓜=是）P（好瓜=是） / P（青绿，蜷缩，浊响，清晰，凹陷，硬滑）

其中分母（全概率公式）：P（青绿，蜷缩，浊响，清晰，凹陷，硬滑）

（2）P（好瓜=否 | 青绿，蜷缩，浊响，清晰，凹陷，硬滑）=P（青绿，蜷缩，浊响，清晰，凹陷，硬滑 | 好瓜=否）P（好瓜=否） / P（青绿，蜷缩，浊响，清晰，凹陷，硬滑）

其中分母（全概率公式）：P（青绿，蜷缩，浊响，清晰，凹陷，硬滑）

如果

P（好瓜=是 | 青绿，蜷缩，浊响，清晰，凹陷，硬滑）> P（好瓜=否 | 青绿，蜷缩，浊响，清晰，凹陷，硬滑）那么这个瓜是好瓜

P（好瓜=是 | 青绿，蜷缩，浊响，清晰，凹陷，硬滑）< P（好瓜=否 | 青绿，蜷缩，浊响，清晰，凹陷，硬滑）那么这个瓜不是好瓜

首先来估计先验概率： P(c)，显然有

P（好瓜=是）= 8 / 17 ≈ 0.471

P（好瓜=否）= 9 / 17 ≈ 0.529

P（青绿 | 好瓜=是）= 3 / 8 = 0.375 P（青绿 | 好瓜=否）= 3 / 9 ≈ 0.333

P（蜷缩 | 好瓜=是）= 5 / 8 = 0.625 P（蜷缩 | 好瓜=否）= 3 / 9 ≈ 0.333

P（浊响 | 好瓜=是）= 6 / 8 = 0.750 P（浊响 | 好瓜=否）= 4 / 9 ≈ 0.444

P（清晰 | 好瓜=是）= 7 / 8 = 0.875 P（清晰 | 好瓜=否）= 2 / 9 ≈ 0.222

P（凹陷 | 好瓜=是）= 5 / 8 = 0.625 P（凹陷 | 好瓜=否）= 2 / 9 ≈ 0.222

P（硬滑 | 好瓜=是）= 6 / 8 = 0.750 P（硬滑 | 好瓜=否）= 6 / 9 ≈ 0.667

分母：

P（青绿，蜷缩，浊响，清晰，凹陷，硬滑）

= 0.471 * 0.375 * 0.625 * 0.750 * 0.875 * 0.625 * 0.750 + 0.529 * 0.333 * 0.333 * 0.444 * 0.222 * 0.222 * 0.667

≈ 0.471 * 0.072 + 0.529 * 1.618*10^(-4) = 0.034806

故：

P（好瓜=是 | 青绿，蜷缩，浊响，清晰，凹陷，硬滑）

= 0.375 * 0.625 * 0.750 * 0.875 * 0.625 * 0.750 * 0.471 / 0.034806 = 0.9754 = 97.54%

P（好瓜=否 | 青绿，蜷缩，浊响，清晰，凹陷，硬滑）

= 0.333 * 0.333 * 0.444 * 0.222 * 0.222 * 0.667 * 0.529 / 0.034806 = 0.0246 = 2.46%

由于 97.54% > 2.46% 所以我们刚刚的例子说明，这个瓜是好瓜

三使用朴素贝叶斯进行文档分类

3.1 准备数据：从文本中构建词向量

机器学习的一个重要应用就是文档的自动分类。在文档中，整个文档是实例，而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词，并把每个词的出现或者不出现作为一个特征，这样得到的特征数目就会跟词汇表中的词目一样多。

以在线社区留言为例。为了不影响社区的发展，我们要屏蔽侮辱性的言论，所以要构建一个快速过滤器，如果某条留言使用了负面或者侮辱性的语言，那么就将该留言标志为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类型：侮辱类和非侮辱类，使用1和0分别表示。
成单词向量或者词条向量，也就是说将句子转换为向量。考虑出现所有文档中的单词，再决定将哪些单词纳入词汇表或者说所要的词汇集合，然后必须要将每一篇文档转换为词汇表上的向量。简单起见，我们先假设已经将本文切分完毕，存放到列表中，并对词汇向量进行分类标注。代码如下：

import numpy as np
"""
Function：提供训练数据集，以及训练数据集的标签
"""
def loadDataSet():
	postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],				#切分的词条
				['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
				['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
				['stop', 'posting', 'stupid', 'worthless', 'garbage'],
				['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
				['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
	classVec = [0,1,0,1,0,1]   		#类别标签向量，1代表侮辱性词汇，0代表不是
	return postingList, classVec	    #返回实验样本切分的词条和类别标签向量

"""
Function:创建一个词典，这个词典包含文档内所有词条
dataSet:输入的是训练数据集，即所有的文档
return：返回一个包含所有单词的词典
"""
def creatVocabList(dataSet):
    vocabSet = set([])                               #创建一个空集
    for document in dataSet:                     #从数据集循环读入每一条数据
        vocabSet = vocabSet | set(document)       #采用集合将一条数据的不重复单词放入vocablist，并采用并集操作
                                                  #将曾哥数据集的单词都放入vocabset中
    return list(vocabSet)                        #返回词典，这个词典包含数据集内所有单词，并且将其list序列化


"""
Function:如果数据中的单词在词典中，那么就将词典对应的位置置1
vocabList:输入数据集的词典
inputSet:输入的数据集的一条数据
return:返回的是检测之后的列表
"""
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)      #创建一个全0列表，列表长度跟词典长度一样
    for word in inputSet:              #从单条数据中循环读取所有单词
        if word in vocabList:          #如果单词在词典中，那么就将全0列表returnvec相应的位置置1
            returnVec[vocabList.index(word)] = 1
    return returnVec                #返回的是检测之后的列表

if __name__ == "__main__":
    dataSet, Labels = loadDataSet()
    vocabList = creatVocabList(dataSet)
    for item in dataSet:
        returnVec = setOfWords2Vec(vocabList, item)
        print(item)
        print(returnVec)

我们将数据集，以及数据集在词典中对应的数据打印出来，结果如下：

我们在获得词典，即词汇表之后，就可以使用 etOfWordsVecc（）函数，该函数的输入参数为词汇表及某个文档，输出的是文档向量，向量的每一个元素为 1 或 0，分别表示词汇表中的单词在输入文档中是否出现。函数首先创建一个和词汇表等长的向量，并将其元素全部都设置为 0 。接着，遍历文档中的所有单词，如果出现了词汇表中的单词，则将输出文档向量中的对应值设置为1.一切顺利的话，就不需要检查某个词是否还在vocabList 中。

['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']
[0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0]
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid']
[1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1]
['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him']
[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0]
['stop', 'posting', 'stupid', 'worthless', 'garbage']
[0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him']
[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0]
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']
[0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

Process finished with exit code 0

3.2 训练算法：从词向量计算概率

我们现在已经知道了一个单词是否在文档中，接下来我们就需要使用这些文字来计算概率。我们现在用到的是就是上面使用的贝叶斯准则 $P(c_{i}|w)=\frac{P(w|c_{i})P(c_{i})}{p(w)}$ 来对每个类计算概率，然后比较概率值的大小。那么我们如何来计算呢？

该函数的伪代码为：

计算每个类别中的文档数目

对每篇训练文档：

对每个类别：

如果词条出现在文档中 —> 增加该词条的计数值

增加所有词条的计数值

对每个类别：

对每个词条：

将该词条的数目除以总词条数目得到条件概率

返回每个类别的条件概率

现在我们来实现上面的伪代码：我们下面代码实现的是计算先验概率 P（Ci）以及调整函数例：P(x,y,z|C) = P(x|c)P(y|C)P(z|C)

import numpy as np
"""
Function：提供训练数据集，以及训练数据集的标签
"""
def loadDataSet():
	postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],				#切分的词条
				['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
				['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
				['stop', 'posting', 'stupid', 'worthless', 'garbage'],
				['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
				['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
	classVec = [0,1,0,1,0,1]   		#类别标签向量，1代表侮辱性词汇，0代表不是
	return postingList, classVec	    #返回实验样本切分的词条和类别标签向量

"""
Function:创建一个词典，这个词典包含文档内所有词条
dataSet:输入的是训练数据集，即所有的文档
return：返回一个包含所有单词的词典
"""
def creatVocabList(dataSet):
    vocabSet = set([])                               #创建一个空集
    for document in dataSet:                     #从数据集循环读入每一条数据
        vocabSet = vocabSet | set(document)       #采用集合将一条数据的不重复单词放入vocablist，并采用并集操作
                                                  #将曾哥数据集的单词都放入vocabset中
    return list(vocabSet)                        #返回词典，这个词典包含数据集内所有单词，并且将其list序列化


"""
Function:如果数据中的单词在词典中，那么就将词典对应的位置置1
vocabList:输入数据集的词典
inputSet:输入的数据集的一条数据
return:返回的是检测之后的列表
"""
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)      #创建一个全0列表，列表长度跟词典长度一样
    for word in inputSet:              #从单条数据中循环读取所有单词
        if word in vocabList:          #如果单词在词典中，那么就将全0列表returnvec相应的位置置1
            returnVec[vocabList.index(word)] = 1
    return returnVec                #返回的是检测之后的列表

"""
朴素贝叶斯分类器训练函数
Function:计算词条在相应类别下的条件概率
trainMattrix：setOfWords2Vec的返回值，不过是整个训练数据集的返回集而不是单调数据的
trainCategory：loadDataSet()返回的classVec，即数据集对应的类别
return：返回的是两个矩阵一个概率。两个矩阵分别是对应类别下词条的条件概率；概率是侮辱性文档占总文档的概率
"""
def trainNB0(trainMattrix, trainCategory):
    numTrainDocs = len(trainMattrix)       #计算训练数据集总共包含多少文档，为了循环遍历所有文档用的
    numWords = len(trainMattrix[0])        #计算训练数据集有多少个词条，即词典包含多少个词，为了后面建矩阵用的
    pAbusive = sum(trainCategory) / float(numTrainDocs)  #获得类别A，即侮辱性文档占总文档的概率，即先验概率
    p0Num = np.zeros(numWords)             #创建两个一维矩阵，大小为词典长度。用于统计每个类别下对应词条的个数
    p1Num = np.zeros(numWords)             #便于后续计算概率，即P(x,y,z|C)=P(x|c)P(y|C)P(z|C)，这个例子中只有一个特征
    p0Denom = 0.0                          #这两个数是记录对应类别里面总共有多少个词条的，即分母
    p1Denom = 0.0
    for i in range(numTrainDocs):         #循环遍历数据集所有文档
        if trainCategory[i ] == 1:        #如果文档对应label =1 ，说明是侮辱性文档
            p1Num += trainMattrix[i]      #运用矩阵加法运算，将同一类别下的每个对应词条个数相加
            p1Denom += sum(trainMattrix[i])   #运用数字加法，记录目前总共有多少个词条
        else:
            p0Num += trainMattrix[i]
            p0Denom += sum(trainMattrix[i])
    p1Vect = p1Num / p1Denom          #返回矩阵，矩阵每个元素为对应词条在相应类别下的的条件概率
    p0Vect = p0Num / p0Denom          #返回矩阵，矩阵每个元素为对应词条在相应类别下的的条件概率
    return p0Vect, p1Vect, pAbusive




if __name__ == "__main__":
    dataSet, Labels = loadDataSet()
    vocabList = creatVocabList(dataSet)
    trainMat = []
    for item in dataSet:
        returnVec = setOfWords2Vec(vocabList, item)
        trainMat.append(returnVec)
    p0Vect, p1Vect, pAbusive = trainNB0(trainMat, Labels)
    print("非侮辱性文档概率矩阵：")
    print(p0Vect)
    print("侮辱性文档概率矩阵：")
    print(p1Vect)
    print("侮辱性文档类别概率：")
    print(pAbusive)

然后下面就是我们对应的输出结果：输入出的是每个词条（即单词）在对应类别下的条件概率

非侮辱性文档概率矩阵：
[0.04166667 0.         0.04166667 0.04166667 0.04166667 0.04166667
 0.04166667 0.04166667 0.04166667 0.         0.04166667 0.
 0.04166667 0.         0.04166667 0.         0.         0.
 0.         0.04166667 0.04166667 0.04166667 0.         0.04166667
 0.         0.125      0.04166667 0.04166667 0.08333333 0.04166667
 0.         0.04166667]
侮辱性文档概率矩阵：
[0.         0.05263158 0.         0.         0.         0.
 0.         0.         0.05263158 0.05263158 0.         0.05263158
 0.         0.05263158 0.         0.05263158 0.05263158 0.05263158
 0.15789474 0.         0.         0.         0.05263158 0.
 0.10526316 0.         0.         0.05263158 0.05263158 0.10526316
 0.05263158 0.        ]
侮辱性文档类别概率：
0.5

Process finished with exit code 0

3.3 测试算法：根据实际情况修改分类器

3.3.1 修改分类器

由于我们计算的是P（w0 | Ci）P（w1 | Ci）P（w2 | Ci）. . . P（wn | Ci），只要其中有一个参数为 0 ，那么整个算式都将为0，因此我们可以将上述初始化函数初始化为 1，即

p0Num = np.ones(numWords)             #创建两个一维矩阵，大小为词典长度。用于统计每个类别下对应词条的个数
p1Num = np.ones(numWords)             #便于后续计算概率，即P(x,y,z|C)=P(x|c)P(y|C)P(z|C)，这个例子中只有一个特征

然后为了抵消这种影响，分母就要初始化为 2.0，即

p0Denom = 2.0                          #这两个数是记录对应类别里面总共有多少个词条的，即分母
p1Denom = 2.0

然后我们还会遇到一个问题，那就是下溢出。因为我们会进行和很多个小数相乘，为了削弱这种影响，我们需要对概率取对数，即

p1Vect = log(p1Num / p1Denom)          #返回矩阵，矩阵每个元素为对应词条在相应类别下的的条件概率
p0Vect = log(p0Num / p0Denom)          #返回矩阵，矩阵每个元素为对应词条在相应类别下的的条件概率

3.3.2 朴素贝叶斯分类函数

现在我们已经构建好完整的分类器了，下面我们就构建分类函数，顺便构建一个测试函数类似测试一下我们的分类器是否有效果。代码如下：

import numpy as np
from math import log
"""
Function：提供训练数据集，以及训练数据集的标签
"""
def loadDataSet():
	postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],				#切分的词条
				['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
				['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
				['stop', 'posting', 'stupid', 'worthless', 'garbage'],
				['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
				['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
	classVec = [0,1,0,1,0,1]   		#类别标签向量，1代表侮辱性词汇，0代表不是
	return postingList, classVec	    #返回实验样本切分的词条和类别标签向量

"""
Function:创建一个词典，这个词典包含文档内所有词条
dataSet:输入的是训练数据集，即所有的文档
return：返回一个包含所有单词的词典
"""
def creatVocabList(dataSet):
    vocabSet = set([])                               #创建一个空集
    for document in dataSet:                     #从数据集循环读入每一条数据
        vocabSet = vocabSet | set(document)       #采用集合将一条数据的不重复单词放入vocablist，并采用并集操作
                                                  #将曾哥数据集的单词都放入vocabset中
    return list(vocabSet)                        #返回词典，这个词典包含数据集内所有单词，并且将其list序列化


"""
Function:如果数据中的单词在词典中，那么就将词典对应的位置置1
vocabList:输入数据集的词典
inputSet:输入的数据集的一条数据
return:返回的是检测之后的列表
"""
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)      #创建一个全0列表，列表长度跟词典长度一样
    for word in inputSet:              #从单条数据中循环读取所有单词
        if word in vocabList:          #如果单词在词典中，那么就将全0列表returnvec相应的位置置1
            returnVec[vocabList.index(word)] = 1
    return returnVec                #返回的是检测之后的列表

"""
朴素贝叶斯分类器训练函数
Function:计算词条在相应类别下的条件概率
trainMattrix：setOfWords2Vec的返回值，不过是整个训练数据集的返回集而不是单调数据的
trainCategory：loadDataSet()返回的classVec，即数据集对应的类别
return：返回的是两个矩阵一个概率。两个矩阵分别是对应类别下词条的条件概率；概率是侮辱性文档占总文档的概率
"""
def trainNB0(trainMattrix, trainCategory):
    numTrainDocs = len(trainMattrix)       #计算训练数据集总共包含多少文档，为了循环遍历所有文档用的
    numWords = len(trainMattrix[0])        #计算训练数据集有多少个词条，即词典包含多少个词，为了后面建矩阵用的
    pAbusive = sum(trainCategory) / float(numTrainDocs)  #获得类别A，即侮辱性文档占总文档的概率，即先验概率
    p0Num = np.ones(numWords)             #创建两个一维矩阵，大小为词典长度。用于统计每个类别下对应词条的个数
    p1Num = np.ones(numWords)             #便于后续计算概率，即P(x,y,z|C)=P(x|c)P(y|C)P(z|C)，这个例子中只有一个特征
    p0Denom = 2.0                          #这两个数是记录对应类别里面总共有多少个词条的，即分母
    p1Denom = 2.0
    for i in range(numTrainDocs):         #循环遍历数据集所有文档
        if trainCategory[i ] == 1:        #如果文档对应label =1 ，说明是侮辱性文档
            p1Num += trainMattrix[i]      #运用矩阵加法运算，将同一类别下的每个对应词条个数相加
            p1Denom += sum(trainMattrix[i])   #运用数字加法，记录目前总共有多少个词条
        else:
            p0Num += trainMattrix[i]
            p0Denom += sum(trainMattrix[i])
    p1Vect = p1Num / p1Denom        #返回矩阵，矩阵每个元素为对应词条在相应类别下的的条件概率
    p0Vect = p0Num / p0Denom         #返回矩阵，矩阵每个元素为对应词条在相应类别下的的条件概率
    return p0Vect, p1Vect, pAbusive

"""
Function：将给定的数据按照概率的大小非为对应的类别
vec2Classify:待分类的向量
p0Vec:trainNB0返回的三个参数之一
p1Vec:trainNB0返回的三个参数之一
pClass1:trainNB0返回的三个参数之一
return:返回的是分类结果
"""
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)      #因为采用了对数运算，对数乘可以拆分为多个对数相加
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p0 > p1:
        return 0
    else:
        return 1



if __name__ == "__main__":
    dataSet, Labels = loadDataSet()
    vocabList = creatVocabList(dataSet)
    trainMat = []
    for item in dataSet:
        returnVec = setOfWords2Vec(vocabList, item)
        trainMat.append(returnVec)
    p0Vect, p1Vect, pAbusive = trainNB0(trainMat, Labels)
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = np.array(setOfWords2Vec(vocabList, testEntry))
    print(testEntry, 'classifed as：', classifyNB(thisDoc,p0Vect, p1Vect, pAbusive))
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWords2Vec(vocabList, testEntry))
    print(testEntry, 'classifed as：', classifyNB(thisDoc, p0Vect, p1Vect, pAbusive))

然后下面是我们的输出结果：

['love', 'my', 'dalmation'] classifed as： 0
['stupid', 'garbage'] classifed as： 1

Process finished with exit code 0

你可能感兴趣的:(机器学习实战)

机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
机器学习实战----波士顿房价预测模型永远偷渡不了的非洲人机器学习机器学习 sklearn python
波士顿房价模型预测是一个回归问题，可以采用r2_score方法来作为评价指标。importnumpyasnpimportpandasaspdfromsklearn.metricsimportr2_score#从sklearn的数据库中导入波士顿房产数据fromsklearn.datasetsimportload_bostonfromsklearn.model_selectionimporttrai
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
(二十一)Seaborn知识学习8-python数据分析与机器学习实战(学习笔记) 努力奋斗的durian
文章原创,最近更新：2018-05-17课程来源:python数据分析与机器学习实战-唐宇迪引言:介绍seaborn热度图绘制学习参考链接:1、Seaborn官方0.8.1版本首先介绍以下热度图的作用,拿出离散群数据,离散群数据可能会发生波动变化.看一下哪个点的值比较高,看一下哪个点的值比较低?通过值的变化,用颜色表现出来,这个是我们要做的一件事.热度图是由不同的颜色构成的,这个颜色由可能是由浅入
机器学习实战2--蒙特卡洛方法与Q-Q图(2022/10/12) 点灯的棉羊机器学习Jupyter笔记机器学习人工智能 numpy python
蒙特卡洛方法与Q-Q图文章目录蒙特卡洛方法与Q-Q图蒙特卡洛方法蒙特卡洛的定义和基本步骤一些常用的概率论相关函数使用蒙特卡洛验证大数定理Q-Q图Q-Q图的定义及用途importnumpyasnpfromnumpy.linalgimportinv,eigimportmatplotlib.pyplotaspltimportpandasaspdfromscipy.statsimportnorm蒙特卡洛方
机器学习实战1-基础运用（2022/10/11）点灯的棉羊机器学习Jupyter笔记机器学习 python numpy
机器学习实战1-基础运用文章目录机器学习实战1-基础运用numpy的简单运用生成矩阵和矩阵的简单操作用pandas库读取、保存csv数据文件read_csv()函数及读入的数据处理to_csv()保存数据matplotlib.pyplot库绘图的使用条形图的绘制箱型图的绘制分位数（Quantile）分位点/四分位数分位数与箱型图`boxplot()`函数绘制交叉报表热力图plt绘图基础import
机器学习实战Jupyter笔记专栏汇总点灯的棉羊机器学习Jupyter笔记机器学习 jupyter 人工智能
机器学习实战Jupter笔记开始博客学校开始的一门机器学习的课程，于是使用jupyter写这门课的作业，顺便将其完善为笔记发表为这个专栏的博客，并将专栏博客链接汇总到这里。由于是刚开始学习机器学习方面的内容，如有错误的地方，希望能有大佬能帮忙指正。笔记1机器学习实战1-基础运用种一棵树最好的时间–是十年前，其次是现在
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
【机器学习实战】大数据与MapReduce 吵吵人
当运算需求超出了当前资源的运算能力，一、可以考虑购买更好的机器；二、可以将计算转换成并行作业，MapReduce就提供了这种方案的一个具体实施框架。MapReduce：分布式计算的框架MapReduce是一个软件框架，可以将单个计算工作分配给多台计算机执行。工作流程包括map和reduce阶段。第一阶段，输入数据被切片分发到节点上，各个节点对本地数据进行处理对应的运算代码叫做mapper。第二阶段
[培训-Python机器学习]04-Git的使用和规范乱码奇糟软件开发 git
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：上网查阅Linus开发Git的背景；分析所在的开发团队所用的协作开发流程是什么？总结出Git使用和Git流程中遇到过的3个问题，发给大家讨论。非常有意思：2005年，由Linux的创始人LinusTorvalds开发；临危赴命，用时2周。分布式、本地管理、分支管理、提交机制Github、
[培训-Python机器学习]02-使用conda管理环境和包乱码奇糟软件开发 python conda
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：培训后实践本章的各种操作；结果：以Python3.10创建开发虚拟环境；再创建一个Python3.7版本以下的虚拟环境用来调试兼容性以前培训过venv，本次培训来说一说conda。conda其实可理解为：venv+pip，它的主要功能包括：环境管理：创建多个隔离的Python运行环境，每
机器学习（machine learning）大合集 AI信仰者
1、线性分类器怎么理解呢？我们可以把此分类器理解为线性空间的划分，最简单的，在二维空间上，通过直线的划分。第二个理解可以理解为模板匹配，W的每一行可以看做是其中一个类别的模板。每类得分，实际上是像素点和模板匹配度。模板匹配的方式是内积计算。2、机器学习实战之AdaBoost算法boosting算法系列的基本思想，如下图：adaBoost分类器就是一种元算法分类器，adaBoost分类器利用同一种基
机器学习实战朴素贝叶斯分类器 shenny_
基于概率论的分类方法：朴素贝叶斯我的微信公众号：s406205391;欢迎大家一起学习，一起进步！！！k-近邻算法和决策树会给出“该数据属于哪一类”的明确回答。不过，分类器有时会产生错误结果，这是可以要求分类器给出一个最优的类别的猜测结果，同事给出这个猜测的概率估计值。朴素贝叶斯就是一个概率分类器。我们称之为“朴素”，是因为整个形式化的过程只做最原始、最简单的假设。朴素贝叶斯的优点：在数据较少的情
《机器学习实战》笔记（十三）：Ch13 - 利用PCA来简化数据 Lornatang
第13章利用PCA来简化数据(代码)降维技术降维的意思是能够用一组个数为d的向量zi来代表个数为D的向量xi所包含的有用信息，其中d
Python实现时间序列分析马尔可夫切换自回归模型(MarkovAutoregression算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析马尔可夫切换自回归模型项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的马尔可夫切换自回归模型（MarkovSwitchingAutoregressionModel，简称MSAR或MarkovAutoregression算法）是一种混合了自回归模型（AutoregressiveModel,AR）和马尔可夫链（MarkovC
Python实现时间序列分析马尔可夫切换动态回归模型(MarkovRegression算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析马尔可夫切换动态回归模型项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的马尔可夫切换动态回归模型（MarkovSwitchingDynamicRegressionModel，MSDRM或简称为MarkovRegression算法）是一种用于处理具有非平稳性和隐藏状态依赖性的时序数据的方法。在该模型中，数据生成过程被认为是在
Python实现时间序列分析季节性自回归综合移动平均外生回归模型(SARIMAX算法)项目实战胖哥真不错机器学习 python python 时间序列分析季节性自回归综合移动平均外生回归模型 SARIMAX 项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的季节性自回归综合移动平均外生回归模型（SeasonalAutoregressiveIntegratedMovingAveragewitheXogenousregressors,SARIMAX）是一种统计建模技术，用于分析和预测具有季节性、趋势以及可能受
Python实现时间序列分析AR定阶自回归模型(ar_select_order算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析AR定阶自回归模型 ar_select_order 项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中，AR定阶自回归模型（ARorderselection）是指确定自回归模型（AutoRegressiveModel,AR模型）的阶数p的过程。在AR(p)模型中，当前的时间序列值被表示为过去p个时期的线性组合加上一个误差项。ar_select_order
python机器学习实战|机器学习入门笔记3-Pandas基础知识小赵同学871 机器学习实战入门笔记 python 机器学习 pandas
文章目录1.Pandas介绍2.案例知识点2.1创建DataFrame2.2创建日期3.DataFrame介绍3.1DataFrame属性3.2DataFrame设置索引3.3基本数据操作3.4DataFrame运算1.Pandas介绍开源的数据挖掘库，用于数据探索，封装了matplotlib，numpy2.案例知识点2.1创建DataFramepd.DataFrame(ndarray,index
Python实现离散选择概率模型(Probit算法)项目实战胖哥真不错机器学习 python python 离散选择概率模型 Probit算法机器学习项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景Probit模型是经过Logit模型的形式经过变形后得到的，Probit模型假设与标准正态分布的概率分布函数相似。本项目通过Probit算法来构建概率模型。2.数据获取本次建模数据来源于网络(本项目撰写人整理而成)，数据项统计如下：编号变量名称描述1x12x23x34
机器学习实战 K-近邻算法今昔何夕丶
K-近邻算法优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂高、空间复杂度高适用数据范围：数值型和标称型一般流程收集数据：可以使用任何方法准备数据：距离计算所需要的数值，最好是结构化的数据结构分析数据：可以使用任何方法训练算法：此步骤不适用于K-近邻算法测试算法：计算错误率使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出
Python实现稳健线性回归模型(rlm算法)项目实战胖哥真不错机器学习 python python 机器学习稳健线性回归模型 rlm算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景稳健回归可以用在任何使用最小二乘回归的情况下。在拟合最小二乘回归时，我们可能会发现一些异常值或高杠杆数据点。已经确定这些数据点不是数据输入错误，也不是来自另一个群落。所以我们没有令人信服的理由将它们排除在分析之外。稳健回归可能是一种好的策略，它是在将这些点完全从分析中
机器学习实战学习记录（github） monkeyhlj 学习
机器学习实战学习记录（github）可见我的github：https://github.com/monkeyhlj/machine_learning_bymyself刚刚建好，后面的学习记录会一直在这个仓库里面更新。推荐参考资料：https://www.zhihu.com/column/c_1242508311053963264
【机器学习实战】决策树吵吵人
算法思路在构造决策树时，第一个需要解决的问题就是，如何确定出哪个特征在划分数据分类是起决定性作用，或者说使用哪个特征分类能实现最好的分类效果。这样，为了找到决定性的特征，划分得到最好的结果，我们就需要评估每个特征。当找到最优特征后，依此特征，数据集就被划分为几个数据子集，这些数据自己会分布在该决策点的所有分支中。此时，如果某个分支下的数据属于同一类型，则该分支下的数据分类已经完成，无需进行下一步的
Python实现基于多元线性回归模型进行统计学相互作用和方差分析(anova算法)项目实战胖哥真不错机器学习 python 线性回归人工智能机器学习 python 相互作用方差分析 anova算法
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景多元线性回归模型（MultipleLinearRegressionModel）是一种统计学方法，用于研究一个或多个自变量（predictors）与因变量（dependentvariable）之间的关系。在模型中，因变量的值通过一个线性函数来预测，该函数包含了自变量的系
Python实现基于广义线性回归模型进行Meta分析(meta_analysis算法)项目实战胖哥真不错机器学习 python 线性回归 python 机器学习广义线性回归模型 Meta分析 meta_analysis算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景对于广义线性回归模型在Meta分析中的应用概念，可能是将其用于处理非正态分布或非线性关系的数据，例如：1.当原始研究的结果数据不是连续型且服从正态分布，而是二项分布（如成功率）、泊松分布（如发病率）或其他分布时，可以通过GLM设定适当的链接函数和分布族来适应。2.在进
Python实现GEE嵌套协方差结构仿真模型(GEE算法)项目实战胖哥真不错机器学习 python python 机器学习 GEE嵌套协方差结构仿真模型 GEE算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景广义估计方程（GeneralizedEstimatingEquations,GEE）是一种用于分析具有重复测量或者集群数据的统计方法。在社会学、医学、生物学等多个领域，研究对象的数据往往存在嵌套或群聚结构，即个体的数据不是独立的，而是隶属于某个群体或层级结构中。GEE
Python实现M-Estimators稳健线性回归模型(RLM算法)项目实战胖哥真不错机器学习 python python 机器学习 M-Estimators 稳健线性回归模型 RLM算法
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景M-Estimators是稳健统计估计中的一个重要概念，它们在处理含有异常值、离群点或者影响点的数据时特别有用。在稳健线性回归（RobustLinearRegression,RLM）模型中，M-Estimators用于替代普通最小二乘法（OLS），以减少这些极端观测值
机器学习——python训练RNN模型实战（傻瓜式教学，小学生都可以学会）代码开源苏苏不是叔机器学习 python rnn
机器学习实战目录第一章python训练线性模型实战第二章python训练决策树模型实战第三章python训练神经网络模型实战第四章python训练支持向量机模型实战第五章python训练贝叶斯分类器模型实战第六章python训练集成学习模型实战第七章python训练聚类模型实战第八章python训练KNN模型实战第九章python训练CNN模型实战第十章python训练RNN模型实战......(
机器学习——python训练决策树模型实战（傻瓜式教学，小学生都可以学会）苏苏不是叔机器学习 python 决策树
机器学习——python训练决策树模型实战目录机器学习——python训练决策树模型实战机器学习实战目录训练一个决策树模型需要经过以下步骤：1.下载数据集2.数据预处理3.加载数据集4.准备训练数据5.创建模型6.训练模型7.测试模型参考资料机器学习实战目录第一章python训练线性模型实战第二章python训练决策树模型实战第三章python训练神经网络模型实战第四章python训练支持向量机模
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

机器学习实战——（三）朴素贝叶斯（Bayes）（1）

一 基于概率论的分类方法：朴素贝叶斯

二 概率论

2.1 条件概率

2.2 贝叶斯准则

2.3 使用条件概率进行分类

2.4 习题

三 使用朴素贝叶斯进行文档分类

3.1 准备数据：从文本中构建词向量

3.2 训练算法：从词向量计算概率

3.3 测试算法：根据实际情况修改分类器

3.3.1 修改分类器

3.3.2 朴素贝叶斯分类函数

你可能感兴趣的:(机器学习实战)

一基于概率论的分类方法：朴素贝叶斯

二概率论

三使用朴素贝叶斯进行文档分类