摆脱咸鱼

机器学习——朴素贝叶斯算法

- 贝叶斯定理
- - 正向概率和逆向概率
  - 条件概率与全概率
  - 贝叶斯公式推导
- 极大似然估计
- 朴素贝叶斯分类器
- - 朴素
  - 可能性函数的作用
  - 拉普拉斯修正
  - 防溢出策略
  - 样例解释
- 代码——使用拉普拉斯进行垃圾邮件分类
- - 构建文本向量
  - 从词向量到计算概率
  - 朴素贝叶斯分类器分类函数
  - 垃圾邮件分类
- 总结

朴素贝叶斯是有监督学习的一种分类算法，它基于“贝叶斯定理”实现，故在学习“朴素贝叶斯算法”前，有必要先了解“贝叶斯定理”。

贝叶斯定理

定义：贝叶斯算法是在概率框架下实施决策的基本方法，对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯算法考虑的是如何基于这些概率和误判损失来选择最优的类别标记。

目的：解决“逆向概率问题”

贝叶斯公式：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

P(A) ：概率中最基本的符号，表示 A 出现的概率。例：在投掷骰子时，P(2) 指的是骰子出现数字“2”的概率，这个概率是 1/6。

P(B|A)： 条件概率的符号，表示事件 A 发生的条件下，事件 B 发生的概率，条件概率是“贝叶斯公式”的关键所在，它也被称为“似然度”。

P(A|B) ：条件概率的符号，表示事件 B 发生的条件下，事件 A 发生的概率，这个计算结果也被称为“后验概率”。

优缺点：

优点：稳定的分类效率、对缺失数据不敏感、算法简单、分类精确度高、速度快。

缺点：对训练数据依赖性强、需要知道先验概率（基于假设或者已有训练集训练所得）

正向概率和逆向概率

下面用两个例子说明正向概率和逆向概率的区别

正向概率：假设袋子又N个白球、M个黑球，求从中摸出黑球的概率。

逆向概率：不知道袋子中黑白球比例，从中摸出一个（或几个）球，观察去除球的颜色，由此推测袋子中黑白球的比例。

条件概率与全概率

条件概率定义：指在事件B发生的情况下，事件A发生的概率。

公式：
$P(A|B)=\frac{P(A\cap B)}{P(B)}$

图示入下：

这里的条件概率就是图示中紫色部分占蓝色部分+紫色部分的大小。

全概率定义：如果事件A1、A2（这里仅用两个表示）构成一个完备事件组，即它们两两互不相容，其和为全集；并且P（Ai)大于0，则对任一事件B有：
$P(B) = P(B|A_{1})P(A_{1})+P(B|A_{2})P(A_{2})$

贝叶斯公式推导

通过上述信息相信你对条件概率已经有了一定的了解，那么接下来咋们就来推导一下贝叶斯公式吧。

首先我们回顾一下贝叶斯公式：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
根据我们上述所讲的条件概率可知：
$P(A|B)=\frac{P(A\cap B)}{P(B)}$

$P(B|A)=\frac{P(B\cap A)}{P(A)}$

由我们概率论所学（高中的概率与统计也有涉及）：
$P(B\cap A) = P(A\cap B)$
所以有：
$P (A ∣ B) P (B) = P (A) P (B ∣ A)$
根据换项可知：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
得证。

极大似然估计

原理：利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！

求解过程：

求解极大似然函数：

ML估计：求使得出现该组样本的概率最大的θ值。
$\hat{\theta} = arg\underset{\theta }{max} \prod_{i=1}^{N}p(x_{i} |\theta)$
实际中为了便于分析，定义了对数似然函数：
$H(\theta )= \ln_{}{l(\theta )}$

$\hat{\theta} = arg\underset{\theta }{max}H(\theta )=arg\underset{\theta }{max}\sum_{i=1}^{N}\ln_{}{p(x_{i}|\theta )}$

未知参数只有一个（θ为标量）的情况。在似然函数满足连续、可微的正则条件下，极大似然估计量是下面微分方程的解：

未知参数有多个（θ为向量）则θ可表示为具有S个分量的未知向量：

记梯度算子：

若似然函数满足连续可导的条件，则最大似然估计量就是如下方程的解。

方程的解只是一个估计值，只有在样本数趋于无限多的时候，它才会接近于真实值。

朴素贝叶斯分类器

定义：朴素贝叶斯分类（NBC）是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法，先通过已给定的训练集，以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于学习到的模型，输入X求出使得后验概率最大的输出 Y。

朴素贝叶斯的基础假设：

①每个特征相互独立；
②每个特征的权重（或重要性）都相等，即对结果的影响程度都相同。

由朴素贝叶斯算法可得：
$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$

P(Y)称为”先验概率”：即在B事件发生之前，我们对A事件概率的一个判断。

P(Y|X)称为”后验概率”：在B事件发生之后，我们对A事件概率的重新评估。

P(X|Y)/P(X)称为”可能性函数”：这是一个调整因子，使得预估概率更接近真实概率。

所以可以得到以下结论：

后验概率=先验概率∗调整因子（可能性函数）

朴素贝叶斯基于各特征之间相互独立，在给定类别为y的情况下，上式可以进一步表示为下式：
$P(X|Y=y)=\prod_{i=1}^{d}P(x_{i}|Y=y)$

由以上两式可以计算出后验概率为：
$P_{post}=P(Y|X)=\frac{P(Y) {\textstyle \prod_{i=1}^{d}}P(x_{i}|Y) }{P(X)}$
即：
$P(Y|X)=\frac{P(x_{1}|Y)P(x_{2}|Y)P(x_{3}|Y)···P(x_{n}|Y)P(Y)}{P(X)}$
由于P(X)的大小是固定不变的，因此在比较后验概率时，只比较上式的分子部分即可。因此可以得到一个样本数据属于类别yi的朴素贝叶斯计算：
$P(y_{i}|x_{1},x_{2},···，x_{d})=\frac{p(y_{i}) {\textstyle \prod_{j=1}^{d}P(x_{j}|y_{i})} }{ {\textstyle \prod_{j=1}^{d}P(x_{j})} }$

朴素

说了那么多，好像公式也就是原本的贝叶斯公式中一维变量变成了多维变量，然后再结合全概率公式进行计算得到的结果。

那“朴素”体现在哪里呢？

朴素：假设各个特征之间相互独立，这个很重要，不然一切都是白费，不独立，条件概率和全概率就不成立了。所以“朴素”是朴素贝叶斯成立的大前提。

可能性函数的作用

P(X|Y)/P(X)我们定义它为可能性函数，除了用于后验概率的计算，还可以判断对先验概率的效果，我们当然希望对先验概率增强的效果越大越好。

如果”可能性函数” >1，意味着”先验概率”被增强，事件A的发生的可能性变大；

如果”可能性函数” =1，意味着B事件无助于判断事件A的可能性；

如果”可能性函数” <1，意味着”先验概率”被削弱，事件A的可能性变小。

拉普拉斯修正

若某个属性值在训练集中没有与某个类同时出现过，则训练后的模型会出现 over-fitting 现象。例如：出现一个训练集中没有出现的测试样例，那么该样例的概率就为0。因为概率是0的原因，那么对判断结果起到的影响非常大，会直接排除某些类别的预测。所以为了避免其他属性携带的信息，被训练集中未出现的属性值“ 抹去” ，在估计概率值时通常要进行“拉普拉斯修正”。

d：属性数目

xi：x在第i个属性上的取值

c：类别

$P(c|\mathbf{x} )=\frac{P(c)P(c|\mathbf{x} )}{p(\mathbf{x} )} =\frac{p(c)}{p(\mathbf{x}) } \prod_{i=1}^{d}p(x_{i}|c)$

防溢出策略

条件概率乘法计算过程中，因子一般较小（均是小于1的实数）。当属性数量增多时候，会导致累乘结果下溢出的现象。

在代数中有，因此可以把条件概率累乘转化成对数累加。分类结果仅需对比概率的对数累加法运算后的数值，以确定划分的类别。

样例解释

接下来，我们通过一个例子来更好的理解朴素贝叶斯算法。

li学委收集班级同学作业，发现收到的30份作业中既有作业答案又有对自己的检举信，其中有15份作业，14份检举信，但是有一个人X的作业他没看懂，于是li学委想可不可以根据收到作业的关键词来个X的作业分个类，看一下是答案还是检举信。

li学委对已有的作业进行关键词提取，取了四个关键词：

上报明天答案辛苦

作业答案（16/29） 3 4 2 6

检举信（13/29） 7 2 4 0

于是可以得到以下条件概率：
$\frac{3}{15}、 P(明天|作业答案) = \frac{4}{15}、 P(答案|作业答案) = \frac{2}{15}、 P(辛苦|作业答案) = \frac{6}{15}$

$\frac{7}{15}、 P(明天|检举信) = \frac{4}{15}、 P(答案|检举信) = \frac{2}{15}、 P(辛苦|检举信) = \frac{6}{15}$

li学委为了报名，从X的作业中提取到两个关键词：上报和答案两个关键词，他开始计算X的作业是作业答案还是对自己检举信的概率：（朴素贝叶斯公式得：）

$P (作业答案) P (上报 ∣ 作业答案) p (答案 ∣ 作业答案) = 0.0183$

$P (检举信) P (上报 ∣ 检举信) p (答案 ∣ 检举信) = 0.0506$

根据比较上述两个概率，得到X搞得是一封检举信，于是li学委开始盘他了！！！

	上报	明天	答案	辛苦
作业答案（16/29）	3	4	2	6
检举信（13/29）	7	2	4	0

假设，li学委收到了一封来历不明的作业，作业内容为：

“ 我要上报老师，上报学校、上报社会，辛苦你交一下。”

那么上述的算法计算结果为：
$P(作业答案)P(上报|作业答案)^{3}p(辛苦|作业答案)=0.000177$

$P(检举信)P(上报|检举信)^{3}p(辛苦|检举信)=0$

哎嘿，竟然是一份作业，结果：li学委——寄。

为了让算法更好得帮助li学委，那么要怎么做呢？

我们就可以用到上述得拉普拉斯修正了：

上报明天答案辛苦

作业答案（16/29） 4 5 3 7

检举信（13/29） 8 3 5 1

那么得到新的条件概率为：
$\frac{4}{19}、 P(明天|作业答案) = \frac{5}{19}、 P(答案|作业答案) = \frac{3}{19}、 P(辛苦|作业答案) = \frac{7}{19}$

$\frac{8}{17}、 P(明天|检举信) = \frac{3}{17}、 P(答案|检举信) = \frac{5}{17}、 P(辛苦|检举信) = \frac{1}{17}$

这样通过修正后得计算结果就是：
$P(作业答案)P(上报|作业答案)^{3}p(辛苦|作业答案)=0.000217$

$P(检举信)P(上报|检举信)^{3}p(辛苦|检举信)=0.000311$

选大的概率，得到这是一封检举信，盘他！！！

	上报	明天	答案	辛苦
作业答案（16/29）	4	5	3	7
检举信（13/29）	8	3	5	1

代码——使用拉普拉斯进行垃圾邮件分类

现实生活中，公司或者个人总是会收到大量的邮件，大部分都是垃圾邮件，那么我们如何从众多垃圾邮件中挑选出我们所需要的邮件呢？这就可以通过本次博文内容——朴素贝叶斯算法来解决。

构建文本向量

将文本划分成一个个词组短语，然后通过类别标签对其分类，行程一个文档向量。

def loadDataSet():
    """
    Returns：   postingList：词条切分后的文档集合
                classVec：类别标签的集合
    """ 
    #词条切分后的文档集合
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    #类别标签的集合
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    #词条切分后的文档集合和类别标签结合
    return postingList,classVec

# 创建不重复词的列表 ———— 词汇表
def createVocabList(dataSet):
    vocabSet = set([])                       # 创建一个空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 创建两个集合的并集
    return list(vocabSet)                    # 返回不重复的词条列表

# 输出文档向量
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)             # 创建一个其中所含元素都为0的向量
    for word in inputSet:                        # 遍历文档中的所有单词
        if word in vocabList:                    # 如果出现了词汇表中的单词，则将输出的文档向量中的对应值设为1
            returnVec[vocabList.index(word)] = 1
        else:
            print("单词 %s 不在词汇表中!" % word)
    return returnVec

# 测试函数效果
 
# 创建实验样本
listPosts, listClasses = loadDataSet()
print('数据集\n', listPosts)
 
# 创建词汇表
myVocabList = createVocabList(listPosts)  
print('词汇表:\n', myVocabList)
 
# 输出文档向量
print('文档向量',setOfWords2Vec(myVocabList, listPosts[5]))

输出结果：

从词向量到计算概率

到了计算，我们也用上了朴素贝叶斯算法，通过词向量来计算概率，伪代码如下：

该函数的伪代码如下：
计算每个类别中的文档数目
对每篇训练文档：
        对每个类别：
                如果词条出现在文档中→ 增加该词条的计数值
                增加所有词条的计数值
        对每个类别：
                对每个词条：
                        将该词条的数目除以总词条数目得到条件概率
返回每个类别的条件概率

from numpy import *
# 朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)                      # 获得训练的文档总数
    numWords = len(trainMatrix[0])                       # 获得每篇文档的词总数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 计算文档是侮辱类的概率
    p0Num = zeros(numWords)                              # 创建numpy.zeros数组，初始化概率
    p1Num = zeros(numWords)                              # 创建numpy.zeros数组，初始化概率
    p0Denom = 0.0                                        # 初始化为0
    p1Denom = 0.0                                        # 初始化为0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]                      # 向量相加，统计侮辱类的条件概率的数据，即P(w0|1),P(w1|1),P(w2|1)···
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]                      # 向量相加，统计非侮辱类的条件概率的数据，即P(w0|0),P(w1|0),P(w2|0)···
            p0Denom += sum(trainMatrix[i])
    p1Vect = p1Num / p1Denom                             # 侮辱类，每个元素除以该类别中的总词数
    p0Vect = p0Num / p0Denom                             # 非侮辱类，每个元素除以该类别中的总词数
    return p0Vect, p1Vect, pAbusive                      # p0Vect非侮辱类的条件概率数组、p1Vect侮辱类的条件概率数组、pAbusive文档属于侮辱类的概率



# 测试代码
listPosts, listClasses = loadDataSet()    # 创建实验样本
myVocabList = createVocabList(listPosts)  # 创建词汇表
trainMat = []
for postinDoc in listPosts:               # for循环使用词向量来填充trainMat列表
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
p0V, p1V, pAb = trainNB0(trainMat, listClasses)
print('p0V:\n', p0V)
print('p1V:\n', p1V)
print('pAb:\n', pAb)

结果：

但是，会出现以下问题：

词向量没有该特征，导致出现计算概率为0的情况。

因此，需要对其修正，提出将所有词的出现数初始化为1，并将分母初始化为2。

# 解决办法: 
p0Num = ones(numWords)                              # 创建numpy.ones数组，初始化概率
p1Num = ones(numWords)                              # 创建numpy.ones数组，初始化概率
p0Denom = 2.0                                       # 初始化为2
p1Denom = 2.0                                       # 初始化为2

由于太多很小的数相乘造成下溢出现象（概率都是小于1的数）。

这里就要用到防溢出策略了，代码如下：

# 解决办法：
p1Vect = log(p1Num/p1Denom)        # 使用log函数
p0Vect = log(p0Num/p0Denom)

改进后的朴素贝叶斯分类器训练函数：

# 改进后的朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)                      # 获得训练的文档总数
    numWords = len(trainMatrix[0])                       # 获得每篇文档的词总数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 计算文档是侮辱类的概率
    p0Num = ones(numWords)                               # 创建numpy.ones数组，初始化概率
    p1Num = ones(numWords)                               # 创建numpy.ones数组，初始化概率
    p0Denom = 2.0                                        # 初始化为2.0
    p1Denom = 2.0                                        # 初始化为2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]                      # 向量相加，统计侮辱类的条件概率的数据，即P(w0|1),P(w1|1),P(w2|1)···
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]                      # 向量相加，统计非侮辱类的条件概率的数据，即P(w0|0),P(w1|0),P(w2|0)···
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num / p1Denom)                        # 侮辱类，每个元素除以该类别中的总词数
    p0Vect = log(p0Num / p0Denom)                        # 非侮辱类，每个元素除以该类别中的总词数
    return p0Vect, p1Vect, pAbusive                      # p0Vect非侮辱类的条件概率数组、p1Vect侮辱类的条件概率数组、pAbusive文档属于侮辱类的概率



# 测试代码
listPosts, listClasses = loadDataSet()    # 创建实验样本
myVocabList = createVocabList(listPosts)  # 创建词汇表
trainMat = []
for postinDoc in listPosts:               # for循环使用词向量来填充trainMat列表
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
p0V, p1V, pAb = trainNB0(trainMat, listClasses)
print('p0V:\n', p0V)
print('p1V:\n', p1V)
print('pAb:\n', pAb)

结果：

我们可以发现，已经没有概率为0的项了。

朴素贝叶斯分类器分类函数

# 朴素贝叶斯分类器分类函数
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)        # 元素相乘，侮辱类概率
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)  # 非侮辱类概率
    if p1 > p0:
        return 1
    else:
        return 0

垃圾邮件分类

代码展示：

from numpy import *
 
# 创建不重复词的列表 ———— 词汇集合
def createVocabList(dataSet):
    vocabSet = set([])                       # 创建一个空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 创建两个集合的并集
    return list(vocabSet)                    # 返回不重复的词条列表
 
# 输出文档向量
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)             # 创建一个其中所含元素都为0的向量
    for word in inputSet:                        # 遍历文档中的所有单词
        if word in vocabList:                    # 如果出现了词汇表中的单词，则将输出的文档向量中的对应值设为1
            returnVec[vocabList.index(word)] = 1
        else:
            print("单词 %s 不在词汇表中!" % word)
    return returnVec
 
# 朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)                      # 获得训练的文档总数
    numWords = len(trainMatrix[0])                       # 获得每篇文档的词总数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 计算文档是侮辱类的概率
    p0Num = ones(numWords)                               # 创建numpy.ones数组，初始化概率
    p1Num = ones(numWords)                               # 创建numpy.ones数组，初始化概率
    p0Denom = 2.0                                        # 初始化为2.0
    p1Denom = 2.0                                        # 初始化为2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]                      # 向量相加，统计侮辱类的条件概率的数据，即P(w0|1),P(w1|1),P(w2|1)···
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]                      # 向量相加，统计非侮辱类的条件概率的数据，即P(w0|0),P(w1|0),P(w2|0)···
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num / p1Denom)                        # 侮辱类，每个元素除以该类别中的总词数
    p0Vect = log(p0Num / p0Denom)                        # 非侮辱类，每个元素除以该类别中的总词数
    return p0Vect, p1Vect, pAbusive                      # p0Vect非垃圾邮件的条件概率数组、p1Vect是垃圾邮件的条件概率数组、pAbusive文档属于垃圾邮件的概率
 
# 朴素贝叶斯分类器分类函数
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)        # 元素相乘
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0
 
# 朴素贝叶斯词袋模型
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec
 
# 文件解析
def textParse(bigString):  # 输入字符串, 输出单词列表
    import re
    listOfTokens = re.split(r'[\W*]', bigString)                    # 字符串切分，去掉除单词、数字外的任意字符串
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]    # 除了单个字母外，其他字符串全部转换成小写
 
# 完整的垃圾邮件测试函数
def spamTest():
    docList = []                 # 文档列表
    classList = []               # 文档标签
    fullText = []                # 全部文档内容集合
    for i in range(1, 25):                                           # 遍历垃圾邮件和非垃圾邮件各25个
        wordList = textParse(open('D:/桌面/email/Spam/%d.txt' % i, encoding='utf-8').read())   # 读取垃圾邮件，并生成单词向量
        docList.append(wordList)                                     # 垃圾邮件加入文档列表
        fullText.extend(wordList)                                    # 把当前垃圾邮件加入文档内容集合
        classList.append(1)                                          # 1表示垃圾邮件，标记垃圾邮件
        wordList = textParse(open('D:/桌面/email/Ham/%d.txt' % i,encoding='utf-8').read())   # 读非垃圾邮件，并生成单词向量
        docList.append(wordList)                                     # 非垃圾邮件加入文档列表
        fullText.extend(wordList)                                    # 把当前非垃圾邮件加入文档内容集合
        classList.append(0)                                          # 0表示垃圾邮件，标记非垃圾邮件,
 
    vocabList = createVocabList(docList)                             # 创建不重复的词汇表
    trainingSet = list(range(40))                                    # 为训练集添加索引
    testSet = []                                                     # 创建测试集
    for i in range(10):                                              # 目的为了从50个邮件中，随机挑选出40个作为训练集,10个做测试集
        randIndex = int(random.uniform(0, len(trainingSet)))         # 随机产生索引
        testSet.append(trainingSet[randIndex])                       # 添加测试集的索引值
        del (trainingSet[randIndex])                                 # 在训练集中，把加入测试集的索引删除
 
    trainMat = []                                                    # 创建训练集矩阵训练集类别标签系向量
    trainClasses = []                                                # 训练集类别标签
    for docIndex in trainingSet:                                     # for循环使用词向量来填充trainMat列表t
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))  # 把词集模型添加到训练矩阵中
        trainClasses.append(classList[docIndex])                     # 把类别添加到训练集类别标签中
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses)) # 朴素贝叶斯分类器训练函数
 
    print('词表:\n', vocabList)
    print('p0V:\n', p0V)
    print('p1V:\n', p1V)
    print('pSpam:\n', pSpam)
 
    errorCount = 0                                                   # 用于计数错误分类
    for docIndex in testSet:                                         # 循环遍历训练集
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])  # 获得测试集的词集模型
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1                                          # 预测值和真值不一致，则错误分类计数加1
            print("分类错误集", docList[docIndex])
    print('错误率: ', float(errorCount) / len(testSet))
    # return vocabList,fullText

这里说明：数据集很重要，因为要分词，而且中文分词会比英文难，因为英文单词用空格“ ”分隔每个单词，而中文的标点符号，em，自己感受吧。

因为我看了以下我的邮箱，没有是那么垃圾文件，或者说垃圾文件都是一样的，我就在网上找了一些垃圾邮件，而好的邮件，我发现我也没有，于是，我在网络上的优秀作文摘抄了25份。跑出来下面恐怖的东西。

上、下部分省略1w字…。

# 邮件分类器
def classifyEmail():
    docList = []                 # 文档列表
    classList = []               # 文档标签
    fullText = []                # 全部文档内容集合
    for i in range(1, 21):                                           # 遍历垃圾邮件和非垃圾邮件各20个
        wordList = textParse(open('D:/桌面/email/Spam/%d.txt' % i, encoding='utf-8').read())   # 读取垃圾邮件，将大字符串并将其解析为字符串列表
        docList.append(wordList)                                     # 垃圾邮件加入文档列表
        fullText.extend(wordList)                                    # 把当前垃圾邮件加入文档内容集合
        classList.append(1)                                          # 1表示垃圾邮件，标记垃圾邮件
        wordList = textParse(open('D:/桌面/email/Ham/%d.txt' % i, encoding='utf-8').read())    # 读非垃圾邮件，将大字符串并将其解析为字符串列表
        docList.append(wordList)                                     # 非垃圾邮件加入文档列表
        fullText.extend(wordList)                                    # 把当前非垃圾邮件加入文档内容集合
        classList.append(0)                                          # 0表示垃圾邮件，标记非垃圾邮件,
 
    vocabList = createVocabList(docList)                             # 创建不重复的词汇表
    trainingSet = list(range(40))                                    # 为训练集添加索引
    trainMat = []                                                    # 创建训练集矩阵训练集类别标签系向量
    trainClasses = []                                                # 训练集类别标签
    for docIndex in trainingSet:                                     # for循环使用词向量来填充trainMat列表
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))  # 把词集模型添加到训练矩阵中
        trainClasses.append(classList[docIndex])                     # 把类别添加到训练集类别标签中
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses)) # 朴素贝叶斯分类器训练函数
 
    testList = textParse(open('D:/桌面/email/test/5.txt', encoding='utf-8').read())            # 读取邮件，将大字符串并将其解析为字符串列表
    testVector = bagOfWords2VecMN(vocabList, testList)               # 获得测试集的词集模型
    if classifyNB(array(testVector), p0V, p1V, pSpam):
        result = "垃圾邮件"
    else:
        result = "正常邮件"
    print("输入邮件内容为: ")
    print(' '.join(testList))
    print('该邮件被分类为: ', result)
    
    
    
if __name__ == '__main__':
    classifyEmail()

结果：（跑了两次，分类结果还好）

总结

首先，就是朴素贝叶斯的缺点：使用的样本属性真实情况中并不是相互独立性的，那么这样的分类效果可能不会很好。而且需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候，会由于假设的先验模型的原因导致预测效果不佳。

当然，我们可以通过优化我们的模型或者是采用更好的算法去降低他们的相关性，直到降低到一定的值，那么他的相关性其实就可以忽略不计。

附上：网盘：
链接：https://pan.baidu.com/s/1Pk1CY9hlfMSVe4L77-PItQ
提取码：ahsg
–来自百度网盘超级会员V3的分享

你可能感兴趣的:(机器学习,人工智能)

清华大学《DeepSeek赋能家庭教育》深度解析：AI如何重塑现代家庭教育模式硅基打工人 AI 人工智能经验分享大数据开源语言模型
引言：家庭教育的困境与AI的破局在数字化与智能化浪潮下，家庭教育面临多重挑战：家长教育能力不足、教育资源分配不均、亲子沟通效率低下、个性化需求难以满足等。清华大学发布的《DeepSeek赋能家庭教育》系列报告（共56页）提出了一种基于人工智能的解决方案，通过深度学习平台DeepSeek，为家庭教育注入科技动能。本文将从技术原理、核心功能、应用场景、伦理安全及未来展望等多维度展开分析。一、DeepS
小语言模型（SLM）技术解析：如何在有限资源下实现高效AI推理硅基打工人 AI 人工智能语言模型自然语言处理
引言：为什么小语言模型（SLM）是2025年的技术焦点？2025年，人工智能领域正经历一场“由大变小”的革命。尽管大语言模型（LLM）如GPT-4、GeminiUltra等在复杂任务中表现惊艳，但其高昂的算力成本、庞大的参数量（通常超过千亿）和依赖云端的特性，使得实际落地面临诸多瓶颈。**小语言模型（SmallLanguageModel,SLM）**应运而生，凭借其高效性、经济性和本地化部署能力，
AI开拓者指南：GenAI产品应用TIPs——从采购到使用（采购篇） ai开发
AI浪潮愈发澎湃的当下，生成式人工智能技术已成为企业创新与效率提升的重要工具。企业对生成式人工智能产品（以下简称为“GenAI产品”）的应用需求日益增长，其应用场景也愈发多样化：开展营销活动的过程中利用AI生成创意文案和视觉设计素材，极大地缩短了创作周期并降低了成本；使用AI客服机器人处理客户咨询，显著地提高了客户满意度和响应速度；使用AI还可以为客户提供个性化的产品推荐，提高销售转化率等等。然而
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
Prompt工程全解析：从入门到精通的终极指南二川bro 智能AI 人工智能 prompt
Prompt工程全解析：从入门到精通的终极指南发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc一、Prompt设计核心法则1.1角色定位法则[角色设定]你是一位资深全栈工程师，拥有10年React和Node.js开发经验[任务要求]为电商系统设计购物车模块，要求：1.支持商品增删改查2.实时计算总价
新手村：线性回归-实战-波士顿房价预测嘉羽很烦机器学习线性回归算法回归
新手村：线性回归-实战-波士顿房价预测前置条件阅读：新手村：线性回归了解相关概念实验目的1.熟悉机器学习的一般流程2.掌握基础的数据处理方法3.理解常用的回归算法教学例子：预测房价（以波士顿房价数据集为例）本次实验，你将使用真实的波士顿房价数据集建立起一个房价预测模型，并且了解到机器学习中的若干重要概念和评价方法，请通过机器学习建立回归模型，即:Y=θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
RAG技术深度解析：从基础Agent到复杂推理Deep Search的架构实践小爷毛毛（卓寿杰）系统架构与解决方案搜索推荐架构语言模型人工智能自然语言处理
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展一、什么是RAGAgent？1.从信息处理到智能生成在自然语言处
免费DeepSeek与ChatGPT（200美元/月）大比拼！小焱创作 chatgpt 人工智能人工智能写作 ai写作深度学习神经网络 ai
目录免费DeepSeek与ChatGPT（200美元/月）大比拼！免费DeepSeek与ChatGPT（200美元/月）大比拼！在人工智能领域，DeepSeek与ChatGPT无疑是两位耀眼的明星。前者以免费服务迅速崛起，后者则以200美元/月的订阅费维持其高端定位。两者之间的竞争，不仅引发了业界对AI技术发展的关注，更深刻地影响了现代生活的方方面面。本文将从基本概念、深层次解读、具体落地实操等多
【解锁机器学习：探寻数学基石】游戏乐趣机器学习人工智能
机器学习中的数学基础探秘在当今数字化时代，机器学习无疑是最具影响力和发展潜力的技术领域之一。从图像识别到自然语言处理，从智能推荐系统到自动驾驶，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，在这看似神奇的机器学习背后，数学作为其坚实的理论基础，起着不可或缺的关键作用。毫不夸张地说，数学是打开机器学习大门的钥匙，是理解和掌握机器学习算法与模型的核心所在。想象一下，机器学习就像是一座
机器学习——正则化、欠拟合、过拟合、学习曲线代码的建筑师学习记录机器学习机器学习学习曲线过拟合欠拟合正则化
过拟合（overfitting）:模型只能拟合训练数据的状态。即过度训练。避免过拟合的几种方法：①增加全部训练数据的数量（最为有效的方式）②使用简单的模型（简单的模型学不够，复杂的模型学的太多），这里的简单指的是不要过于复杂③正则化（对目标函数后加上正则化项）：使得这个“目标函数+正则化项”的值最小，即为正则化，用防止参数变得过大（参数值变小，意味着对目标函数的影响变小），λ是正则化参数，代表正则
知识图谱与知识表示：人工智能的基石醉心编码 c/c++人工智能知识图谱
知识图谱与知识表示：人工智能的基石一、知识图谱：连接数据的桥梁1.1知识图谱的构成1.2知识图谱的应用二、知识表示：AI的推理基础2.1知识表示的定义2.2知识表示的形式三、从符号表示到向量表示3.1符号表示与向量表示3.2向量表示的优势四、智能的精华：推理与学习4.1推理的重要性4.2学习的局限性五、结论在人工智能领域，知识图谱和知识表示是两个核心概念，它们构成了AI理解、推理和学习的基础。本文
从过拟合到强化学习：机器学习核心知识全解析吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能过拟合强化学习 python LLM scikit-learn
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
从LangChain到LangGraph：轻松迁移指南 tt_jishu langchain 前端 javascript python
引言在人工智能应用的开发过程中，从一个框架迁移到另一个框架可能是一个复杂的过程。本文将深入探讨如何从传统的LangChain代理迁移到LangGraph代理，这将为您的工具调用和对话管理带来更大的灵活性。主要内容1.安装和设置确保已安装所需的依赖包：%%capture--no-stderr%pipinstall-Ulanggraphlangchainlangchain-openai设置OpenAI
利用matlab实现贝叶斯优化算法（BO）优化支持向量机回归(SVR)的超参数是内啡肽耶算法 matlab 支持向量机机器学习回归
【导读】在机器学习建模中，支持向量机（SVM）回归模型的效果高度依赖超参数选择。但手动调参就像"大海捞针"，而网格搜索又面临"计算爆炸"的难题。今天给大家介绍一个智能调参黑科技——贝叶斯优化算法。通过Matlab实现，只需几分钟就能让模型性能自动升级！一、为什么要用贝叶斯优化调参？传统调参三大痛点：C参数（正则化强度）：过小导致过拟合，过大削弱模型能力ε参数（不敏感区域）：决定对预测误差的容忍度核
AI笔记——语音识别 Yuki-^_^ 人工智能 AI 人工智能笔记语音识别
摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。随着科技的发展，语音识别已经成为现代生活和工作中不可或缺的一部分。本文旨在介绍语音识别的基本原理、关键技术、应用场景以及未来发展趋势。一、历史与发展语音识别技术的历史可以追溯到20世纪50年代，那时的技术基于规则和模板。随着计算能力的提升和深度学习方法的出现，语
机器学习的下一个前沿是因果推理吗？——探索机器学习的未来方向！真智AI 人工智能机器学习
机器学习的进化：从预测到因果推理机器学习凭借强大的预测能力，已经彻底改变了多个行业。然而，要实现真正的突破，机器学习还需要克服实践和计算上的挑战，特别是在因果推理方面的应用。未来，因果推理或许将成为推动机器学习发展的新前沿。什么是因果推理，它如何与机器学习相关？如果你和我一样没有数学背景，你可能会好奇“因果推理”到底意味着什么？它与机器学习又有什么关系？当我刚开始学习机器学习时，第一次听到“因果推
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
智能编程新时代：DeepSeek加持下的开发工具革新 inscode_013
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能编程新时代：DeepSeek加持下的开发工具革新在当今快速发展的科技领域，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们迎来了前所未有的机遇和挑战。其中，集成DeepSeek模型的AI开发工具，正以其强大的功能和便捷的操作，引领着编程方式的革命性变革。本文将探讨这种创新工具的应用场景
智能编程新时代：DeepSeek加持下的开发利器 inscode_099
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智能编程新时代：DeepSeek加持下的开发利器在当今快速发展的科技时代，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们不再满足于传统的IDE（集成开发环境），而是渴望更加智能、高效的开发工具。在这种背景下，一款集成了DeepSeek-V3模型的AI开发工具应运而生，它不仅能够大幅提升开发效率
智能化编程新时代，DeepSeek加持下的开发革命 ObsidianRaven13
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化编程新时代，DeepSeek加持下的开发革命随着人工智能技术的飞速发展，编程领域正迎来一场前所未有的变革。从传统的手动编码到如今的智能辅助开发，这一过程不仅极大地提升了开发效率，还让编程变得更加简单和高效。在众多新兴工具中，基于DeepSeek模型的智能编程助手正在成为开发者的新宠。今天，我们将探讨这种工具如何
智能化开发新时代：DeepSeek加持下的编程革命 MoonbeamOwl67
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化开发新时代：DeepSeek加持下的编程革命在当今快速发展的科技时代，软件开发已经成为推动社会进步的重要动力。然而，对于许多开发者而言，编写高质量的代码仍然是一项充满挑战的任务。从复杂的算法设计到繁琐的调试过程，每一个环节都需要耗费大量的时间和精力。而随着人工智能技术的迅猛发展，一种全新的编程方式正在悄然改变这
深入解析LTE-A到5G的系统消息架构与功能演进罗博深
本文还有配套的精品资源，点击获取简介：系统消息是移动通信网络中，UE与网络间信息交换的核心，涵盖了网络状态、服务信息与系统配置。文章深入分析了4GLTE-A到5G网络中系统消息的组成、作用及其演进，包括MIB和SIBs的功能与内容，以及5G对系统消息的优化和新技术的引入，如动态调度、网络切片和针对物联网设备的特定参数配置。5G系统消息还通过机器学习和大数据分析实现智能化分发，增强了网络灵活性、智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析木子算法多目标优化人工智能算法多目标人工智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析在工程优化、机器学习等众多领域，约束多目标优化问题（CMOPs）广泛存在。传统方法在处理这类问题时，常因可行区域不连通或约束违反局部极小点陷入停滞。近期，IEEETransactionsonEvolutionaryComputation上的一篇论文提出了一种新颖的解决方案——MOEA/D-DAE算法，通过结合检测-逃逸策略（DAE）和
python 人工智能实战案例 2401_86114612 pygame python java
大家好，今天我们要分享，python编程人工智能小例子python人工智能100例子，一起探索吧！1.背景介绍概述在这个世纪，人类已经处于数字化的时代，而这也让很多其他行业都进入了数字化领域python列表有哪些基本操作,python列表功能很重要吗。其中包括游戏行业。游戏行业的蓬勃发展促使机器学习的产生，通过计算机能够进行高效率地模拟人类的学习、决策过程，不断升级提升人类的能力。游戏领域中的AI
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
基于AI算法实现的情感倾向分析的方法程序员奇奇计算机毕设人工智能算法
完整代码：https://download.csdn.net/download/pythonyanyan/87430621背景目前，情感倾向分析的方法主要分为两类：一种是基于情感词典的方法；一种是基于机器学习的方法，如基于大规模语料库的机器学习。前者需要用到标注好的情感词典，英文的词典有很多，中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典，还有哈工大信息检索研究
机器学习算法实战——天气数据分析（主页有源码）喵了个AI 机器学习实战机器学习算法数据分析
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言天气数据分析是气象学和数据科学交叉领域的一个重要研究方向。随着大数据技术的发展，气象数据的采集、存储和分析能力得到了显著提升。机器学习算法在天气数据分析中的应用，不仅能够提高天气预报的准确性，还能为气候研究、灾害预警等提供有力支持。本文将介绍机器学习在天气数据分析中的应用，探讨
基于人工智能的智能视频内容分析系统小彭律师 python
基于人工智能的智能视频内容分析系统系统功能1.视频数据预处理降噪与滤波：去除视频画面中的噪点和干扰画质增强：调整亮度、对比度和色彩平衡关键帧提取：减少数据量，提取关键信息2.目标识别检测基于深度学习模型（YOLO、FasterR-CNN等）识别多种目标类型（人、车辆、物品等）适应不同光照、角度和遮挡情况输出目标位置、类别和置信度3.行为分析研判基于时序模型（LSTM、3D-CNN等）分析目标动作规
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23