机器学习第三篇:详解朴素贝叶斯算法

机器学习第三篇:详解朴素贝叶斯算法_第1张图片

一、统计知识

01|随机事件:

1、概念

随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母A、B、C等表示。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点,记作ωi。全体样本点组成的集合称为这个试验的样本空间,记作Ω.即Ω={ω1,ω2,…,ωn,…}

随机事件中的事件形式可能由各种形式,比如{"正面","反面"},{"优","良","差"}。

2、条件概率

P(A|B)=P(AB)/P(B)表示在事件B发生的情况下事件A发生的概率。

3、一些性质

概率的有限可加性:若事件A1、A2、......、Ai.....、Aj这些事件两两互斥,则P(∑Ai)=∑P(Ai),表示所有事件发生的概率等于各个事件发生的概率之和。

概率的乘法公式:P(AB)=P(A)P(B|A)=P(B)P(A|B)。若事件A与B相互独立,则P(AB)=P(A)P(B),推广到有限多个事件时可表示为:P(A1A2A3.....An)=P(A1)P(A2|A1)P(A3|A1A2)......P(An|A1A2......An-1)。

4、全概率公式

对于比较复杂的概率事件的计算,经常会把它分解成若干个简单事件的和,通过分别计算这些简单事件的概率,然后利用概率的可加性计算出所求事件的概率。假设事件A1、A2、......、An是Ω的一个划分,即两两互斥,且

∑Ai=Ω,则B=B∑Ai,再由概率的有限可加性得,P(B)=P(B∑Ai)=P(∑BAi)。

再由概率得乘法公式得P(B)=P(∑BAi)=∑P(Ai)P(B|Ai),这就是全概率公式。

5、贝叶斯公式

假设事件A1、A2、......、An是Ω的一个划分,B=B∑Ai=∑BAi,则B发生条件下Ai发生得概率为:P(Ai|B)=P(AiB)/P(B)。由乘法公式和全概率公式得P(Ai|B)=P(Ai)P(B|Ai)/∑P(Ai)P(B|Ai)。该公式就是贝叶斯公式。

02|一维随机变量:

1、概念

一般意义上概率是针对于某一随机事件而言得,为更深入得研究随机试验得结果,我们引入随机变量得概念,随机变量得基本思想是把随机试验的结果数量化,从而可用一个变量去描述随机事件。对于随机事件中出现的某一事件我们用变量的形式去表示。比如{"正面","反面"}可以表示为{1,0},{"优","良","差"}可以表示为{1,2,3}。

2、随机变量分布

假设X是一随机变量,他可能取值为X1,X2,....,Xk,并且取各个值对应的概率分别为P1,P2,......Pk,即P(X=Xk)=Pk,K=1,2,....,该式称为随机变量X的概率分布。

03|多维随机变量:

1、概念

通过随机变量来描述某一随机事件时,有时候仅用一个维度上的变量去表示是不够的,比如描述平面的某一个点的位置就需要用X,Y两条轴(即两个维度)去表示才可以,如果是描述空间中某个点可能需要X,Y,Z三个维度去表示才可以,我们把一个随机变量需要从n个维度去表示的变量称为n维随机变量。

一般地,当n=2时,称(X,Y)为二维随机变量,二维随机变量的联合分布为:

F(x,y)=P(X≤x,Y≤y),其中P(X≤x,Y≤y)表示随机事件{X≤x},{Y≤y}同时发生的概率。

若事件X与Y相互独立,则P(X≤x,Y≤y)=P(X≤x)P(Y≤y)。

条件分布:P(X≤x|Y≤y)=P(X≤x,Y≤y)/P(Y≤y)。

二、算法知识

01|原理:

朴素贝叶斯算法就是根据贝叶斯公式来对未知事物进行分类,通过已知条件(X=x)计算未知事物分别属于各个类别(Y=ck)时对应的概率,然后把未知事物判别为概率最大的那一类。

贝叶斯公式:P(Y=ck|X=x)=P(Y=ck)P(X=x|Y=ck)/∑P(Y=ck)P(X=x|Y=ck)。

02|学习过程:

我们要想计算出未知事物属于哪一个类别的概率较大,即P(Y=ck|X=x)在x等于多少时概率最大,需要先算出P(Y=ck)和P(X=x|Y=ck)。这两个值可以通过训练集求得。在具体的求取过程中需要用到一种估计方法就是极大似然估计

极大似然估计是一种概率论在统计中的应用,说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值,一般把这个结果作为估计值。

在这里我们用极大似然估计的方法来给P(Y=ck)以及P(X=x|Y=ck)估值,把训练集中的所有值当成是若干次试验以后得到的结果,利用极大似然估计的思想,则P(Y=ck)=该类别的频数/集合总数。P(Y=ck)=∑I(Y=ck)/N,k=1,2,...,K, 

N为集合总数。

P(X=x|Y=ck)=ck类下满足条件x的值的频数/属于ck类值的总数。

P(X=x|Y=ck)=∑I(X=x,Y=ck)/∑I(Y=ck),k=1,2,....,K

上面的I为指示函数,是定义在某一集合X上的函数,表示其中有哪些元素属于某一子集A,常用于次数的统计,即满足某一条件的个数。

预估出P(Y=ck)和P(X=x|Y=ck)的值以后,我们就可以利用贝叶斯公式对在X=x的条件下P(Y=ck|X=x)对应的分类是哪一类。


上面的学习过程都只是针对于一维变量进行求取的,在实际的算法应用中,往往是多维的,即多个特征,于是乎:P(X=x|Y=ck)=P(X=x1,X=x2,...,X=xi|Y=ck),xi表示变量x的第i个特征

P(X=x|Y=ck)=P(X=x1,X=2,...,X=xi|Y=ck)=P(X=x1,X=2,...,X=xi)/P(Y=ck)

因为朴素贝叶斯对条件概率做了独立性假设,所以P(X=x1,X=x2,...,X=xi)/P(Y=ck)=P(X=x1)P(X=x2)...P(X=xi)/P(Y=ck)=

∏P(X=xi|Y=ck)

将上式代入贝叶斯公式中可得出:

P(Y=ck|X=x)=P(Y=ck)∏P(X=xi|Y=ck)/∑P(Y=ck)∏P(X=xi|Y=ck),因为分母∑P(Y=ck)∏P(X=xi|Y=ck)对每个分类ck来说,其值都是相等的,而我们最后是要比较每个ck对应的P(Y=ck|X=x)的大小,所以可以把分母去掉,最后学习到的模型为:y=f(x)=P(Y=ck)∏P(X=xi|Y=ck)。(其中∏P(X=xi|Y=ck)需要让i取不同的值(即不同的特征)然后用极大似然估计去估计。)

03|测试过程:

将测试数据集代入到学到的模型y=f(x)=P(Y=ck)∏P(X=xi|Y=ck)然后看不同分类所对应的概率,选择概率最大的分类为待测数据的分类。然后判断其预测的准确性。

04|贝叶斯估计:

在前面我们估计P(Y=ck)和P(X=x|Y=ck)的值的时候用的是极大似然估计,使用这种方法很有可能出现估计值为0的情况,因为有些特征可能不存在,所以其概率为0,但是P(X=x|Y=ck)=∏P(X=xi|Y=ck),只要有一个特征为0,整个P(X=x|Y=ck)就会为0,这将影响到后续的概率计算,所以这种估计方法有的时候是行不通的,我们需要换另外的估计方法,就是贝叶斯估计。

机器学习第三篇:详解朴素贝叶斯算法_第2张图片

K为类的个数。

Lj是第j维特征的最大取值。

贝叶斯估计是在极大似然估计的基础上给分子分母分别加一个常数,当λ=1时称为拉普拉斯平滑。

05|利用python对留言性质进行判断:

本实例以及代码均来自于书籍《机器学习实战》第4章。

1、背景

某社区为了屏蔽掉一些侮辱性留言,需要构建一个快速过滤器,只要某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。

2、准备数据

机器学习第三篇:详解朴素贝叶斯算法_第3张图片

3、数据处理

机器学习第三篇:详解朴素贝叶斯算法_第4张图片

机器学习第三篇:详解朴素贝叶斯算法_第5张图片

4、计算先验概率

机器学习第三篇:详解朴素贝叶斯算法_第6张图片

机器学习第三篇:详解朴素贝叶斯算法_第7张图片

机器学习第三篇:详解朴素贝叶斯算法_第8张图片

5、调试算法

在前面我们讲过采用极大似然估计中可能会出现概率为0的情况,在上面的结果代码中我们也可以看出,确实有一些结果为0的概率,为了避免这种情况,我们将采用拉普拉斯平滑。

机器学习第三篇:详解朴素贝叶斯算法_第9张图片

6、应用算法

最后就可利用模型y=f(x)=P(Y=ck)∏P(X=xi|Y=ck)对具体某一条留言的是否包含侮辱性评论进行判断了。

你可能感兴趣的:(机器学习,人工智能,python,算法,大数据)