NLP-文本表示

一、朴素贝叶斯

1.1 朴素贝叶斯理论

朴素贝叶斯的原理:
基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类模型,将其保存为中间结果,测试文档进行分类时调用这个中间结果得出后验概率。

那什么是朴素贝叶斯?
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。
贝叶斯公式:

贝叶斯公式:
NLP-文本表示_第1张图片
X:特征向量 Y:类别
先验概率 P(X):是指根据以往经验和分析得到的概率。
后验概率 P(Y|X):事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。
类条件概率 P(X|Y):在已知某类别的特征空间中,出现特征值X的概率密度。

朴素:朴素贝叶斯算法是假设哥哥特征之间相互独立,也是朴素的意思。由此,P(X|Y)就可以写成:
在这里插入图片描述
NLP-文本表示_第2张图片
模型原理与训练

朴素贝叶斯分类器是一种有监督学习,常见有三种模型,多项式模型(multinomial model)即为词频型和伯努利模型(Bernoulli model)即文档型,还有一种高斯模型。
前二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度,因此二者的先验概率和类条件概率的计算方法都不同。计算后验概率时,对于一个文档d,多项式模型中,只有在d中出现过的单词,才会参与后验概率计算,伯努利模型中,没有在d中出现,但是在全局单词表中出现的单词,也会参与计算,不过是作为“反方”参与的。这里暂不考虑特征抽取、为避免消除测试文档时类条件概率中有为0现象而做的取对数等问题。


未完待续。。。

你可能感兴趣的:(学习记录)