自然语言处理学习复习2(贝叶斯)

贝叶斯公式

贝叶斯公式就一行:


image.png

而它其实是由以下的联合概率公式推导出来:


image.png

其中 P(Y) 叫做先验概率, P(Y|X) 叫做后验概率, P(Y,X) 叫做联合概率。

机器学习的视角理解贝叶斯公式

在机器学习的视角下,我们把 X 理解成“具有某特征”,把 Y 理解成“类别标签”。
而我们二分类问题的最终目的就是要判断 P(“属于某类”|“具有某特征”) 是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,而后者获取方法就简单多了,我们只需要找到一些包含已知特征标签的样本,即可进行训练。

分词以及条件独立假设
image.png

(我们令字母S表示“垃圾邮件”,令字母H表示“正常邮件”。)

## 处理重复词语的三种方式¶

我们之前的垃圾邮件向量(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”),其中每个词都不重复。而这在现实中其实很少见。因为如果文本长度增加,或者分词方法改变,必然会有许多词重复出现,因此需要对这种情况进行进一步探讨。比如以下这段邮件:

“代开发票。增值税发票,正规发票。” 分词后为向量: (“代开”,“发票”,“增值税”,“发票”,“正规”,“发票”)

其中“发票”重复了三次。

9.1 多项式模型:

如果我们考虑重复词语的情况,也就是说,重复的词语我们视为其出现多次,直接按条件独立假设的方式推导,则有

image.png

image.png

需要去除停用词

处理未出现的词---平滑技术(加1)

image.png

工程处理

取对数,转权重,topk,样本分割,位置权重

从朴素贝叶斯(词袋子模型)到N-gram语言模型

image.png

你可能感兴趣的:(自然语言处理学习复习2(贝叶斯))