叶贝斯分类器

看了下贝叶斯分类器,写个小总结吧!

文章目录

  • 前言
  • 一、先验概率
  • 二、后验概率
    • 1.引入特征
    • 2.后验概率
  • 三、风险
  • 四、朴素贝叶斯
  • 五、平滑


前言

贝叶斯在文本分类中的应用:垃圾邮件分类;新闻报道分类;情感极性分类

一、先验概率

先验概率反应我们在实际观察中对某种症状的预测。记作p(yi)
叶贝斯分类器_第1张图片
决策规则是基于输入采取的特定行动。(基于先验的决策是有效但是灵活性,准确性还是有局限性。给出的是同样的预测,没有考虑到个体;先验概率均匀也效果不佳)

二、后验概率

1.引入特征

特征:观测变量
特征空间:进行观测值采样的空间

2.后验概率

后验概率:给定观测向量x,某个特定类别的概率P(y/x)
贝叶斯定理:
叶贝斯分类器_第2张图片
我们希望最大后验概率(MAP)的类别作为预测结果y=argmacP(yi/x)*
叶贝斯分类器_第3张图片

三、风险

叶贝斯分类器_第4张图片
可以打球,那么可以打球就是我们的风险。意思就是决策为一个,则另外的一个较小的就是我们的犯错。
犯错之后我们会带来损失
不同的错误带来的损失可能不同,记作人ij。
条件风险
叶贝斯分类器_第5张图片
每个样本最佳,是贝叶斯分类的最佳。

四、朴素贝叶斯

关键是做了一个条件独立性假设叶贝斯分类器_第6张图片
叶贝斯分类器_第7张图片
实际上做的只对分子做评估就可以了。
叶贝斯分类器_第8张图片
先验概率实际上就是ck类别的占比除以总的样本个数N
条件概率实际上就是类别为ck的情况下,x的取值为 某个数的次数除以总的为ck的次数。
参数估计
1.学习;计算先验概率和条件概率
2.测试;算先验概率的最大概率的似然估计
3.确定x的类别;算最优分类,作为y的取值叶贝斯分类器_第9张图片

五、平滑

使得概率不为零,而是一个极小的值。每个
叶贝斯分类器_第10张图片
叶贝斯分类器_第11张图片

Sj就是说在第J个维度上特征的可能取值个数。
K是类别的个数。(yes no这种类别)
连续特征采用统计看他是符合某种分布的,然后也可以计算。
叶贝斯分类器_第12张图片
在进行文本分类时我们首先应该去除停用词和词干提取停用词(携带信息量极为少)词干提取(对词语去除词缀,从而得到词干的过程)对于分类器而言,需要找出积极与消极那个标签的概率更大,所以可以去除相同的除数,即比较两者的分子。

参考:b站up:山he大海

你可能感兴趣的:(算法,python)