https://blog.csdn.net/qq_17073497/article/details/81076250
以上网址,讲的深入浅出,循循善诱。可以详细看看。
贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策轮考虑如何基于这些概率和误判损失来选择最优的类别标记。
1.1 后验概率
P{H0|x}是给定观测值x条件下H0出现的概率,统称为后验概率
For example:
假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少?
使用 贝叶斯定理,事件A是看到女生,事件B是看到一个穿裤子的学生。我们所要计算的是P(A|B)。
P(A)是忽略其它因素,看到女生的概率,在这里是40%
P(A')是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是60%
P(B|A)是女生穿裤子的概率,在这里是50%
P(B|A')是男生穿裤子的概率,在这里是100%
P(B)是忽略其它因素,学生穿裤子的概率,P( ) = P( | )P( ) + P( | ')P( '),在这里是0.5×0.4 + 1×0.6 = 0.8.
根据贝叶斯定理,我们计算出后验概率P(A|B)
P(A|B)=P(B|A)*P(A)/P(B)=0.25
可见,后验概率实际上就是条件概率。
---------------------
作者:Sunning_001
来源:CSDN
原文:https://blog.csdn.net/qq_17073497/article/details/81076250
版权声明:本文为博主原创文章,转载请附上博文链接!
然后,再看看
https://blog.csdn.net/qq_32690999/article/details/78737393
朴素贝叶斯分类器,顾名思义,是一种分类算法,且借助了贝叶斯定理。另外,它是一种生成模型(generative model),采用直接对联合概率P(x,c)建模,以获得目标概率值的方法。
然后再看这个
https://www.leiphone.com/news/201707/VyUNGYnEy3kXnkVb.html
https://www.leiphone.com/news/201707/VyUNGYnEy3kXnkVb.html
统计
这里统计什么呢?统计两种数据
1. 评论级别的次数
这里有三个级别分别对应
c0 → 好 2
c1 → 中 3
c2 → 差 5
全面的分析
https://www.leiphone.com/news/201706/YXVb0apveG0yYDeT.html
https://www.leiphone.com/news/201706/YXVb0apveG0yYDeT.html
先准备一下英文文本数据。
text = "I am happy today. I feel sad today."
这里我们输入了两句话,把它存入了text这个变量里面。学了十几年英语的你,应该立即分辨出这两句话的情感属性。第一句是“我今天很高兴”,正面;第二句是“我今天很沮丧”,负面。
下面我们看看情感分析工具TextBlob能否正确识别这两句话的情感属性。
首先我们呼唤TextBlob出来。
from textblob import TextBlob
blob = TextBlob(text)
blob
按Shift+Enter执行,结果好像只是把这两句话原封不动打印了出来而已嘛。
别着急,TextBlob已经帮我们把一段文本分成了不同的句子。我们不妨看看它的划分对不对。
blob.sentences
执行后输出结果如下:
划分无误。可是你能断句有啥了不起?!我要情感分析结果!
你怎么这么着急啊?一步步来嘛。好,我们输出第一句的情感分析结果:
blob.sentences[0].sentiment
执行后,你会看到有意思的结果出现了:
情感极性0.8,主观性1.0。说明一下,情感极性的变化范围是[-1, 1],-1代表完全负面,1代表完全正面。
既然我说自己“高兴”,那情感分析结果是正面的就对了啊。
趁热打铁,我们看第二句。
blob.sentences[1].sentiment
执行后结果如下:
“沮丧”对应的情感极性是负的0.5,没毛病!
更有趣的是,我们还可以让TextBlob综合分析出整段文本的情感
展望未来。
https://www.leiphone.com/news/201602/btecnPS3zqnYS6R8.html
https://blog.csdn.net/lsldd/article/details/41542107
用电影评论,效果很好。
效果比KNN效果好。
https://blog.csdn.net/stevesea/article/details/82877686
垃圾邮件分类
https://blog.csdn.net/cymy001/article/details/79052366
多分类 新闻多分类。