coursera NLP学习笔记之week3 文本分类和朴素贝叶斯

第一节:文本分类的任务

1,为目标文本分配类别,主题,或者流派

2,垃圾邮件识别

3,作者身份识别

4,年龄,性别的识别

5,语言的识别

6,情感分析

文本分类的定义:输入:1,文档d,2,类的一个混合的集合 C = {c1,c2,c3....cj};输出:一个预测类c,这个类属于集合C .

分类的方法:1、手写规则,规则是由单词和其他特征组合而成,精度很高,但是成本昂贵。2,、有指导的机器学习,输入文档d和类的一个混合集合,还有一个文档训练集合,用手工的方式标注文档(d1,c1)...(dm,cm);输出一个学习过的分类器gama:可以将d分类到某一类c中去,即d->c。这样的分类器有:朴素贝叶斯分类器,线性回归分类器,支持向量机分类器,K-紧邻分类器,Naive Bayes,Logistic regression,Support_vector machine,K-Nearest Neighbors。

第二节:朴素贝叶斯

朴素贝叶斯,基于贝叶斯公式和词袋原理,词袋原理忽略了单词的位置等其他特征,他表示的就是单词在文本出现的次数。

我们最后计算的目的就是计算文档d在类c中的概率。文档d 可以用那些特征词来代替。


coursera NLP学习笔记之week3 文本分类和朴素贝叶斯_第1张图片

coursera NLP学习笔记之week3 文本分类和朴素贝叶斯_第2张图片


未完待续。。。。


你可能感兴趣的:(NLP)