20191203——机器学习复习 朴素贝叶斯

朴素贝叶斯的结果是得出来概率值
根据概率值进行分类

20191203——机器学习复习 朴素贝叶斯_第1张图片

p喜欢 = 4/7
p程序员,匀称 = 1/7
p程序员|女神喜欢 = 1/2
p程序员,超重|女神喜欢= 1/4

联合概率,条件概率与相互独立

20191203——机器学习复习 朴素贝叶斯_第2张图片

相互独立, A的事件发生不影响B事件

贝叶斯公式

20191203——机器学习复习 朴素贝叶斯_第3张图片

p女神喜欢|产品经理,超重 = p产品经理,超重|女神喜欢 * p女神喜欢 /p产品经理,超重

20191203——机器学习复习 朴素贝叶斯_第4张图片

朴素贝叶斯 的 朴素 就是假定事件都相互独立

20191203——机器学习复习 朴素贝叶斯_第5张图片

文本分类

20191203——机器学习复习 朴素贝叶斯_第6张图片

当我们样本量比较少的时候,会计算出来概率为0的值,这个时候我们要引入拉普拉斯平滑系数
在这里插入图片描述
α一般为1
m为特征词

api

sklearn.navie_bayes.MultionmiaINB(α)
朴素贝叶斯分类
α为拉普拉斯平滑系数

案例 20类新闻分类
获取数据
划分数据集
特征工程 文本特征抽取
朴素贝叶斯估计器
模型评估

from sklearn.datasets import  fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
news = fetch_20newsgroups(subset="all")
x_train,x_test,y_train,y_test = train_test_split(news.data,news.target)
transfer = TfidfVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

estimator = MultinomialNB()
estimator.fit(x_train,y_train)
score = estimator.score(x_test,y_test)
print(score)

20191203——机器学习复习 朴素贝叶斯_第7张图片

朴素贝叶斯发源于古典数学理论,有稳定的分类效率
对缺失数据不敏感,算法比较简单,常用于文本分类
分类准确度高,速度快

你可能感兴趣的:(机器学习复习)