机器学习实战学习笔记8——朴素贝叶斯

1.朴素贝叶斯概述

1.1朴素贝叶斯介绍

朴素贝叶斯(Naïve Bayesian)是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假设:给定目标值之间属性相互独立。

1.2 朴素贝叶斯工作原理

假设有一个数据集,由两类组成,对于每个样本的分类,都是已知的。现在有一个新的点new_point(x,y) ,其分类未知。我们可以用p1(x,y)来表示数据点(x,y)属于类别1的概率;用p2(x,y)来表示数据点属于类别2的概率。在对新数据点归类时,可以用下面的规则来判断它所属的类别:
(1)如果p1(x,y) > p2(x,y),那么新数据点的类别为1;
(2)如果p2(x,y) > p1(x,y),那么新数据点的类别为2。

1.3 朴素贝叶斯优缺点

(1)优点:在数据较少的情况下仍然有效,可以处理多类别问题。
(2)缺点:对输入数据的准备方式较为敏感。
(3)应用范围:真假账号分类、新闻分类、广告过滤器。

2.使用朴素贝叶斯进行文档分类

你可能感兴趣的:(python学习笔记,机器学习)