分类算法(1)

一、分类学习概述

1、分类方法的定义:

分类分析的是根据已知类别的训练集数据,建立分类模型,并利用该分类模型预测未知类别数据对象所属的类别。

2、分类方法的应用:

模式识别(Pattern Recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。模式识别的目标往往是识别,即分析出待测试的样本所属的模式类别

预测,从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测 

3、现实应用案例用:

行为分析;物品识别、图像检测 电子邮件的分类(垃圾邮件和非垃圾邮件等); 新闻稿件的分类、手写数字识别、个性化营销中的客户群分类、图像/视频的场景分类等 

二、分类器:

分类的实现方法是创建一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。 创建分类的过程与机器学习的一般过程一致 

1、分类器的构建:

回顾构建一个机器学习框架的基本步骤:

(1)数据的加载。

(2)选择模型。

(3)模型的训练。

(4)模型的预测。

(5)模型的评测。

(6)模型的保存。

分类器的构建图示

2、分类器的构建标准:

(1)使用下列标准比较分类和预测方法

预测的准确率:模型正确预测新数据的类编号的能力

速度:产生和使用模型的计算花销

健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力

可伸缩性:对大量数据,有效的构建模型的能力 可

解释性:学习模型提供的理解和洞察的层次biao 

三、贝叶斯

1、贝叶斯简介:

贝叶斯(约1701-1761),英国数学家 贝叶斯方法源于他生前解决逆概的一篇文章

2、贝叶斯要解决的问题:

使正向概率:假设袋子里有N个白球,M个黑球,随机摸一个,摸出黑球的概率有多大

逆向概率:如果事先不知道袋子里黑白球的比例,随机摸出几个球,根据这些球的颜色,可以推测袋子里面的黑白球比例 

贝叶斯公式:

3、朴素贝叶斯分类器:

我们介绍的第一个分类学习方法是朴素贝叶斯( Naive Bayes)模型, 它是一种基于概率的学习方法 (“朴素”指的是条件的独立性)

4、朴素贝叶斯分类算法

1)设x={a1,a2,a3,......am}为一个待分类项,而每个a为x的一个特征属性。

2)有类别集合C={y1,y2,......yn}。

3)计算P(y1|x),P(y2|x),......,P(yn|x),。

4)如果,P(yk|x)=max{P(y1|x),P(y2|x),......,P(yn|x)},则x属于yk。

5、朴素贝叶斯案例

#加载数据 
from sklearn import datasets iris = datasets.load_iris() 
#导入模型 
from sklearn.naive_bayes import GaussianNB  
gnb = GaussianNB() 
#加载数据
from sklearn import datasets
iris = datasets.load_iris()
#导入模型
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
#训练模型+预测数据
y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)
#输出
print("Number of mislabeled points out of a total %d points : %d"% (iris.data.shape[0],(iris.target != y_pred).sum()))

你可能感兴趣的:(分类,数据挖掘,人工智能)