【第四章】分类算法与应用(1)

4.1分类算法概述

1、机器学习算法类型

①监督学习算法:就是我们教计算机如何做事情

②无监督学习算法:在非监督学习中,我们将让计算机自己学习。分为分类回归

2、分类方法的定义

根据已知类别的训练集数据,建立分类模型,并利用该分类模型预测未知类别数据对象所属的类别

3、分类方法的应用

模式识别(Pattern Recognition):通过计算机用数学技术方法来研究模式的自动处理和判读

模式识别的目标往往是识别,即分析出待测试的样本所属的模式类别

预测:从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测

4、分类器的构建图示

【第四章】分类算法与应用(1)_第1张图片

 

【第四章】分类算法与应用(1)_第2张图片

 

4.2概率模型

1、贝叶斯要解决的问题

①正向概率:假设袋子里有N个白球,M个黑球,随机摸一个,摸出黑球的概率有多大

逆向概率:如果事先不知道袋子里黑白球的比例,随机摸出几个球,根据这些球的颜色,可以推测袋子里面的黑白球比例

2、贝叶斯公式

【第四章】分类算法与应用(1)_第3张图片

 

【第四章】分类算法与应用(1)_第4张图片

 3、朴素贝叶斯分类算法

加载数据

from sklearn import datasets

iris = datasets.load_iris()

导入模型

from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()

训练模型+预测数据

y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)

④输出

print("Number of mislabeled points out of a total %d points : %d"% (iris.data.shape[0],(iris.target != y_pred).sum()))

你可能感兴趣的:(数据挖掘与机器学习,分类,数据挖掘)