1.数据分类分为两个步骤 --建模和使用
建立模型,描述预定的数据类集或概念集
使用模型进行分类
距离越近,相似性越大,距离越远,相似性越小
学习朴素贝叶斯算法之前,我们先搞定下面这些基本概念和数学公式
条件概率公式:
P(Y∣X)= P(X∣Y)P(Y) / P(X)
这里的每个概率都有其特定的名称:
P ( Y ) :先验概率。先验概率(prior probability)是指事情还没有发生,求这件事情发生的可能性的大小,是先验概率。它往往作为"由因求果"问题中的"因"出现。
P ( Y ∣ X ):后验概率。后验概率是指事情已经发生,求这件事情发生的原因是由某个因素引起的可能性的大小。后验概率的计算要以先验概率为基础
P ( X ∣ Y ) :条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。
解 设类别为C,则P(C/X)=P(X/C)P©………………2分
记类别“+”为C1,类别“-”为C2,则根据训练数据集,
得出P(C1)=3/8, P(C2)=5/8………………4分
P(C1/X)=P(X/C1)*P(C1)=P(高度=“矮”/C1)*P(头发=“红”/C1)*P(眼睛=“兰”/C1)P(C1)=(1/3)(1/3)1(3/8)=1/24………………4分
P(C2/X)=P(X/C2)*P(C2)=P(高度=“矮”/C2)*P(头发=“红”/C2)P(眼睛=“兰”/C2)P(C2)=(2/5)(1/5)(2/5)(5/8)=1/50……………………4分
1/24>1/50,所以样本X属于类别“+”……………………1分
k-平均算法
基本思想:算法首先先随机选择k个对象,每个对象初始地代表了一个簇的平均值或中心,对剩余的每个对象根据其与各个簇的中心距离,将它赋给最近的簇,然后重新计算每个簇的平均值
案例:给出下表所示的事务数据库,用k-means算法进行聚类(写出具体过程,用欧氏距离公式),其中K=3,初始簇中心为1,4,7。(20分)