数据挖掘-分类与聚类相关的算法

  • 分类与聚类 定义及区别
  • 分类方法
  • 聚类方法

分类与聚类 定义及区别

  • 分类:是一种有指导(有监督)的学习(Supervised Learning),即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。即根据样本数据形成的类知识对源数据进行分类,进而预测未来数据的归类…2分
  • 聚类:属于无指导学习,聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。2分
  • 综上所述,聚类是通过对数据的分析比较形成新的类标识,分类是在特定的类标识下寻求新元素属于哪个类。………………………………1分

分类方法

分类的基本概念与步骤

1.数据分类分为两个步骤 --建模和使用
建立模型,描述预定的数据类集或概念集
使用模型进行分类

基于距离的分类算法

距离越近,相似性越大,距离越远,相似性越小

  1. 基本思想:通过计算每个元祖得到各类的中心距离就可以找出相应的类,从而实现简单的分类技术。
  2. K-最临近分类算法
    使用下表给出的样本数据,采用KNN算法对元组<范大可,男,1.8>进行分类,只用高度参与距离计算,K=3。
    2.1 基本思想:计算每个训练数据到待分类元组的距离,取和待分类元祖距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪类数据挖掘-分类与聚类相关的算法_第1张图片数据挖掘-分类与聚类相关的算法_第2张图片

决策树分类方法

贝叶斯算法

数据挖掘-分类与聚类相关的算法_第3张图片

  1. 朴素贝叶斯法概述
    朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入输出的联合概率分布(朴素贝叶斯法这种通过学习得到模型的机制,显然属于生成模型);然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y。

学习朴素贝叶斯算法之前,我们先搞定下面这些基本概念和数学公式
条件概率公式:
数据挖掘-分类与聚类相关的算法_第4张图片
P(Y∣X)= P(X∣Y)P(Y) / P(X)

这里的每个概率都有其特定的名称:
P ( Y ) :先验概率。先验概率(prior probability)是指事情还没有发生,求这件事情发生的可能性的大小,是先验概率。它往往作为"由因求果"问题中的"因"出现。

P ( Y ∣ X ):后验概率。后验概率是指事情已经发生,求这件事情发生的原因是由某个因素引起的可能性的大小。后验概率的计算要以先验概率为基础

P ( X ∣ Y ) :条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。

  1. 案例:给定如下所示的训练数据,请使用朴素贝叶斯算法对待分类样本X=(高度=“矮”,头发=“红”,眼睛=“兰”)进行分类,判断其属于类别“+”还是“-”。(要求先写出详细公式,然后再将数值带入计算)(15分)

数据挖掘-分类与聚类相关的算法_第5张图片
解 设类别为C,则P(C/X)=P(X/C)P©………………2分
记类别“+”为C1,类别“-”为C2,则根据训练数据集,
得出P(C1)=3/8, P(C2)=5/8………………4分
P(C1/X)=P(X/C1)*P(C1)=P(高度=“矮”/C1)*P(头发=“红”/C1)*P(眼睛=“兰”/C1)P(C1)=(1/3)(1/3)1(3/8)=1/24………………4分
P(C2/X)=P(X/C2)*P(C2)=P(高度=“矮”/C2)*P(头发=“红”/C2)P(眼睛=“兰”/C2)P(C2)=(2/5)(1/5)(2/5)(5/8)=1/50……………………4分
1/24>1/50,所以样本X属于类别“+”……………………1分

聚类方法

划分聚类的方法

k-平均算法

  1. 基本思想:算法首先先随机选择k个对象,每个对象初始地代表了一个簇的平均值或中心,对剩余的每个对象根据其与各个簇的中心距离,将它赋给最近的簇,然后重新计算每个簇的平均值

  2. 案例:给出下表所示的事务数据库,用k-means算法进行聚类(写出具体过程,用欧氏距离公式),其中K=3,初始簇中心为1,4,7。(20分)

数据挖掘-分类与聚类相关的算法_第6张图片

数据挖掘-分类与聚类相关的算法_第7张图片

你可能感兴趣的:(分类,聚类,数据挖掘)