八 聚类分析:基本概念和算法1

8.1 概述

8.1.1 什么是聚类分析

聚类分析是根据在数据中发现的描述对象及其关系,将数据对象分组。
聚类分析目标是组内的对象互相之间是相似的,而不同组中的对象是不同的。
聚类与分类:聚类分析可以理解为非监督分类

8.1.2 不同的聚类类型

层次的与划分的:簇的集合是嵌套还是非嵌套
互斥的、重叠的与模糊的:模糊聚类中每一个对象相对于每个簇都有一个隶属权值
完全的与部分的:是否将每一个对象都必须归为某一簇

8.1.3 不同的簇类型

明显分离的
基于原型的:球形(k均值)
基于图的
基于密度:簇就是对象的稠密区,被低密度的区域环绕(凝聚的层次聚类,DBSCAN)
共同性质的

8.2 k均值

K均值用质心定义原型,质心是一组值的均值
K中心点使用中心点定义原型,中心点是一组点中最具代表性的点

8.2.1 基本K均值算法

八 聚类分析:基本概念和算法1_第1张图片
1.指派点到最近的质心
邻近度来量化所考虑数据的最近概念
2.质心和目标函数
聚类目标通常用一个目标函数表示,该函数依赖于点之间,或点到簇的质心的邻近性
欧几里得空间中的数据:
误差平方和SSE作为度量聚类质量的目标函数
在这里插入图片描述
文档数据
在这里插入图片描述
一般情况:
八 聚类分析:基本概念和算法1_第2张图片
3.选择初始质心
随机选取初始质心——>>选取样本

8.2.2 K均值:附加的问题

1.处理空簇:替补质心
2.离群点
3.用后处理降低SSE:簇的分裂和合并
4.增量地更新质心

8.2.3 二分K均值

八 聚类分析:基本概念和算法1_第3张图片

8.2.4 K均值和不同的簇类型

K均值适应于球形簇,无法处理非球形簇、不同尺寸和不同密度的簇。
自然簇;自然簇的子簇

8.2.5 优点与缺点

8.2.6 K均值作为优化问题

最小化SSE的目标函数:梯度下降法
1.作为最小化SSE的算法推导K均值
八 聚类分析:基本概念和算法1_第4张图片
在这里插入图片描述
求偏导,令偏导=0:
八 聚类分析:基本概念和算法1_第5张图片
正如前面指出,簇的最小化SSE的最佳质心是簇中各点的均值
2.为SAE(绝对误差和)推导K均值
在这里插入图片描述
求偏导,令偏导=0:
八 聚类分析:基本概念和算法1_第6张图片
在这里插入图片描述

你可能感兴趣的:(数据挖掘导论)