第九章 聚类 Clustering

第九章 聚类

(Unsupervised Learning)无监督学习:
    训练样本的标记信息是未知的,通过对无标记数据的训练来找出数据内部所存在的规律以及性质.为进一步的数据分析打下基础

1.知识点

聚类过程中会自动的形成簇结构,但是算法对簇(cluster)没有概念,这是在运算过程中自己出现的聚类现象,这个簇的名字需要自己来进行定义

聚类可作为一个单独的过程来完成,用于去寻找数据的内部性质及分布结构,当然也可以作为分类等其他学习任务的前驱过程.

当对数据的类不是很明确的时候,可以将数据先进行聚类,根据聚类结果将每个簇定义为一个类,再基于这些类进行训练分类模型

性能度量(performance measure)

性能度量也叫聚类的”有效性指标(validity index)”
物以类聚:
    簇内相似度高,簇间相似度低.

%E9%80%89%E5%8C%BA_001.png

%E9%80%89%E5%8C%BA_002.png

距离计算(distance measure)

%E9%80%89%E5%8C%BA_003.png

闵科夫斯基距离,这是一种最常用的距离
可以变形成欧式距离和曼哈顿距离(典型的街区距离公式)  这都是经典的距离公式

你可能感兴趣的:(机器学习,聚类)