你需要掌握选择最佳聚类数目的这10个技巧!

点击上方关注,All in AI中国

聚类是最常见的无监督机器学习问题之一。通过一些相似性度量方法把一些观测值分成同一类。

共有5类聚类方法:

  • 层次法
  • 划分法(k-means,PAM,CLARA)
  • 基于密度的方法
  • 基于模型的方法
  • 模糊聚类

起初,我写这篇文章主要是由于我阅读了关于clustree包,dendextend文档以及由Alboekadel Kassambara撰写的factoextra编写的关于聚类分析的实用指南。

数据集

我将使用集群包中一个鲜为人知的数据集:all.mammals.milk.1956,这是我之前没有研究过的一个数据集。

数据集传送门:https://www.rdocumentation.org/packages/cluster.datasets/versions/1.0-1/topics/all.mammals.milk.1956

这个小数据集包含了25种哺乳动物及其牛奶成分(水,蛋白质,脂肪,乳糖,灰分百分比)的清单。

首先让我们加载所需的包。

现在加载数据。

让我们研究并可视化这些数据。

所有变量用数字来表示,那么,统计分布呢?

不同属性之间的关系是什么?使用corrplot()创建相关矩阵。

当您拥有以不同比例测量的变量时࿰

你可能感兴趣的:(人工智能,python,数据结构与算法)