慢热型网友.

【高性能计算】无监督学习之层次聚类实验

【高性能计算】基于K均值的划分聚类实验

实验目的
实验内容
实验步骤
1、层次聚类算法
- 1.1 层次聚类算法的基本思想
- 1.2 层次聚类的聚类过程
2、使用Python语言编写层次聚类的源程序代码并分析其分类原理
- 2.1 层次聚类 Python代码
- - 2.1.1 计算欧式距离函数euler_distance
  - 2.1.2 层次聚类的类
  - 2.1.3 使用 sklearn自带的鸢尾花的数据集进行测试
  - 2.1.4 绘制层次聚类树
- 层次聚类的优缺点
- 2.2 DBSCAN算法Python代码
- - 2.2.1 搜索邻域内点函数find_neighbor
  - 2.2.2 聚类算法 DBSCAN
  - 2.2.3 DBSCAN对生成的样本数据进行聚类
  - 2.2.4 使用sklearn中的DBSCAN类对生成的样本数据进行聚类
- DBSCAN算法的优缺点
实验小结
源代码

实验目的

叙述层次聚类算法的基本思想；
描述层次聚类的整个聚类过程；

实验内容

利用sklearn中的层次聚类模块对样本数据进行聚类；
对比不同聚类算法的分类性能；
对层次聚类模型进行性能评估。

实验步骤

1、层次聚类算法

1.1 层次聚类算法的基本思想

层次聚类（Hierarchical Clustering）是一种基于样本之间的相似度或距离度量进行自下而上聚合的聚类方法。其基本思想是将每个数据点视为一个单独的簇，然后通过计算不同簇之间的相似度或距离，逐步合并相似度高的簇，直到达到指定的聚类簇数或者某个合并条件不再满足为止。

1.2 层次聚类的聚类过程

层次聚类的聚类过程主要包括以下几个步骤：

计算样本之间的距离。这里涉及到距离度量的选择，可以使用欧式距离、曼哈顿距离等。
将每个样本看作一个簇。初始化时，每个簇内都只包含一个样本点。
寻找距离最近的两个簇，并将其合并成一个新的簇。这里有两种合并方式，分别是单链接和全链接。单链接是将两个簇中距离最近的样本点之间的距离作为两个簇之间的距离，而全链接则是将两个簇中距离最远的样本点之间的距离作为两个簇之间的距离。
更新距离矩阵。在新得到的簇中，计算所有样本与其他样本的距离，并将其更新到距离矩阵中。
重复步骤3、4，直到满足终止条件。可以通过设定聚类的簇数或者距离阈值来控制聚类的终止条件。其中距离阈值是指在聚类过程中，两个簇之间的距离超过该阈值时停止合并。
最终得到聚类结果。将所有样本根据聚类结果进行标记，并输出聚类簇数以及各簇内的样本数量和均值等信息。

如讲义中展示的，假设有五条数据，对这5条数据通过上述步骤构造的树。图1展示了通过上述步骤构造的树。

需要注意的是，层次聚类的效率通常较低，在处理大规模数据集时可能会遇到内存不足等问题。此外，由于层次聚类是一种贪心算法，所以其最终结果可能受到初始状态和合并顺序的影响。因此，在使用层次聚类时，需要选择合适的距离度量和合并方式，并尽量对原始样本进行预处理以提高聚类的准确度。

2、使用Python语言编写层次聚类的源程序代码并分析其分类原理

2.1 层次聚类 Python代码

2.1.1 计算欧式距离函数euler_distance

用于计算两个样本点之间的距离：
（1）point1和point2都表示样本点，分别为两个向量，可以是任意维度的。
（2）首先计算两个向量中所有对应位置上元素差的平方的和，即，其中nn为向量的维度。
（3）对该和进行开方运算，得到样本之间的欧氏距离dd。图2为欧式距离函数的具体实现：

2.1.2 层次聚类的类

该类中的fit()方法即为训练模型并聚类的过程，主要流程如下：
（1）首先将每个样本点看做一个独立的簇，将其封装成ClusterNode对象，并将这些节点放在列表中。
（2）不断循环直到达到所要指定的类别数目或者只剩下一个节点（即聚为一类）：
计算任意两个节点之间的距离，并找出距离最近的两个节点。
合并这两个节点，生成一个新的节点，并将其加入到节点列表中。
删除已经被合并的两个节点，并将新的节点加入到列表中。
（3）给每个节点以及节点包含的数据打上标签，即将每个节点对应的标签赋给其中的数据。
图3展示了fit()方法中的核心部分。

2.1.3 使用 sklearn自带的鸢尾花的数据集进行测试

使用sklearn库中的load_iris函数生成一个鸢尾花数据集，并使用自己实现的层次聚类算法和sklearn库中的基于KMeans算法的聚类方法对该数据集进行聚类，最终将聚类结果可视化展示出来。图4展示了两个聚类结果的可视化。

通过对比两种聚类方法的结果，可以看出它们对于数据集的划分存在差异，因为聚类算法的性能和效果受到很多因素的影响，选择适当的聚类算法和参数对于得到理想的聚类结果很关键。

2.1.4 绘制层次聚类树

通过使用sklearn库中的AgglomerativeClustering函数和MinMaxScaler函数对鸢尾花数据集进行聚类和数据归一化处理，并使用scipy库中的linkage和dendrogram函数绘制层次聚类树。图5展示了绘制出的层次聚类树。

层次聚类的优缺点

优点：

1、距离和规则的相似度容易定义，限制少
2、不需要预先制定聚类数
3、可以发现类的层次关系
4、可以聚类成其它形状

缺点：

1、计算复杂度太高，其复杂度为 O ( n^3m ) ,其中m是样本的维数，n是样本个数。
2、奇异值也能产生很大影响
3、算法很可能聚类成链状

2.2 DBSCAN算法Python代码

2.2.1 搜索邻域内点函数find_neighbor

具体实现过程如下：

使用欧式距离计算数据集中每个点与核心点的距离，并求和得到距离总和temp。
使用np.argwhere函数找出距离总和小于等于邻域半径eps的点的索引。
将索引展开为一维数组，并转换为列表形式，得到该核心点的邻域N。

函数的输出是核心点j的邻域N，即距离该核心点距离小于等于邻域半径eps的所有点的索引列表。图6为搜索邻域内点函数的具体实现：

2.2.2 聚类算法 DBSCAN

聚类算法 DBSCAN的具体实现过程如下：

初始化，将所有点标记为未处理状态，并保存它们的邻域和核心点。
随机选取一个核心点 j，以该点作为中心建立一个新簇 Ck。
将核心点从未处理点集合中删除，并将它的密度可达点加入待处理列表 Q。
循环处理待处理列表 Q 中的所有点，找出它们的密度可达点。
将所有密度可达点加入簇 Ck 中，并将它们从未处理点集合 gama 中删除。
重复步骤 2-5，直到所有核心点都被访问完毕。
返回聚类结果 cluster。图7为聚类算法DBSCAN的核心部分

其中，eps 和 MinPts 是 DBSCAN 算法的两个关键参数，分别代表邻域半径和最密度，用于判断一个点是否属于核心点或边界点。如果一个点的邻域内包含至少 MinPts 个点，则它被认为是一个核心点；如果一个点不是核心点，但它的邻居中至少有一个核心点，则它被认为是一个边界点。如果一个点既不是核心点也不是边界点，则它被认为是噪声点。

2.2.3 DBSCAN对生成的样本数据进行聚类

使用 DBSCAN 算法对生成的样本数据进行聚类，并将结果可视化。其中，make_circles 和 make_blobs 是 sklearn.datasets 中的两个函数，用于生成不同形状的样本数据。X1 和 y1 代表圆形数据集，X2 和 y2 代表高斯分布数据集，两者合并在一起构成了总的数据集 X。
图8为使用 DBSCAN 算法聚类可视化后的图片。

2.2.4 使用sklearn中的DBSCAN类对生成的样本数据进行聚类

这段代码与2.2.3中的代码类似，也是使用 DBSCAN 算法对数据集 X 进行聚类，并将结果可视化。不同的是，这里直接调用 sklearn.cluster 中的 DBSCAN 类来实现聚类。在实例化 DBSCAN 类时，通过设置 eps 和 min_samples 定义了核心点的邻域半径和最小密度阈值。同时，metric 参数指定了距离度量方法，algorithm 参数指定了最近邻搜索算法。图9为使用sklearn中的DBSCAN类聚类可视化后的图片。

DBSCAN算法的优缺点