高维数据的聚类小记

在高维空间中会出现一些很奇怪的现象,其中之一是数据点和坐标系原点之间的距离增长为维数D的平方根。我们可以看下图

高维数据的聚类小记_第1张图片
不同维度下的点到中心点的距离

这就说明,欧式空间的距离计算公式不再适用。

聚类的假设和局限性

虽说维度给聚类造成了一定的阻碍,但是很多聚类方法在低纬度下表现也不算太好,通常情况下,我们可以把聚类分成以下四种类型:

基于图的聚类

基于质点的聚类

分层聚类

基于密度的聚类

分层(凝聚)聚类对数据中的噪声过于敏感。基于质心的聚类(KNN,高斯混合模型)只能处理具有球形或椭圆对称性的聚类。基于图形的聚类(Spectral,SNN-cliq,Seurat)对于高维数据可能是最稳健的,因为它使用图上的距离,例如,共享邻居的数量,与欧几里德距离相比,在高维度上更有意义。

但是,要构建图形,此方法仍使用欧几里德距离。此外,必须通过“分辨率”超参数隐式地指定簇的数量。改变超参数可以容易地导致更少或更多的聚类,这在某种程度上是任意的,因此非常不令人满意,因为没有明显的方法来定义用于自动调整超参数的目标函数。在所有聚类算法中,仅基于密度(Mean-Shift,DBSCAN,OPTICS,HDBSCAN)允许聚类而不指定聚类的数量。算法通过向高密度点移动的滑动窗口工作,即它们发现存在许多密集区域。

如何调整HDBSCAN的超参数

聚类是一种无监督的学习问题,这意味着我们不知道基本事实(聚类数),也不能使用交叉验证来优化算法的超参数。然而,有一种方法可以自动优化HDBSCAN的超参数。

HDBSCAN,即分层DBSCAN,是一种强大的基于密度的聚类算法,其是:1)对聚类的形状无关,2)不需要指定聚类的数量,3)对于具有不同密度的聚类是鲁棒的。此外,HBDSCAN非常有吸引力,因为它只有一个超参数minPts,它是群集中最小的点数。对于大型数据集,检测外围单元格相对较快,并且对于每个单元格,它报告分配给集群的概率。具有较低分配概率的细胞部分可以用作优化minPts的目标函数,而minPts又提供最佳数量的聚类。

你可能感兴趣的:(高维数据的聚类小记)