SKlearn库层次聚类凝聚

class sklearn.cluster.AgglomerativeClusteringn_clusters = 2affinity =' euclidean 'memory = Noneconnectivity = Nonecompute_full_tree ='auto'linkage ='ward'pooling_func ='deprecated'distance_threshold = None 

 

参数:

n_clusters : int或None,可选(默认= 2)

要查找的集群数。必须None如果 distance_threshold不是None

affinity : string或callable,默认值:“euclidean”

用于计算链接的度量标准。可以是“euclidean”,“l1”,“l2”,“manhattan”,“cosine”或“precomputed”。如果联系是“病房”,则只接受“欧几里德”。如果“预先计算”,则需要距离矩阵(而不是相似度矩阵)作为拟合方法的输入。

memory : 具有joblib.Memory接口的None,str或object,可选

用于缓存树计算的输出。默认情况下,不进行缓存。如果给出了字符串,则它是缓存目录的路径。

连接 : 类似数组或可调用,可选

连通矩阵。为每个样本定义遵循给定数据结构的相邻样本。这可以是连接矩阵本身或可调用的数据,将数据转换为连接矩阵,例如从kneighbors_graph派生。默认值为None,即层次聚类算法是非结构化的。

compute_full_tree : bool或'auto'(可选)

在n_clusters处尽早停止构建树。如果簇的数量与样本数量相比不小,则这对于减少计算时间是有用的。仅在指定连接矩阵时,此选项才有用。还要注意,当改变簇的数量并使用高速缓存时,计算完整树可能是有利的。必须True如果 distance_threshold不是None

link : {“ward”,“complete”,“average”,“single”},可选(默认=“病房”)

使用哪种链接标准。连接标准确定观察组之间使用的距离。该算法将合并最小化该标准的簇对。

  • ward最小化被合并的集群的方差。
  • 平均值使用两组每次观察的平均距离。
  • 完整或最大连锁使用两组中所有观测值之间的最大距离。
  • single使用两组所有观测值之间的最小距离。

pooling_func : callable,default ='deprecated'

忽略。

从版本0.20pooling_func开始不推荐使用已在0.20中弃用,将在0.22中删除。

distance_threshold : float,optional(默认=无)

链接距离阈值高于该阈值,群集将不会合并。如果没有Nonen_clusters必须是None而且compute_full_tree必须是True

版本0.21中的新功能。

你可能感兴趣的:(机器学习)