聚类算法——KMeans算法(机器学习)

KMeans算法

在这里插入图片描述
一、 输入参数

  1. n_clusters:数据集将被划分成 n_clusters个‘簇’即k值以及(int, optional, default: 8)。一般需要选取多个k值进行运算,并用评估标准判断所选k值的好坏,以获得较好的聚类效果。
  2. max_iter : 最大迭代次数( int, default: 300)一般如果是凸数据集的话可以不管这个值,如果数据集不是凸的,可能很难收敛,此时可以指定最大的迭代次数让算法可以及时退出循环。(较难理解待解决中)
  3. init: 簇中心初始值的选择方式 {‘k-means++’, ‘random’ or an ndarray} defaults to ‘k-means++’:random:从数据集中随机选取k个样本;an ndarray:人为选定
  4. random_state:随机状态。integer or numpy 默认是None.任意填写一个整数值或numpy,每次产生的随机数都相同(If an integer is given, it fixes the seed,也就是匹配随机种子:保留了当前获取随机数的原始信息,当你想产生和该次获取随机数的效果一样的时候,你可以申明一下随机种子,也就是拿可以长出相同类型植物的种子,进行培养以得到你希望得到的植物,这是一种形象的命名,当时要注意取值,取值相当于告诉你这颗种子最终会长出的植物类型),这样你每次运行程序的时候,获得的数据都是一样的。

二、 属性

  1. cluster_centers_ : 每个簇中心的坐标 array, [n_clusters, n_features]
  2. labels_ :每个样本的标签
  3. inertia_ : float Sum of distances of samples to their closest cluster center.

三、 方法

  1. fit(X[, y]) Compute k-means clustering. 执行k均值聚类
  2. fit_predict(X[, y]) Compute cluster centers and predict cluster index for each sample.
    计算簇的中心并且预测每个样本对应的簇类别,相当于先调用fit(X)再调用predict(X),提倡这种方法,返回labels标签(0,1,2……)

四、 数据类型

  1. fit_predict(X[, y]) ,fit(X[, y])
    X[, y]数据类型为[[data1,data2……],[ data1,data2……],[]……]

例如:
Data = [[1,4,5,1],[1,5,4,3],[15,23,18,4],[15,48,5,3],[100,5,48]]
Km = KMeans(n_clusters=3) #设置分类成几个簇
Lables = Km.fit_predict(data)
在创建列表按照标签依次添加

你可能感兴趣的:(python,机器学习,kmeans算法)