sklearn库之sklearn.cluster.KMeans的学习

这篇呢是接着上一篇kmeans的学习,这篇主要是介绍调用机器学习的库来使用集成的kmeans ,哈哈会调用就行,主要学习呢就是看官方文档,学习这个包装类的参数,返回值以及它方法,这里面有好多examples,大家可以尝试下。

下面是我练习时的代码:

#-*- coding:utf-8 -*-
from sklearn.cluster import KMeans
#from sklearn.cluster import k_means#这个是先写的,他们两的参数就相差一个数据集,不过还是建议用KMeans
import numpy as np
from sklearn.datasets import load_iris


def loadData(filePath):

    dataSet = []
    file = open(filePath, 'r')

    for lines in file.readlines():
        row = []
        # curLine = lines.strip().split()#2维数据
        curLine = lines.strip().split(',')
        for line in curLine:
            x = float(line)
            row.append(x)

        dataSet.append(row)
    file.close()

    return np.mat(dataSet)



if __name__ == '__main__':

    # filePath = '../data/training_4k2_far.txt'
    filePath = '../data/iris.txt'
    dataSet = loadData(filePath)

    # print dataSet
    '''直接调用sklearn中的数据'''
    # dataSet = load_iris().data
    estimator = KMeans(n_clusters=4, max_iter=300, n_init=10).fit(dataSet)#构造聚类器
    '''这个是必须写的,相当于上面构造出来,配置好,下面这句调用,当然也可以写到上面去
    fit方法对数据做training 并得到模型'''
    # estimator.fit(dataSet)#聚类

    #下面是三个属性
    '''把聚类的样本打标签'''
    labelPred = estimator.labels_
    '''显示聚类的质心'''
    centroids =estimator.cluster_centers_
    '''这个也可以看成损失,就是样本距其最近样本的平方总和'''
    inertia = estimator.inertia_

    print labelPred
    print centroids
    print inertia
    #这下面是库里包装的方法
    '''返回预测的样本属于的类的聚类中心'''
    print estimator.fit_predict(dataSet)
    print estimator.predict(dataSet)
    '''这个是返回每个样本与聚类质心的距离'''
    print estimator.fit_transform(dataSet)
    print estimator.transform(dataSet)
    '''这个我觉得和损失一样,评价聚类好坏'''
    print estimator.score(dataSet)

使用sklearn库,代码很短也就几行,使用非常方便,当然也有很多大牛对库中的源码解读,谢谢大家!


你可能感兴趣的:(Machine,Learning,Machine,Learning)