python 生成随机聚类数据

def get_clusters(n,m):
    sigma = 1
    mean = [3,6,9,12]
    num = [2*n,n,int(1.2*n),int(0.8*n)]
    data = []
    label = []
    tmpdata = []
    for i in range(num[0]):
        tmpdata = []
        for j in range(m):
            tmpdata.append(random.gauss(mean[0], sigma))
        # tmpdata.append(0)
        label.append(0)
        data.append(tmpdata)
    for i in range(num[1]):
        tmpdata = []
        for j in range(m):
            tmpdata.append(random.gauss(mean[1], sigma))
        # tmpdata.append(1)
        data.append(tmpdata)
        label.append(1)
    for i in range(num[2]):
        tmpdata = []
        for j in range(m):
            tmpdata.append(random.gauss(mean[2], sigma))
        # tmpdata.append(2)
        label.append(2)
        data.append(tmpdata)
    for i in range(num[3]):
        tmpdata = []
        for j in range(m):
            tmpdata.append(random.gauss(mean[3], sigma))
        # tmpdata.append(3)
        label.append(3)
        data.append(tmpdata)    
    return data,label

数据是满足高斯分布的随机数
生成一个m维属性,样本数量=2n+n+1.2n+0.8n=5n的数据集。
每一个for循环代表一个类,共生成四个类(0,1,2,3四类)。
返回生成的数据集和对应的标签。
sigma控制方差,表示一个类的松散程度;mean是一个类的平均值,控制数据取值以及类类之间的距离。

你可能感兴趣的:(Python,python,聚类,算法)