生成各向同性的高斯数据以进行聚类
sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)
1.n_samples:可以是int,也可以是数组, 可选参数 (default=100)
如果为int,则表示所有簇的样本总数,这个总数在簇之间平均分配。
如果是数组,则数组序列中的每个元素表示每个簇的样本数。
2.n_features:int类型,可选 (default=2)
每个样本的特征数量
3.centers:可以是int, 也可以是大小为n_centers的的数组,数组中的每个元素都为n_features维度, 可选(default=None)
如果是int,表示生成的中心数量。
如果是[n_centers, n_features]数组,表示使用固定的每个中心位置。
如果n_samples是一个int且centers为None,则将生成3个中心。
如果n_samples是数组,则centers必须为None或长度等于n_samples数组长度的数组。
4.cluster_std:可以是float类型,也可以是float序列形式, 可选 (default=1.0)
聚簇的标准差。
如果是float类型,则设置所有聚簇的标准差为这个值;如果是float序列,则按照序列设置每一个聚簇的标准差
5.center_box:一对float值 (min, max), 可选 (default=(-10.0, 10.0))
随机生成中心时每个聚类中心的边界框大小,只能在中心的边界框内生成数据
6.shuffle:boolean类型,可选 (default=True)
打乱返回的样本顺序,返回的第一个样本不一定是第一个簇中的。
7.random_state:可以是int类型, 可以是RandomState实例,也可以是 None (default)
确定用于创建数据集的随机数生成。 int类型表示随机数生成器的种子。
1.Xarray of shape [n_samples, n_features]
生成的样本
2.yarray of shape [n_samples]
每个样本的聚簇类别整数标签
1.固定中心点demo
centers = [[0, 1], [-1, 2], [1, 2], [-2.5, 2.5], [2.5,2.5], [-4,1], [4,1], [-3,-1], [3,-1], [-2,-3], [2,-3], [0,-4]]#设置一些中心点
X, y = make_blobs(n_samples=300, centers=centers, cluster_std=0.3)#产生以这些中心点为中心,一定标准差的n个samples
2.随机中心点demo
X, y = make_blobs(n_samples=300, centers=10, cluster_std=0.3)#生成10个中心点为,标准差为0.3的的300个samples
https://scikit-learn.org/dev/modules/generated/sklearn.datasets.make_blobs.html