sklearn.datasets.make_blobs的使用

sklearn中的make_blobs模块用于为聚类生成一些带标签的数据

sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)

参数解释:

  • n_samples:表示的是样本点的个数,默认是100。如果其为类数组型值,则序列中的每个元素表示每个集群的样本数。
  • n_features:表示数据的维度,默认值是2。
  • centers:产生数据的中心点,默认值为3。centers等于几,所产生数据的类别就有几类。
  • cluster_std:数据集的标准差,浮点数或者浮点数序列,默认值1.0。
  • center_box:中心确定之后的数据边界,默认值(-10.0, 10.0)。
  • shuffle:洗乱,默认值是True。
  • random_state:官网解释是随机生成器的种子。

实例:

# 导入模块
from sklearn.datasets.samples_generator import make_blobs
# 生成了一个具有50个样本点,分为两类的带有标签y的二维数据集。
X, y = make_blobs(n_samples=50, centers=2,
                  random_state=0, cluster_std=0.60)  
# 数据可视化
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') 

sklearn.datasets.make_blobs的使用_第1张图片

你可能感兴趣的:(sklearn,sklearn)