sklearn.datasets.make_classification详解

sklearn.datasets.make_classification

sklearn.datasets.make_classification(n_samples=100, n_features=20, *, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)

参数

参数 格式 描述
n_samples int, default=100 待生成的样本量
n_features int, default=20 特征总数,由n_informative个有效特征,n_redundant个无效特征,n_repeated个重复特征,以及剩下的n_features-n_informative-n_redundant-n_repeated个随机无用特征
n_informative int, default=2 有效信息特征的数量,每个类别的样本都由高斯族组成,处在维度为n_informative的子空间中
n_redundant int, default=2 冗余特征的数量,这些特征是有效信息特征的随机线性组合
n_repeated int, default=0 从信息特征和冗余特征中随机抽取的重复特征的数量。
n_classes int, default=2 类别数
n_clusters_per_class int, default=2 每个类的样本族群数量
weights array-like of shape (n_classes,) or (n_classes - 1,), default=None 分给每个类的样本比例
flip_y float, default=0.01 随机分配类别的样本的百分比。较大的值在标签中引入噪声,使分类任务更加困难。注意,默认设置flip_y > 0在某些情况下可能导致y中小于n_classes。
class_sep float, default=1.0 用来乘以超立方体的大小。较大的值分散了集群/类,使分类任务更容易
hypercube bool, default=True 如果为True,则将集群放在超立方体的顶点上。如果为False,则将集群放在随机多边形的顶点上。
shift float, ndarray of shape (n_features,) or None, default=0.0 按指定值移动特性。如果为None,则通过[-class_sep, class_sep]中的随机值来移动特征。
scale float, ndarray of shape (n_features,) or None, default=1.0 将特征乘以指定的值。如果为None,则按[1,100]中的随机值进行缩放。注意,缩放发生在移动之后。
shuffle bool, default=True 打乱样本和特征。
random_state int, RandomState instance or None, default=None 确定用于创建数据集的随机数生成

返回值

名称 性质 描述
X ndarray of shape (n_samples, n_features) 产生的样本
y ndarray of shape (n_samples,) 每个样本的整数类别标签

你可能感兴趣的:(sklearn学习笔记,sklearn,python,机器学习)