5.4 数据连续属性离散化.cut()、qcut()、pd.value_counts()

连续属性变换成分类属性,即连续属性离散化

在数值的取值范围内设定若干个离散划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表每个子区间中的数据值

等宽法 / 等频法


1--# 等宽法 → 将数据均匀划分成n等份,每份的间距相等

# pd.cut(ages,bins)

# cut_1.codes:获得分组的codes码

1--# 等宽法

3--# 等频法 → 以相同数量的记录放进每个区间

# qcut方法

qcut(data,n)


你可能感兴趣的:(5.4 数据连续属性离散化.cut()、qcut()、pd.value_counts())