Pandas高级处理--数据离散化

高级处理–数据离散化

为什么要离散化

连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数,离散化方法经常作为数据挖掘的工具。

什么是数据的离散化

连续属性的离散化就是将连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间的属性值。

案例:

读取股票的数据

data = pd.read_csv("./data/.....csv")
p_change=data['p_change']

对数据进行分组

工具:
1,pd.qcut(data,bins)
对数据进行分组将数据分组一般会与value_counts搭配使用,统计每组的个数
2,series.value_counts():统计分组次数

#自行分组
qcut = pd.qcut(p_change, 10)
#计算分到每个组数据个数
qcut.value_counts()
自定义区间分组区间
pd.cut(data, bins)
# 自己指定分组区间
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)
3,
pandas.get_dummies(data,prefix=None)
	data:array-like.series,dataFrame
	prefix:分组名字
dummaries = pd.get_dummies(p_counts,prefix="rise")

你可能感兴趣的:(python,Pandas,数据挖掘,数据分析)