数据分析Day8: 数据分布分析

分析分析:是指根据分析的目的,将数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法。如收入分布,年龄分析。

例子,用户(签约作者)的文章篇数分析

步骤:
1、定义分组的数组,如年龄分段。要包含最小值和最大值的数据

r = pd.read_csv(path)
bins = [min(r.articles)-1,50,100,200,300,max(r.articles)+1]

2、定义分组的标签

labels=['23-50篇','50-100篇','100-200篇','200-300篇','300篇+']

3、使用pandas.cut()方法,根据分组和标签进行划分

import pandas
articles_cut=pandas.cut(r.articles, bins,labels=labels)
r['articels-cut']=articles_cut

4、统计汇总 groupby

r.groupby(by=['articels-cut'])['author'].agg({'total':numpy.size})
数据分析Day8: 数据分布分析_第1张图片
分布汇总数据
数据分析Day8: 数据分布分析_第2张图片
加入分布列后的DataFrame

问题:如果日期列进行分布分析,采用to_datetime()进行数据转换后,也无法进行分布处理。之前采用的方式是对注册日期列(regtime)采用字任串截取slice,保留年-月,再分类统计。

你可能感兴趣的:(数据分析Day8: 数据分布分析)