python分箱统计个数_使用python 计算百分位数实现数据分箱代码

对于百分位数,相信大家都比较熟悉,以下解释源引自百度百科。

百分位数,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。

因为百分位数是采用等分的方式划分数据,因此也可用此方法进行等频分箱。

import pandas as pd

import numpy as np

import random

t=pd.DataFrame(columns=['l','s'])

#随机生成1000个0到999整数

t['l']=[random.randint(0,999) for _range in range(1000)]

#定义s为1,便于统计

t['s']=1

#通过np.percentile找到分位点

l_bin=[]

for i in range(0,101,10):

l_bin.append(np.percentile(t['l'],i))

#分位点最后一个数加上一个极小的数,否则切分后数字999会标记为nan

l_bin[-1]+=1/1e10

print('分位点:',np.array(l_bin).round(2))

#对随机数进行切分,right=False时左闭右开

t['box']=pd.cut(t['l'],l_bin,right=False)

tj=t.groupby('box')['s'].agg('sum')

print('分箱统计')

print(tj)

#生成新的标签

label=[]

for i in range(len(l_bin)-1):

label.append(str(l_bin[i].round(4))+'+')

#原标签和自定义的新标签生成字典

list_box_td=list(set(t['box']))

list_box_td.sort()

dict_t=dict(zip(list_box_td,label))

#根据字典进行替换

t['new_box']=t['box'].replace(dict_t)

print('新分箱统计')

tj=t.groupby('new_box')['s'].agg('sum')

print(tj)

del t['s']

print(t.head())

输出结果:

分位点: [ 0. 90.9 194.6 290. 386. 473.5 589. 688. 783.2 884.2

997. ]

分箱统计

box

[0.0, 90.9) 100

[90.9, 194.6) 100

[194.6, 290.0) 99

[290.0, 386.0) 99

[386.0, 473.5) 102

[473.5, 589.0) 99

[589.0, 688.0) 100

[688.0, 783.2) 101

[783.2, 884.2) 100

[884.2, 997.0) 100

Name: s, dtype: int64

新分箱统计

new_box

0.0+ 100

194.6+ 99

290.0+ 99

386.0+ 102

473.5+ 99

589.0+ 100

688.0+ 101

783.2+ 100

884.2+ 100

90.9+ 100

Name: s, dtype: int64

l box new_box

0 253 [194.6, 290.0) 194.6+

1 468 [386.0, 473.5) 386.0+

2 130 [90.9, 194.6) 90.9+

3 476 [473.5, 589.0) 473.5+

4 656 [589.0, 688.0) 589.0+

可以看出每个分箱内,约有100个数字。根据这个方法,可以自定义一些标签。

补充拓展:python 计算动态时点的百分位数

【说明】

1、动态时点:每次计算的数据框为截止于当前行的数据,即累计行(多次计算);

2、静态时点(当前时间):计算的数据框为所有行(一次计算);

【代码】

test = pd.DataFrame(np.random.randint(1, 10, size=10), columns=['value']) # 生成[1,10]的随机整数

test['pct_sf'] = test.index.map(lambda x: test.ix[:x].value.rank(pct=True)[x]) # 动态时点

test['pct'] = test.value.rank(pct=True) # 当前时点

test

python分箱统计个数_使用python 计算百分位数实现数据分箱代码_第1张图片

以上这篇使用python 计算百分位数实现数据分箱代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。

你可能感兴趣的:(python分箱统计个数)