Pandas: 使用read_excel、describe、loc方法求极差、变异系数与四分位数间距

极差:最大值-最小值
变异系数:标准差/平均数
四分位间距:QU上四分位-QL下四分位

# -*-coding: utf-8 -*-

import pandas as pd

init_data = './data/init_data_summary.xls'
data = pd.read_excel(init_data, index_col=u'序列号')    #读数据,以序列号做为索引

data = data[(data[u'金额'] >100) & (data[u'金额'] < 1000)]   #过滤数据,过滤后的数据大于100且小于1000
list_view = data.describe()    #使用describe函数输出计算结果

list_view.loc['jicha'] = list_view.loc['max'] - list_view.loc['min']    #求极差
list_view.loc['bianyixishu'] = list_view.loc['std']/list_view.loc['mean']    #变异系数
list_view.loc['sifenweijianju'] = list_view.loc['75%'] - list_view.loc['25%']    #四分位间距

print(list_view)

输出:

                         序列号
count            xxx
mean           xxx
std             xxx
25%            xxx
50%             xxx
max             xxx
jicha           xxx
bianyixishu     xxx 
sifenweijianju   xxx

 

你可能感兴趣的:(Python数据分析与挖掘)