数据基本情况之描述性统计分析python

  1. 集中趋势:均值、中位数、众数
  2. 离散程度:方差(标准差),IQR=Q3-Q1 (中间 50%数据的范围)
  3. 分布形态描述:核密度分布图、改进箱图

以下例子data为某一服务的响应时长数据,浮点型。

import numpy as np

# 1. 集中趋势:均值、中位数、众数
m=np.mean(data)
print('均值:',m)
md=np.median(data)
print('中位数:',md)


# 2.离散程度:方差、标准差,IQR=Q3-Q1(中间 50%数据的范围) 
v=np.var(data)
print('方差:',v)
s=np.std(data)
print('标准差:',s)

Percentile = np.percentile(data,[0,25,50,75,100])
IQR = Percentile[3] - Percentile[1]
print('Q1:',Percentile[1])
print('Q2:',Percentile[2])
print('D1:',Percentile[3])
print('IQR:',IQR)

U1 = Percentile[3] + IQR*1.5
U2 = Percentile[3] + IQR*3.0
D1 = Percentile[1] - IQR*1.5
D2 = Percentile[1] - IQR*3.0
print('上界可能异常值:',U1)
print('上界异常值:',U2)
print('下界可能异常值:',D1)
print('下界异常值:',D2)

# 3. 分布形态:改进箱图、核密度分布图
df_select=df.loc[(df['distance']>0)&(df['distance']

时长本不应该是负数,所以去掉负数。众数 0.148。5s未响应基本上属于服务异常


箱形图

去掉异常值后的密度分布情况


核密度分布情况

参考链接:https://wenku.baidu.com/view/f084924d11a6f524ccbff121dd36a32d7375c795.html

你可能感兴趣的:(数据基本情况之描述性统计分析python)