我们以Titanic 数据为例,来进行说明; 所有数据,请参考《泰坦尼克数据集》
import pandas as pd
path = r'./titanic.csv'
df = pd.read_csv(path)
pandas中提供了一个非常方便的方法df.describe()
,来列出常用的统计值,包括:计数值(count),平均值(mean),标准差(std),最小值(min),最大值(max)等,举例如下:
df.describe()
常用统计值包括计数值,计数值(count),平均值(mean),标准差(std),最小值(min),最大值(max)等,举例如下:
若不指定具体的列,则Pandas会默认计算所有的可计算的列:
df.mean() #平均值
a = df['Age'].mean()
b = df['Age'].max()
c = df['Age'].min()
d = df['Age'].std()
e = df['Age'].median()
f = df['Age'].quantile(0.05)
print('平均值为:',a)
print('最大值为:',b)
print('最小值为:',c)
print('标准差为:',d)
print('中位数为:',e)
print('5%分位数为:',f)
常用的统计值有以下:
函数 | 描述 |
---|---|
count() | 计数值 |
first() | 第一项的值 |
last() | 最后一项的值 |
mean() | 平均值 |
median() | 中位数 |
min() | 最小值 |
max() | 最大值 |
std() | 标准差 |
var() | 方差 |
mad | 均值绝对偏差 |
prod() | 所有项的乘积 |
sum() | 所有项的和 |
当我们直接使用统计值时,可以知道整体状况,比如所有人的年龄的平均值,但是比如我们想要知道:男性和女性的年龄分别是多少。这时我们就需要使用 pd.groupby()
.
pd.groupby()
的工作原理就是:分割,应用,组合,如下图所示:
df.groupby('Sex').mean()
df.groupby('Sex')['Age'].mean()
df.groupby('Sex')['Age'].describe()
.unstack()
,变换输出的形状;df.groupby('Sex')['Age'].describe().unstack()
aggregate()
,filter()
,transform()
,apply()
aggregate()
df.groupby('Sex')['Age'].aggregate(['mean','min','max'])
filter()
def filter_func(x):
return x['Age'].mean() > 30
df.groupby('Sex').filter(filter_func)
从下面的截图可以看到,性别里只剩下男性了;说明女性的年龄平均值不到30;
transform()
df.groupby('Sex')['Age'].transform(lambda x:x-x.mean())
apply()
这里举例为:我们看一下每个人的票价占总票价的比例,代码如下:
def func(x):
x['Fare'] = x['Fare']/x['Fare'].sum()
return x
df.groupby('Sex')['Name','Fare','Sex'].apply(func)