pandas汇总和描述性统计

本文介绍pandas中汇总和描述性统计中的基本内容,仅供参考。

目录

1描述和汇总统计

1.1sum方法

1.2idxmin和idxmax方法

1.3describe方法

1.4描述和汇总统计的常用方法

2相关系数和协方差

3唯一值、值计数以及成员资格

3.1唯一值

3.2值计数

3.3成员资格

1描述和汇总统计

1.1sum方法

用DataFrame的sum方法将会返回一个含有列小计的Series:

  • NA值会自动被排除,除非整个切片(这里指的是行或列)都是N

函数格式:

df.sum( axis=None, skipna=None, level=None, numeric_only=None, min_count=0, **kwargs, )

参数说明:

axis:约简的轴。DataFrame的行用0,列用1

skipna:排除缺失值,默认值为True

level:如果轴是层次化索引的(即Multiindex),则根据level分组约简

案例:

from pandas import Series, DataFrame 
import pandas as pd
import numpy as np


df = DataFrame([[1.4, np.nan], [7.1, -4.5],
    [np.nan, np.nan], [0.75,-1.3]],
    index=['a','b','c','d'],
    columns=[ 'one', 'two'])


df.sum()


#传入axis=1将会按行进行求和运算:
df.sum(axis=1)


df.mean(axis=1, skipna=False)

pandas汇总和描述性统计_第1张图片pandas汇总和描述性统计_第2张图片

pandas汇总和描述性统计_第3张图片

 

pandas汇总和描述性统计_第4张图片

1.2idxmin和idxmax方法

idxmin和idxmax返回的是间接统计(达到最小值或最大值的索引)

案例:

df.idxmax()


df.cumsum()    # 累计型的计算

pandas汇总和描述性统计_第5张图片

 

1.3describe方法

用于一次性产生多个汇总统计

案例:

df1 = pd.DataFrame({'key':list('abcdfeg'),
'data1':range(7)})


df1['data1'].describe()

pandas汇总和描述性统计_第6张图片

对于非数值型数据,describe会产生另外一种汇总统计

案例:

obj = Series(['a','a','b','c'] * 4)


obj.describe()


obj.describe()['count']

pandas汇总和描述性统计_第7张图片

 

1.4描述和汇总统计的常用方法

pandas汇总和描述性统计_第8张图片

pandas汇总和描述性统计_第9张图片

2相关系数和协方差

Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数

pandas汇总和描述性统计_第10张图片

 

 与此类似,cov用于计算协方差。

DataFrame的corr和cov方法将以DataFrame的形式返回完整的相关系数或协方差矩阵:

pandas汇总和描述性统计_第11张图片

利用DataFrame的corrwith方法,可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series (针对各列进行计算):

pandas汇总和描述性统计_第12张图片

3唯一值、值计数以及成员资格

3.1唯一值

函数是unique,它可以得到Series中的唯一值数组:

pandas汇总和描述性统计_第13张图片

 返回的唯一值是未排序的,如果需要的话,可以对结果再次进行排序

3.2值计数

value_counts用于计算一个Series中各值出现的频率:

结果Series是按值频率降序排列的(值作为行索引)。

value_counts还是一个顶级pandas方法,可用于任何数组或序列:

pandas汇总和描述性统计_第14张图片

 

3.3成员资格

isin,它用于判断矢量化集合的成员资格,可用于选取 Series中或DataFrame列中数据的子集:

pandas汇总和描述性统计_第15张图片

你可能感兴趣的:(pandas学习笔记,pandas,python,数据分析)