Pandas库--算术运算与常用函数

Pandas库--算术运算与常用函数

  • 引入Pandas包
  • 算术运算
  • 统计计算与描述

引入Pandas包

import pandas as pd

算术运算

Pandas进行数据运算时,会按照索引进行一一对应,对应后进行相应的算术运算,没有对齐的位置就会用NaN进行填充。
Pandas库--算术运算与常用函数_第1张图片

>>> list1=pd.Series([20,50,45,56,89])
>>> list2=pd.Series([22,56,45])
>>> list1+list2
0     42.0
1    106.0
2     90.0
3      NaN
4      NaN
dtype: float64

如果不希望没有对应的部分用NaN填充,则可以在调用add方法的时候提供fill_value参数的值,fill_value将会使用对象中存在的数据进行补充
Pandas库--算术运算与常用函数_第2张图片

>>> list1=pd.Series([20,50,45,56,89])
>>> list2=pd.Series([22,56,45])
>>> list1.add(list2,fill_value=0)
0     42.0
1    106.0
2     90.0
3     56.0
4     89.0
dtype: float64

统计计算与描述

Pandas常用的统计计算方法

函数名称 说明
sum 计算总和
mean 计算平均值
median 获取中位数
max/min 获取最大值/最小值
idxmax/idxmin 获取最大和最小索引值
count 计算非NaN值的个数
head 获取前N个值
var 样本值的方差
std 样本值的标准差
unique 某一索引对应的所有值
value_counts 某一索引对应值的频率,并按计数值进行排序
describe 对Series与DataFrame列计算汇总统计

describe方法:希望一次性输出多个指标统计

describe(percentiles=None,include=None,exclude=None)

percentiles为包含的百分数(位于[0,1]之间)。如果不设置该参数,则默认为[0.25,0.5,0.75]之间。

>>> data=pd.DataFrame(np.arange(12).reshape(3,4),columns=['a','b','c','d'])
>>> data.describe()
         a    b     c     d
count  3.0  3.0   3.0   3.0
mean   4.0  5.0   6.0   7.0
std    4.0  4.0   4.0   4.0
min    0.0  1.0   2.0   3.0
25%    2.0  3.0   4.0   5.0
50%    4.0  5.0   6.0   7.0
75%    6.0  7.0   8.0   9.0
max    8.0  9.0  10.0  11.0

你可能感兴趣的:(Python数据处理,python,数据分析)