import pandas as pd
Pandas进行数据运算时,会按照索引进行一一对应,对应后进行相应的算术运算,没有对齐的位置就会用NaN
进行填充。
>>> list1=pd.Series([20,50,45,56,89])
>>> list2=pd.Series([22,56,45])
>>> list1+list2
0 42.0
1 106.0
2 90.0
3 NaN
4 NaN
dtype: float64
如果不希望没有对应的部分用NaN
填充,则可以在调用add
方法的时候提供fill_value
参数的值,fill_value
将会使用对象中存在的数据进行补充
>>> list1=pd.Series([20,50,45,56,89])
>>> list2=pd.Series([22,56,45])
>>> list1.add(list2,fill_value=0)
0 42.0
1 106.0
2 90.0
3 56.0
4 89.0
dtype: float64
Pandas常用的统计计算方法
函数名称 | 说明 |
---|---|
sum | 计算总和 |
mean | 计算平均值 |
median | 获取中位数 |
max/min | 获取最大值/最小值 |
idxmax/idxmin | 获取最大和最小索引值 |
count | 计算非NaN值的个数 |
head | 获取前N个值 |
var | 样本值的方差 |
std | 样本值的标准差 |
unique | 某一索引对应的所有值 |
value_counts | 某一索引对应值的频率,并按计数值进行排序 |
describe | 对Series与DataFrame列计算汇总统计 |
describe方法:希望一次性输出多个指标统计
describe(percentiles=None,include=None,exclude=None)
percentiles为包含的百分数(位于[0,1]之间)。如果不设置该参数,则默认为[0.25,0.5,0.75]之间。
>>> data=pd.DataFrame(np.arange(12).reshape(3,4),columns=['a','b','c','d'])
>>> data.describe()
a b c d
count 3.0 3.0 3.0 3.0
mean 4.0 5.0 6.0 7.0
std 4.0 4.0 4.0 4.0
min 0.0 1.0 2.0 3.0
25% 2.0 3.0 4.0 5.0
50% 4.0 5.0 6.0 7.0
75% 6.0 7.0 8.0 9.0
max 8.0 9.0 10.0 11.0