数据分析 pandas(二)

转换与处理时间序列

对时间类型的数据分析的前提就是将原本为字符串的时间转换为标准时间

类名称 说明
Timestamp 表示某个时间点
period 表示单个时间跨度,某个时间段
Timedelta 不同的单位时间,而非具体的某个时间
Datetimeindex 一组timestamp构成的index,可以用来作为series或者dataframe的索引
periodtimeindex 一组period构成的index,可以用来作为series或者dataframe的索引
timedeltaindex 一组timedelta构成的index,可以用来作为series或者dataframe的索引

用to_datatime函数转换timestamp

还可以将数据单独提取出来将其转换为datatimeindex或者periodindex,转换periodindex需要通过freq参数指定时间间隔。

 参数名称 说明
data array
freq string,表示时间间隔频率
start 接受string,表示时间数据的起始点
periods 需要生成的周期数目
end string。表示生成时间规制的终结点
tz timezone,数据的时区
name ing,string 指定datetimeindex的名字

timedelta类不仅可以使用正数还可以使用负数,能够实现时间的算术运算。所以可以实现时间平移和相减

使用分组聚类进行组内计算

分组函数:df.groupby(by=none,axis=0,level=None,as_index=true,sort=true,group_key=true,squeeze=false)

参数名称 说明
by 接受list,string,mapping,generator。用于确认进行分组的依据
axis int,操作的轴向
level int或索引名,标签级别
as_index bool值。聚合后的聚合标签是否以dataframe输出
sort bool值。是否进行分组
squeeze

bool值。对返回数据进行降维

聚合:df.agg(func,axis=0)或者df.aggregate(func,axis=0)

可以使用agg方法一次求出当前数据的所有菜品的销量的售价总和和均值

detail[["counts",'amounts'].agg([np.sum,np.mean]))

如果要对字段分开操作,则使用字典方法

detail.agg({'counts’:np.sum,'amount':np.mean}))

创建透视表

pd.pivot_table(data,values=None,index=none,columns=none,aggfunc='mean',margins=false,dropna=true)

参数名称 说明
data dataframe,创建表的数据
value 字符串,想要聚合的字段名
index int或string,行分组键
columns string或list,列分组键
aggfunc function。聚合函数
dropna bool,删除所有nan的值

创建交叉表

pd.crosstab(index,columns,values=None,rownames=none,colnames=none...)

交叉透视表的参数和透视表参数保持一致,index,columns,value填入的是dataframe中的某一列

你可能感兴趣的:(数据分析)