pandas.dataframe常用操作

pandas.dataframe常用操作

选取数据

  • 选取行名、列名、值

  • 以标签(行、列的名字)为索引选择数据——x.loc[行标签,列标签]

  • 以位置(第几行、第几列)为索引选择数据——x.iloc[行位置,列位置]

  • 同时根据标签和位置选择数据——x.ix[行,列]

  • 选择连续的多行多列——切片

  • 选取不连续的某几行或者某几列

  • 简便地获取行或者列

  • 如何返回一个dataframe的单列或者单行

  • 按条件选取数据——df[逻辑条件]

转置、排序

  • 转置 df.T

  • 按行名或者列名排序——df.sort_index

  • 按行名或者列名排序——df.sort_index

增删行或者列

  • 增加一列

  • 增加一行

  • 删除行或者列——df.drop

组建dataframe

  • 组建方法——pd.DataFrame

  • 用字典型数据组建——pd.DataFrame

  • 简便地获得聚宽数列中的时间索引

缺失值处理

  • 去掉缺失值——df.dropna

  • 对缺失值进行填充——df.fillna

  • 判断数据是否为确实——df.isnull

常用统计函数

  • describe 针对series或dataframe列计算汇总统计

  • count非na值得数量

  • min、max计算最小值和最大值

  • idxmin、idxmax计算能够获取到的最大值和最小值的索引值

  • quantile计算样本的分位数(0到1)

  • sum值的综合

  • mean值的平均数

  • median值的中位数

  • mad根据平均值计算平均绝对离差

  • var样本值的方差

  • std样本值的标准差

  • skew样本值的偏度(三阶矩)

  • kurt样本值的峰度(四阶矩)

  • cumsum样本值的累计和

  • cummin、cummax样本值的累计最大值和最小值

  • cumprod样本值的累计积

  • diff计算一阶差分

  • pct_change计算百分数变化

panel类型数据分解成dataframe

  • panel类型数据分解成dataframe方法

  • 更多panel操作指南

研究内存取dataframe

  • 把dataframe存成csv文件——df.to_csv()

  • 读取被存成csv文件的dataframe——pd.read_csv()

你可能感兴趣的:(pandas.dataframe常用操作)