Pandas:Basic Data Analysis


  • 《Pandas Cookbook》Chapter 3.

Exploratory Data Analysis (EDA)探索性资料分析

强大的df.describe()

  • help(pd.DataFrame.describe)

管理内存

  • df.dtypes:
    df.memory_usage(deep=True):
    两个配合使用,前面显示每一列的数据类型,后面显示每一列所需内存大小
  • df['col_name'] = df['col_name'].astype(): 转换指定列的数据类型,降低内存消耗

  • df.nlargest(n, 'col_name'): 返回选定列的top n行
  • df.nsmallest(n, 'col_name'): 返回选定列的bottom n行
  • df.sort_values(col_names_list, ascending=False):以多列为基准进行排序
  • df.drop_duplicates(subset='col_name'): 对指定列留下存在重复值的第一个

选取子集

你可能感兴趣的:(Pandas:Basic Data Analysis)