1.df.mean() 默认对每一列的数据求平均值;若加上参数a.mean(1)则对每一行求平均值;
2.统计某一列x中各个值出现的次数:df['x'].value_counts();
3.对数据应用函数 df.apply(lambda x:x.max()-x.min()) 表示返回所有列中最大值-最小值的差。
4.对某一列‘x’的值进行筛选 df [ df ["x"] != y]
5.df[['名称1',‘名称2']],选取df里面的列。
6.df.fillna(0) #用0填充缺失值
7df.fillna('missing') 用字符串代替缺失值
8.df.fillna(method='pad')#用前一个数据代替NaN
9.df.fillna(method='bfill',limit=1)#用后一个数据替代NaN,限制每列只能替代一个NaN
10.df.fillna(df.mean()['one':'two'])#用平均数代替,选择one,two两列进行缺失值处理
11.df.info(),查看DataFrame特征的数目,空值,数据类型
12.df.describe()查看DataFrame的基本信息
13.df['A'].hist()查看变量的分布
14.df.isnull().sum查看一列的缺失值情况
15.df.unique()查看数据的取值
16.df.value_counts()查看这一列值的统计
17.df.to_csv('wenjianming.csv',sep=",",index=False)保存为csv文件
18.df.to_csv('wenjianming.txt',sep=" ",index=False)保存为txt文件
19.df[df.isnull().values==True] 查看nan所在的行和列
20.df.rename(columns={'A':'a', 'B':'b', 'C':'c'}, inplace = True)新的列名