数据预处理时的一些基本操作

1、删除某一列:

            df.drop(列名,axis = 1(删除列),inplace = True(对原dataframe进行操作)

2、判断哪一列有空值:

            df.isnull().any()

           如果有空值 则该列返回True,否则返回False

3、删除值含空的数据

            df.dropna()    参数how默认为any

            如果该行数据有空 则删除这一行,how如果为all 则该行所有数据全为空时才删除

4、通过其他列的计算生成一列新数据

            df[新列名] = df[列名1]/df[列名2]

5、根据某一列进行排序

            df.sort_values(by = 列名,asending = True)

6、查看某一列都有那些元素

           df[列名].unique()

7、统计某一列各个元素出现次数

          df[列名].value_counts()

8、以某一列分组,得到每个组的某一列数据和

         df.groupby(要分组的列名)[要求数据的列名].sum()

         df.groupby(要分组的列名)[要求数据的列名].apply(sum)

9、多条件查询

        df.groupby([列名1,列名2])[要查询的列名].sum()

10、对某一列使用函数

        df[列名].map(函数名)

11、进行数据类型的转换(这里转化为时间类型)

        df[列名] = pd.to_datatime(df[列名])

12、将series中的一级索引转化为列索引(一般对分组后的数据操作)

        s1.unstack(一级索引名)

13、把列索引转化为series一级索引(一般对分组后的数据操作)

        df.stack(列名)

14、合并数据

        pd.concat([df1,df2,df3],ignore_index = True)

        ignore_index = True表示重新设置索引

后续更新......

            

        

你可能感兴趣的:(数据预处理时的一些基本操作)