pandas中关于DataFrame去掉重复行和NaN行

1.去掉重复行

使用pandas自带的drop_duplicates方法:

norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first')
#去掉A_ID和B_ID列中重复的行,并保留重复出现的行中第一次出现的行

补充:
当keep=False时,就是去掉所有的重复行
当keep=‘first’时,就是保留第一次出现的重复行
当keep='last’时就是保留最后一次出现的重复行。
(注意,这里的参数是字符串,要加引号!!!)

2.去掉NaN行

使用pandas自带的dropna()方法:

#删除表中某行全部为NaN的行
nonan_df = df.dropna(axis=0, how='all')

#删除表中某行含有任何NaN的行
nonan_df = df.dropna(axis=0, how='any')  

补充:
删除行的参数axis = 0
删除列的参数axis = 1

你可能感兴趣的:(数据挖掘和数据分析,计算机大类)