pandas统计数据项重复值次数和删除

整体代码:

import numpy as np
import pandas as pd

# 原始数据
df = pd.DataFrame({'key1':['a','a','b','b','a','a'],
                'key2':['one','one','one','two','one','one'],
                'data1':[1,1,2,2,3,3],
#                 'data2':np.random.randn(6)
                })
df

df.duplicated()#查看是否有重复
-df.duplicated()

dup=df[df.duplicated()]#重复

df[df.duplicated()].count()#重复个数

nodup=df[-df.duplicated()]#重复去除
nodup

图片:
pandas统计数据项重复值次数和删除_第1张图片
pandas统计数据项重复值次数和删除_第2张图片

分解看:

import numpy as np
import pandas as pd
# 原始数据
df = pd.DataFrame({'key1':['a','a','b','b','a','a'],
                'key2':['one','one','one','two','one','one'],
                'data1':[1,1,2,2,3,3],
#                 'data2':np.random.randn(6)
                })
df

pandas统计数据项重复值次数和删除_第3张图片

df.duplicated()#查看是否有重复
-df.duplicated()

pandas统计数据项重复值次数和删除_第4张图片

dup=df[df.duplicated()]#重复

在这里插入图片描述

df[df.duplicated()].count()#重复个数

在这里插入图片描述

nodup=df[-df.duplicated()]#重复去除
nodup

pandas统计数据项重复值次数和删除_第5张图片

你可能感兴趣的:(python基础)