在医院统计计算绩效数据,通过在网上搜索,发现Pandas确实在数据处理确实快。本文章持续更新和更改,只供自己学习使用
一、重复数据查询:
Pandas提供duplicated函数标记重复
pandas.DataFrame.duplicated(self, subset=None, keep=’first’)
subset:用于识别重复的列标签或列标签序列,默认所有列标签
keep=‘frist’:除了第一次出现外,其余相同的被标记为重复
keep=’last’:除了最后一次出现外,其余相同的被标记为重复
keep=False:所有相同的都被标记为重复
举例说明:
repeat=operationData[operationData.duplicated([‘手术日期’,’病案号’,”手术医生”])]
print(repeat)
这样就根据手术日期、病案号、手术医生三列查出重复数据了,默认是把后出现的数据标记为重复
二、去掉重复数据:
使用drop_duplicates(subset=None, keep=’first’, inplace=False)
该函数也有keep参数,于duplicates一样,另外该函数还有一个参数inplace,如果是True则直接修改源数据,False则返回一个修改后的副本
ExecuteDataFrame.drop_duplicates([“手术日期”,”手术名称”,”病案号”])#去掉重复记录
该函数返回已经删除重复行记录的dataframe