dataframe 去重复_关于python实现Excel大批量数据去重的方法

dataframe 去重复_关于python实现Excel大批量数据去重的方法_第1张图片

关于python实现Excel大批量数据去重的方法

当Excel数据量很大的时候,常规的编码方式效率非常低下。这个时候需要专业地大数据量处理方法进行去重处理。

pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

需求:根据商品编号来判断行数据,如果相同商品编号的上一行和下一行的数据重复(重复定义为考核价和裸价都相同)那么删除重复的行,保留一行。:

Excel中的数据如下:

dataframe 去重复_关于python实现Excel大批量数据去重的方法_第2张图片

用python实现大批量数据去重方法如下:

#! /usr/bin/python
# -*- coding: utf-8 -*-
# 根据商品编号来判断,如果上一行和下一行的这两列都相同那么删除重复的行,保留一行。
# 导入pandas包并重命名为pd
import pandas as pd
import sys
import importlib
import copy
if __name__ == '__main__':
    importlib.reload(sys)
    # 读取Excel中Sheet1中的数据 dtype = {"商品编号":str, "考核价":str, "裸价":str}
    data = pd.DataFrame(pd.read_excel('2020-05-11.xlsx', 'Sheet1', dtype=str))
    # 查看读取数据内容
    print(data)
​
    # 查看是否有重复行
    re_row = data.duplicated()
    print(re_row)
​
    # 查看去除重复行的数据
    no_re_row = data.drop_duplicates()
    print(no_re_row)
​
    # 查看基于['考核价', '裸价']列去除重复行的数据
    wp = data.drop_duplicates(subset = ['商品编号', '考核价', '裸价'])
    print(wp)
    # 将去除重复行的数据输出到excel表中
    wp.to_excel("2020-05-11-drop-duplicates.xlsx")

你可能感兴趣的:(dataframe,去重复)