python比较两份数据的差异

主要方法是将数据转化成DataFrame,利用pandas进行处理。

  • 相同数据:
data_same = pd.merge(data, data2, how='inner')
  • 不同的数据
data_diff = pd.concat([data2, data, data]).drop_duplicates(keep=False)

代码举例:
import pandas as pd

解决控制台输出显示补全

pd.set_option('display.max_rows', 50000)
pd.set_option('display.max_columns', 10000)
pd.set_option('display.width', 100000)

data = pd.read_excel('Excel_1路径')
data2 = pd.read_excel('Excel_2路径')

data_same = pd.merge(data, data2, how='inner')

data_diff = pd.concat([data2, data, data]).drop_duplicates(keep=False)
print("新增的数据:\n{0}\n".format(data_diff))

除此之外,pandas.compare()也可以比较两个DataFrame,不过必须得是大小相同的DataFrame,大小不一致会报错,这个只能用来检测表中的数据是否有修改,如果是新增的数据是没办法检测的,只能采用pd.concat()函数。

你可能感兴趣的:(大数据,python,pandas,开发语言)