pandas.concat()通常用来连接DataFrame对象。默认情况下是对两个DataFrame对象进行纵向连接, 当然通过设置参数,也可以通过它实现DataFrame对象的横向连接。
# 初始化两个DataFrame对象
df1 = pd.DataFrame([['a', 1], ['b', 2]],
columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
columns=['letter', 'number'])
display(df1)
display(df2)
# 合并对象
pd.concat([df1, df2])
从上面的结果可以看出, concat默认纵向连接DataFrame对象, 并且合并之后不改变每个DataFrame子对象的index值, 因此我们可以在合并之后的DataFrame中看到index的值0和1重复了两次。如果希望重新设置合并之后的DataFrame对象的index值, 可以添加ignore_index=True参数:
pd.concat([df1, df2], ignore_index=True)
# 初始化DataFrame对象
df1 = pd.DataFrame([['a', 1], ['b', 2]],
columns=['letter', 'number'])
df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']],
columns=['letter', 'number', 'animal'])
display(df1)
display(df3)
# 合并对象
pd.concat([df1, df3], sort=False) # sort=False : 列的顺序维持原样, 不进行重新排序。
从结果可以看到, 因为df1中没有animal列, 所以在合并之后的DataFrame对象里, 所对应的元素都被设置成了NaN。
如果只想合并相同的列, 我们可以添加上join='inner'参数:
pd.concat([df1, df3], join='inner')
通过设置axis=1, 可以横向合并两个DataFrame对象。
# 初始化DataFrame对象
df1 = pd.DataFrame([['a', 1], ['b', 2]],
columns=['letter', 'number'])
df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']],
columns=['animal', 'name'])
display(df1)
display(df4)
# 合并对象
pd.concat([df1, df4], axis=1)
从上面的结果可以看出,通过设置axis=1参数,我们实现了df1和df4两个DataFrame对象的合并。