pd.concat
函数详解本文将深入探讨Python中的pd.concat
函数,包括其原理、用法、示例(含结果输出)、源码分析和官方链接。
pd.concat
函数是pandas库中用于连接多个DataFrame或Series对象的强大函数。它可以在水平方向(列连接)或垂直方向(行连接)上连接数据,并提供了各种参数来控制连接方式和结果。
主要原理如下:
pd.concat(objs, axis=0, join='outer', ignore_index=False)
objs
:要连接的DataFrame或Series对象序列,可以是一个列表或字典。axis
:连接的轴,默认为0,表示按行连接。join
:连接方式,默认为’outer’,表示使用并集的方式进行连接。ignore_index
:是否忽略连接后结果中的索引,默认为False。以下是使用pd.concat
函数的示例代码和结果输出:
import pandas as pd
# 创建第一个DataFrame
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
# 创建第二个DataFrame
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
# 使用concat函数进行行连接
df_concat_rows = pd.concat([df1, df2])
print(df_concat_rows)
"""
A B
0 1 3
1 2 4
0 5 7
1 6 8
"""
# 使用concat函数进行列连接
df_concat_cols = pd.concat([df1, df2], axis=1)
print(df_concat_cols)
"""
A B A B
0 1 3 5 7
1 2 4 6 8
"""
# 使用ignore_index参数
df_concat_ignore_index = pd.concat([df1, df2], ignore_index=True)
print(df_concat_ignore_index)
"""
A B
0 1 3
1 2 4
2 5 7
3 6 8
"""
在上述示例中,我们首先创建了两个DataFrame对象df1
和df2
,它们具有相同的列名。然后,我们使用pd.concat
函数对这两个DataFrame对象进行连接。
首先,我们使用默认的行连接方式,将df2
追加到df1
的末尾,得到了新的DataFrame对象df_concat_rows
。输出结果显示了垂直拼接后的DataFrame对象。
然后,我们使用axis=1
参数进行列连接,将df1
和df2
的列进行水平拼接,得到了新的DataFrame对象df_concat_cols
。输出结果显示了水平拼接后的DataFrame对象。
最后,我们使用ignore_index=True
参数,忽略连接后结果中的索引,重新生成连续的整数索引,得到了新的DataFrame对象df_concat_ignore_index
。输出结果显示了忽略索引后的DataFrame对象。
# pd.concat源码分析
def concat(objs, axis=0, join='outer', ignore_index=False):
# ... 省略部分代码 ...
# 执行连接操作
op = _Concatenator(
objs, axis=axis, join=join, keys=keys, levels=levels,
names=names, verify_integrity=verify_integrity,
sort=sort, copy=copy)
return op.get_result()
在pd.concat
的源码中,会调用内部的_Concatenator
类来执行连接操作,并返回结果。
pandas.concat - 官方文档