多个DataFrame的纵向合并是数据分析中常用的操作,但在实际应用中,我们通常需要对合并后的数据进行来源标识,以便后续分析使用。本文将介绍如何使用Python...

多个DataFrame的纵向合并是数据分析中常用的操作,但在实际应用中,我们通常需要对合并后的数据进行来源标识,以便后续分析使用。本文将介绍如何使用Python为纵向合并的多个DataFrame设置标识符指定数据来源。

假设我们有两个DataFrame:df1和df2,它们的数据结构相同,如下所示:

import pandas as pd

df1 = pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [20, 25]})
df2 = pd.DataFrame({'name': ['Charlie', 'David'], 'age': [30, 35]})

如果要将这两个DataFrame进行合并,并且在结果中添加数据来源的标识符,可以使用如下方法:

merged_df = pd.concat([df1.assign(source='df1'), df2.assign(source='df2')], ignore_index=True)

在这里,我们首先使用assign方法为每个DataFrame添加一个新列‘source’,并将其赋值为‘df1’或‘df2’。然后,我们使用concat方法将两个DataFrame纵向合并,并使用ignore_index参数来重新索引结果DataFrame。

最后,我们得到的合并后的DataFrame merged_df如下所示:

   name  age source
0  Alice   20   df1
1    Bob   25   df1
2   Charlie  30   df2
3    David   35   df2

通过以上步骤和代码,我们成功地为纵向合并的多个DataFrame设置了标识符指定数据来源。这样,在后续对合并数据进行分析时,我们就可以清晰地知道每条记录的来源,方便后续处理。

你可能感兴趣的:(python,数据分析,开发语言)