series 合并pandas_Pandas怎样实现数据的合并?

使用场景:

批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列

一句话说明concat语法:使用某种合并方式(inner/outer)

沿着某个轴向(axis=0/1)

把多个Pandas对象(DataFrame/Series)合并成一个。

concat语法:pandas.concat(objs, axis=0, join='outer', ignore_index=False)objs:一个列表,内容可以是DataFrame或者Series,可以混合

axis:默认是0代表按行合并,如果等于1代表按列合并

join:合并的时候索引的对齐方式,默认是outer join,也可以是inner join

ignore_index:是否忽略掉原来的数据索引

append语法:DataFrame.append(other, ignore_index=False)

append只有按行合并,没有按列合并,相当于concat按行的简写形式other:单个dataframe、series、dict,或者列表

ignore_index:是否忽略掉原来的数据索引

参考文档:pandas.concat的api文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

pandas.concat的教程:https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

pandas.append的api文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.htmlimport pandas as pd

import warnings

warnings.filterwarnings('ignore')

一、使用pandas.concat合并数据df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],

'B': ['B0', 'B1', 'B2', 'B3'],

'C': ['C0', 'C1', 'C2', 'C3'],

'D': ['D0', 'D1', 'D2', 'D3'],

'E': ['E0', 'E1', 'E2', 'E3']

})

df1ABCDE0A0B0C0D0E0

1A1B1C1D1E1

2A2B2C2D2E2

3A3B3C3D3E3df2 = pd.DataFrame({ 'A': ['A4', 'A5', 'A6', 'A7'],

'B': ['B4', 'B5', 'B6', 'B7'],

'C': ['C4', 'C5', 'C6', 'C7'],

'D': ['D4', 'D5', 'D6', 'D7'],

'F': ['F4', 'F5', 'F6', 'F7']

})

df2ABCDF0A4B4C4D4F4

1A5B5C5D5F5

2A6B6C6D6F6

3A7B7C7D7F7

1、默认的concat,参数为axis=0、join=outer、ignore_index=Falsepd.concat([df1,df2])ABCDEF0A0B0C0D0E0NaN

1A1B1C1D1E1NaN

2A2B2C2D2E2NaN

3A3B3C3D3E3NaN

0A4B4C4D4NaNF4

1A5B5C5D5NaNF5

2A6B6C6D6NaNF6

3A7B7C7D7NaNF7

2、使用ignore_index=True可以忽略原来的索引pd.concat([df1,df2], ignore_index=True)ABCDEF0A0B0C0D0E0NaN

1A1B1C1D1E1NaN

2A2B2C2D2E2NaN

3A3B3C3D3E3NaN

4A4B4C4D4NaNF4

5A5B5C5D5NaNF5

6A6B6C6D6NaNF6

7A7B7C7D7NaNF7

3、使用join=inner过滤掉不匹配的列pd.concat([df1,df2], ignore_index=True, join="inner")ABCD0A0B0C0D0

1A1B1C1D1

2A2B2C2D2

3A3B3C3D3

4A4B4C4D4

5A5B5C5D5

6A6B6C6D6

7A7B7C7D7

4、使用axis=1相当于添加新列df1ABCDE0A0B0C0D0E0

1A1B1C1D1E1

2A2B2C2D2E2

3A3B3C3D3E3

A:添加一列Seriess1 = pd.Series(list(range(4)), name="F")

pd.concat([df1,s1], axis=1)ABCDEF0A0B0C0D0E00

1A1B1C1D1E11

2A2B2C2D2E22

3A3B3C3D3E33

B:添加多列Seriess2 = df1.apply(lambda x:x["A"]+"_GG", axis=1)s20    A0_GG

1    A1_GG

2    A2_GG

3    A3_GG

dtype: objects2.name="G"pd.concat([df1,s1,s2], axis=1)ABCDEFG0A0B0C0D0E00A0_GG

1A1B1C1D1E11A1_GG

2A2B2C2D2E22A2_GG

3A3B3C3D3E33A3_GG# 列表可以只有Series

pd.concat([s1,s2], axis=1)FG00A0_GG

11A1_GG

22A2_GG

33A3_GG# 列表是可以混合顺序的

pd.concat([s1,df1,s2], axis=1)FABCDEG00A0B0C0D0E0A0_GG

11A1B1C1D1E1A1_GG

22A2B2C2D2E2A2_GG

33A3B3C3D3E3A3_GG

二、使用DataFrame.append按行合并数据df1 = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))

df1AB012

134df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))

df2AB056

178

1、给1个dataframe添加另一个dataframedf1.append(df2)AB012

134

056

178

2、忽略原来的索引ignore_index=Truedf1.append(df2, ignore_index=True)AB012

134

256

378

3、可以一行一行的给DataFrame添加数据# 一个空的df

df = pd.DataFrame(columns=['A'])

df

A:低性能版本for i in range(5):

# 注意这里每次都在复制

df = df.append({'A': i}, ignore_index=True)

dfA00

11

22

33

44

B:性能好的版本# 第一个入参是一个列表,避免了多次复制

pd.concat(

[pd.DataFrame([i], columns=['A']) for i in range(5)],

ignore_index=True

)A00

11

22

33

44

你可能感兴趣的:(series,合并pandas)