pandas入门(四):pandas中数据DataFrame的合并和联结

在使用 SQL 语句分析数据的时候,经常会碰到数据并不是放在同一张表格中,在做分析时候需要把数据联结到一起,在分析前需要对数据进行合并联结处理,如果两张表格的数据都非常大的时候,是不建议直接在SQL 中进行处理的,容易造成 服务器卡死的现象,DataFrame 同样也提供了传统 SQL 的数据合并联结方式。

把两张相同格式的数据合并到一起

SQL 中相同的数据如果放在两张表中,可以使用union 把数据相连。两个DataFrame 可以使用 append 进行扩展,append 的更多用法在官网。

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'],'C': ['C0', 'C1', 'C2', 'C3'],'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],'B': ['B4', 'B5', 'B6', 'B7'],'C': ['C4', 'C5', 'C6', 'C7'],'D': ['D4', 'D5', 'D6', 'D7']})

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],'B': ['B8', 'B9', 'B10', 'B11'],'C': ['C8', 'C9', 'C10', 'C11'],'D': ['D8', 'D9', 'D10', 'D11']})

result = df1.append(df2,ignore_index = True)

print df1
print
print df2
print
print result
print
print result['A'][0]

结果如下:

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3

    A   B   C   D
0  A4  B4  C4  D4
1  A5  B5  C5  D5
2  A6  B6  C6  D6
3  A7  B7  C7  D7

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

A0

concat 是一种更加灵活的连接方式,append 是一种简版的concatconcat 的用法更多,例如对表格进行横向的扩展:

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'],'C': ['C0', 'C1', 'C2', 'C3'],'D': ['D0', 'D1', 'D2', 'D3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],'B': ['B4', 'B5', 'B6', 'B7'],'C': ['C4', 'C5', 'C6', 'C7'],'D': ['D4', 'D5', 'D6', 'D7']})
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],'B': ['B8', 'B9', 'B10', 'B11'],'C': ['C8', 'C9', 'C10', 'C11'],'D': ['D8', 'D9', 'D10', 'D11']})


df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],'D': ['D2', 'D3', 'D6', 'D7'],'F': ['F2', 'F3', 'F6', 'F7']})
result = pd.concat([df1, df4], axis=1)
print result

扩展结果:

    A   B   C   D   B   D   F
0  A0  B0  C0  D0  B2  D2  F2
1  A1  B1  C1  D1  B3  D3  F3
2  A2  B2  C2  D2  B6  D6  F6
3  A3  B3  C3  D3  B7  D7  F7

concat 的更多用法在官网

通过键值关联数据

merge 可以是两个DataFrame 通过某个关键字段关联在一起,concat 中进行扩展并没有通过一种关系来对应,merge 可以指定 key。

import pandas as pd

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],'C': ['C0', 'C1', 'C2', 'C3'],'D': ['D0', 'D1', 'D2', 'D3']})
result = pd.merge(left, right, on='key')

print left
print
print right
print
print result

指定key的结果为:

    A   B key
0  A0  B0  K0
1  A1  B1  K1
2  A2  B2  K2
3  A3  B3  K3

    C   D key
0  C0  D0  K0
1  C1  D1  K1
2  C2  D2  K2
3  C3  D3  K3

    A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K2  C2  D2
3  A3  B3  K3  C3  D3

merge 的更多用法在官网

你可能感兴趣的:(pandas入门教程,windows,python)