我有一个以多索引作为列的数据帧。我想按级别1分组并应用一个生成新列的函数。我希望将这个计算列添加到每个组中,因此我的dataframe为每个组添加新列。在
我做了一个小的虚拟脚本和函数来复制我想做的事情。在import pandas as pd
import numpy as np
columns = [('A','julian'),('A','geoffrey'),
('B','julian'),('B','geoffrey'),
('C','julian'),('C','geoffrey')]
columns = pd.MultiIndex.from_tuples(columns)
dataframe = pd.DataFrame(data=np.random.rand(10,6),columns=columns)
def addColumn(inputDF):
group = inputDF.columns[0][1]
inputDF['sum', group] = inputDF.sum(axis=1)
return inputDF
newColumnsDataframe = dataframe.groupby(level=1, axis=1).apply(addColumn)
原始数据帧如下所示:
^{pr2}$
得到的数据帧应该如下所示(我分别构造了sum dataframe,并将两个数据帧连接起来以获得这个结果):A B C sum A B C \
geoffrey geoffrey geoffrey geoffrey julian julian julian
0 0.073676 0.279702 0.258112 0.611491 0.204082 0.795725 0.258185
1 0.096733 0.541198 0.757652 1.395584 0.263235 0.507324 0.525919
2 0.028613 0.364365 0.924733 1.317710 0.196243 0.653408 0.174911
3 0.831569 0.738029 0.294473 1.864071 0.528785 0.654160 0.940831
4 0.263250 0.855270 0.264698 1.383219 0.853517 0.803087 0.701937
5 0.069519 0.374411 0.846647 1.290578 0.239797 0.943544 0.189361
6 0.290414 0.873785 0.118713 1.282912 0.980734 0.850097 0.903645
7 0.088387 0.062140 0.872064 1.022590 0.591942 0.566298 0.568482
8 0.061483 0.008404 0.658370 0.728257 0.818167 0.282050 0.449198
9 0.427602 0.171458 0.234426 0.833486 0.217424 0.471933 0.390549
sum
julian
0 1.257992
1 1.296478
2 1.024561
3 2.123776
4 2.358542
5 1.372703
6 2.734476
7 1.726721
8 1.549415
9 1.079906
上面脚本中的方法是基于对我有意义的,以及其他人在网上写的关于做这种事情的内容。但是,newColumnsDataframe仍然只有6列,而不是8列(每个名称添加一列)。在
我确实注意到,当我按level=0(因此按A、B或C)分组并使用transform(但在这个级别上使用apply时没有),newColumnsDataframe确实有9列,每个组添加一个sum列。参见以下代码:import pandas as pd
import numpy as np
columns = [('A','julian'),('A','geoffrey'),
('B','julian'),('B','geoffrey'),
('C','julian'),('C','geoffrey')]
columns = pd.MultiIndex.from_tuples(columns)
dataframe = pd.DataFrame(data=np.random.rand(10,6),columns=columns)
def addColumn(inputDF):
group = inputDF.columns[0][1]
inputDF[group, 'sum'] = inputDF.sum(axis=1)
return inputDF
newColumnsDataframe = dataframe.groupby(level=0, axis=1).transform(addColumn)
我一直认为,transform在组内的每个列上工作,而apply作为一个整体对组进行操作。这似乎与此相矛盾。
我还注意到,当我按level=1分组并使用transform代替apply时,会抛出以下错误:ValueError: Length mismatch: Expected axis has 10 elements, new values have 6 elements
我对发生的事很困惑。有人知道当我在level=0上使用transform和group时为什么会这样做吗。为什么当我做同样的事,但在级别=1时会出现错误。为什么在这两个级别上分组并应用该函数都不会将列添加到最终的数据帧中?提前谢谢!在
(注:这不是我用来添加列的实际数据帧或函数,只是一个简单的说明)