pandas分组后如何对分组后的数据进行遍历处理?

在进行数据分析时,我们常常需要对数据集进行分组,然后针对不同的分组进行不同的处理。Pandas的.groupby()方法可以轻松实现数据分组,本文将介绍如何遍历处理分组后的数据。

首先,我们构造一个示例DataFrame:

python
import pandas as pd

df = pd.DataFrame({
    'A': ['a', 'a', 'b', 'b', 'a'],
    'B': [1, 2, 3, 4, 5],
    'C': [10, 20, 30, 40, 50] 
}) 

 
然后使用.groupby()对'A'列进行分组:

python
grouped = df.groupby('A') 


这会给我们一个GroupBy对象,我们可以迭代这个对象来访问分组名称(name)和分组后的数据(group):

python
for name, group in grouped:
    print(name)
    print(group)


输出:

a
   B  C  
0  1  10  
2  5  50    
b
   B  C  
1  3  30   
3  4  40 


有了分组后的数据,我们就可以对其进行任意处理了:
- 统计汇总:

python
for name, group in grouped:
    print(name)  
    print(group.sum())


- 应用函数:

python 
def multiply(x):
    return x * 2  

for name, group in grouped:
    group['B'] = group['B'].apply(multiply) 


- 重置索引: 

python
for name, group in grouped: 
    group = group.reset_index(drop=True)  

 Pandas的分组功能结合迭代处理,可以轻松实现在分组层面上针对组内数据进行定制化的操作。

你可能感兴趣的:(python,pandas,python,数据分析)